HERRAMIENTAS Y TÉCNICAS PARA LA APLICACIÓN Y EL ANÁLISIS ... · HERRAMIENTAS DE CAPTURA • Si...
-
Upload
truongtram -
Category
Documents
-
view
217 -
download
0
Transcript of HERRAMIENTAS Y TÉCNICAS PARA LA APLICACIÓN Y EL ANÁLISIS ... · HERRAMIENTAS DE CAPTURA • Si...
Soy computóloga. Mi doctorado es en la teoría de la computación (major) y matemáticas discretas (minor). En la maestría estudié algoritmos para problemas difíciles (major) y investigación de usabilidad (minor).
Sin embargo, no existe una facultad de ciencias computacionales y no se ve probable ni en realidad posible que llegue a formarse próximamente, por lo cual me ubico con los ingenieros.
CON QUÉ LES QUITO TIEMPO HOY
• Con qué se puede aplicar encuestas. • Cómo se puede analizar y representar
información obtenida de encuestas. • Categórica • Numérica. • Geográfica. • Textual.
HERRAMIENTAS DE CAPTURA
• Si tienen una compu a la mano, conviene utilizar Google Forms o alguna cosa similar
• Ustedes definen las preguntas (seleccionando el tipo y proporcionando los textos relacionados).
• La gente contesta en un navegador web (de manera presencial o a distancia)
• Descargan las respuestas y hasta análisis básica de las mismas en algo como Excel
• Hay múltiples opciones gratuitas en línea para esto; suelen ser más fáciles de usar que Word
ANÁLISIS DE RESULTADOS
Los pedazos en italiano son resultado de que mi cuenta de Google está configurado para utilizar el italiano en el interfaz (lo aprovecho para practicar).
• Aplicaciones para tablets (tipo iPad)
• Checar primero en AppStore si lo que quieren ya existe o gratis o barato
• Si no, es relativamente rápido desarrollar un App propio para responder a encuestas y/o capturar entrevistas (hasta pueden grabar sonido mientras toman notas)
• Es un tema de tesis maravilloso para un chavo de licenciatura en un área relacionado con software
HERRAMIENTAS DE CAPTURA
• Para seguir usando papelitos
• Se diseñan los formularios de tal manera que sean fáciles de escanear y procesar por automático
• Esto ya no es así de complicado como solía ser; hasta cámaras de smartphone sirven más o menos bien como escáners
• La interpretación del escaneo se logra con técnicas de OCR y otros trucos de visión computacional (hasta Google Drive hace esto hasta cierto grado si le suben documentos escaneados)
• Si no hallan un software gratis y no completan para uno comercial, encarguen el desarrollo como tema de tesis
HERRAMIENTAS DE CAPTURAhttp://sdaps.org/
The Author
The Title
This questionnaire is automatically read by a computer program. Please use a pen for filling in your answers.Check: You can check any number of boxes in selection questions.Uncheck to correct: For questions with a range (1–5) choose the answer the mark that fits best.
Some information here. Nothing special, just adds a line above/below.
1 Range Questions
1.1 How often do you use SDAPS?
never daily
1.2 What do you think about the following aspects of LATEX?
equation syntax bad goodrendered equations ugly beautifulease of use hard easy
2 Choice Questions
We can also give users a question with predefined choices. Such a list of choices is typesetted using a tabularxenvironment with equally sized columns. Items can span multiple columns.
2.1 Which of the following Open Source Optical Mark Recognition software packages have you heard about?
SDAPS Auto Multiple Choice
QueXF Other:
2.2 Which software do you prefere for the following tasks?
LATEX LibreOffice Microsoft Word otherwriting letterscreating tablestypesetting equations
3 Freeform text fields
SDAPS will extract freeform textfields such as below as images and put these into reports. SDAPS knowswhether there is writing in the box and how large it is.
3.1 Do you have any comments?
The Author
The Title
4 Tricks and Features
SDAPS can also use circular checkboxes if you prefere. Or you can use the multicol package to create multi-column layouts as is done below.
4.1 This is a range question
lower bound upper bound
As you can see, this is a multi-column layout. Themarkgroup and choicegroup environments may be abit tight in this mode.
Lets put some more questions here, just because wecan.
4.2 A choice question!
first choicesecond choicethird choice
other:
4.3 Another range question
lower bound upper boundThis text is closer to the question compared to ques-tion 4.1 because it is not starting a new paragraph.
4.4 And a freeform text field
That’s it for the multi-column part; it was fun while it lasted!
There are some more special commands. You can draw crossed checkboxes, filled or filled and crossedones. Finally there is also the plain checkbox using \checkbox*.
4.5 And textboxes with a fixed height. This one is exactly 2 cm high.
2829233940 0002
¿CÓMO ANALIZO ALGO ASÍ?
• Técnicas de visión computacional pueden calificar hojas de escaneadas de este tipo.
• O que de plano les prestes una tablet a los que encuestas para contestar, en cual caso por lo general la app lo hace por si sólo.
• U obligas a estudiantes que midan con una regla y capturen la posición para calcular la proporción.
• Been there, done that. No quejan mucho y sale rápido.
ANÁLISIS Y VISUALIZACIÓN
• Yo en primer lugar hago gráficas para mi misma para interpretar los resultados.
• Como un efecto secundario salen gráficas para mostrar a los demás y meter en las publicaciones.
• Mi herramienta favorita para jugar con datos se llama R (es como SPSS pero legalmente gratis), aunque también uso mucho Gnuplot y Python.
• Hay muchos totorales buenos en línea.
0
50
100
150
200
250
300
350
400
450
0 20 40 60 80 100
Nunca
A diario
¿Con qué frecuencia haces cosa X?
HISTOGRAMASCuando sí existe un orden,
GRÁFICAS DE DISPERSIÓNaxis represents the age of the husband and the y-axis the age of the wife.
30
35
40
45
50
55
60
65
70
75
80
85
30 35 40 45 50 55 60 65 70 75 80
Wife
's'Ag
e
Husband's'Age
Figure 2. Scatter plot showing wife’s age as a function of husband’s age.Figura 2, Capítulo 4.
David M. Lane, editor. Introduction to Statistics. Edición electrónica, 695 páginas, Rice University, Houston, TX, EE.UU., 2007.
GRÁFICAS DE DISPERSIÓN DE 2+ FACTORES
12
Me gustaría seguir trabajando en mi área de trabajo
0 20 40 60 80 100
Me gusta mi trabajo
0
20
40
60
80
100
Teng
o la
s co
mpe
tenc
ias
que
el p
uest
o re
quie
re
0
20
40
60
80
100
Dadas m
is funciones es justa la remuneración económ
ica que recibo
Figura 0.11: Cuatro preguntas con algunas dependencias evidentes entre ellos; los puntos se concentran mayormente a la derecha, con tendencia hacia arriba,siendo los a la derecha por lo general los más grandes. Los amarillos y rojos están por lo general más arriba que los negros y los morados, con algunas excepciones.
AGRUPANDO RESPUESTAS
4
0
100
200
300
400
500
Menor o igual a 50 Mayor a 50
Cant
idad
de
resp
uest
as
Porcentaje indicado en la respuesta
Dos niveles
0
100
200
300
400
0-25 26-50 51-75 76-100
Porcentaje indicado en la respuesta
Cuatro niveles
0 50
100 150 200 250 300 350
0-12.5 37.5-50 50-62.5 62.5-75 75-87.5 87.25-100
Cant
idad
de
resp
uest
as
Porcentaje indicado en la respuesta
Ocho niveles
Figura 0.2: Tres histogramas obtenidas para las respuestas a la primera pregunta, usando tres niveles de discretiza-ción.
0
0.2
0.4
0.6
0.8
1
1 2 3 4 5 6 7 8 9 10 11
Valo
res
de la
s re
spue
stas
Pregunta
Diagramas caja-bigote para preguntas 1-11 de la encuesta
Figura 0.3: Diagramas de caja-bigote que permiten ver la variabilidad en las respuestas de múltiples preguntas deforma simultánea. En esta �gura se observa que preguntas 5–7 y 10 recibieron respuestas más dispersas, mientrasla mayoría estuvo de acuerdo con las demás.
Casi nunca basta con reportar el promedio, y de nada ayuda incluir una desviación estándar si no hay certeza
que siguiera una distribución normal.
GRÁFICAS DE TELARAÑA CIRCULARES
P2P3
P5
P6
P7
P8
P9
P10
P11
Legibles desde cinco hasta aprox. una docena de ejes.
10
0 100 200 300 400
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
> 0> 20> 40> 60> 80
Figura 0.9: El nivel de acuerdo para las preguntas 210–268, agrupado en cinco niveles (porcentajes de 0–20, 20–40, 40–60, 60–80 y 80–100). Cuando la zonacoloreada baja, la cantidad total de respuestas bajó. Cuando la zona azul disminuye su proporción, la pregunta obtuvo menos respuestas de alto nivel deacuerdo que las preguntas que le preceden y siguen.El nivel de acuerdo (de cero a cien) para más de 50 preguntas.
> 0> 20> 40> 60> 80
247 248 249 250 251 252
GRÁFICAS DE TELARAÑA LINEALES
A colorear mapas, como en primaria…
GIMP - GNU Image Manipulation Program Software libre multiplataforma disponible en línea en http://www.gimp.org/
ASIGNACIÓN DE COLORES
• Elegir un rango fácil de interpretar
• Verde, azul o blanco suele indicar bueno / bajo
• Rojo o negro suele indicar malo /alto
• Recurrir a una escala logarítmica cuando una escala lineal no produce diferencias visibles
• Necesario cuando hay órdenes de magnitud de diferencias entre zonas
LIMPIEZA
• Corrección automatizada de ortografía
• Conversión a formas base de las palabras
• http://stemmer-es.sourceforge.net
• Posiblemente eliminación de sinónimos
• Cálculo de frecuencias / co-ocurrencias
• Visualización
ANÁLISIS DE FRECUENCIA
Versión entregada a Patricia Cerda para la edición del libro, elaborada el 23 de febrero del 2011
Espinosa & Schaeffer: Análisis y visualización computacional de textos de suicidas
Figura 1. Matriz de frecuencias de palabras; un extracto de las 50 palabras más frecuentes del conjunto de cartas analizadas.
R PROJECT• Es como SPSS, pero gratis
• Muy útil y versátil, ampliamente documentado
• Funciona en Windows, Linux & Mac OS sin problemas
• Disponible en línea de forma gratuita
• http://www.r-project.org/
• Tengo un curso en línea de uso libre en español para aprender lo básico sobre probabilidad y estadística usando R
• Para ustedes, sus estudiantes, conocidos, etc.
• http://elisa.dyndns-web.com/teaching/prob/prob.html
GNUPLOT, MI FAVORITO
HTTP://WWW.GNUPLOT.INFO/
Las gráficas son de http://gnuplot.sourceforge.net/demo_5.0/
PYTHON
• Si llegan al punto que R y Gnuplot ya no hacen todo lo que quieren hacer (a mí a veces me pasa, pero yo soy rara), echen un vistazo a Python.
• Es parecido a R, pero de propósito más general (R es una “megacalculadora programable”, mientras Python cuenta como “programación de verdad”).
https://www.python.org/
“Se ven lindos, pero no entendí nada ¿ahora qué?”
• Platiquen con colegas investigadores fuera de su área.
• Lo que creen que sería complicado y tardado les puede resultar rápido y sencillo.
• Si les incluyen como coautores, dudo que intenten cobrarles dinero por procesar, analizar o visualizar datos.
• Capaz que hasta les desarrollen herramientas específicas para que le muevan por su cuenta.
Todo esto les saldrá muy fácil con herramientas completamente gratuitas.
Si no hallan colegas de buena onda, por mínimo consíganse estudiantes de computación
✓ como becarios en proyectos financiados
✓ servicio social / prácticas profesionales
✓ trabajos de tesis de licenciatura y posgrado
Las encuestas de los ejemplos utilizados en la ponencia son de los trabajos de mis colegas y amigas
Daniela Escobedo Belloc (la de seminaristas) & Patrica Liliana Cerda Pérez (la de policias).
Algunas de las gráficas en la presentación fueron producidas por Juan Carlos Espinosa Ceniceros,
Ingeniero en Tecnología de Software, como mi coautor cuando estaba realizando sus estudios de licenciatura.
AGRADECIMIENTOS