Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón...

25
Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología

Transcript of Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón...

Page 1: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

Clase de Estadística con uso de computador

Apuntes de clase interactivos

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 2: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

A veces las clases de Estadística siguen el esquema:1. Presentación de concepto con fórmulas asociadas2. Ejemplo de aplicación con cálculo manual o con

auxilio del computador3. Interpretación Cuando se trata de temas avanzados, las fórmulas

suele ser complejas y el cálculo manual es impráctico o tedioso, aún con computador.

El uso de software especializado (como SPSS, R o Excel) alivia el cálculo, pero puede generar elementos imprevistos de distracción como e-mail, chat, youtube, etc., pues se realiza en laboratorios donde además hay conexión a Internet y otros programas instalados.

En este contexto no es aconsejable recurrir al expediente de cortar la conexión a internet u otros programas, pues no va al origen del problema

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 3: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

El problema está asociado a un esquema de clase más bien pasivo para el alumno, donde los materiales de clase están depositados en un documento (tipo Word o Latex) o una presentación (tipo Power point) e inicialmente el profesor explica los temas y el alumno toma notas manuales en un cuaderno o en el mismo material de clase impreso.

La participación más activa recién ocurre cuando se aplica el software especializado en el ejemplo de aplicación y entonces la atención gira alrededor del uso del programa estadístico y sus particularidades, no necesariamente en el aprendizaje de los conceptos estadísticos de base.

Es una tentación natural, entonces, que el alumno trate de aliviar la tensión o su aburrimiento, y usa para ello las facilidades disponibles: Internet y sus recursos, dejando para otro momento el retorno al tema de la clase.

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 4: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

La solución que aquí se propone es retener la atención y actividad del alumno de modo productivo, mediante “sesiones de clase con apuntes de interactivos” que no es sino un clásico “texto guía” pero electrónico. Esto es, se trata de una “plantilla” de clase que contiene:

1. Un problema concreto y sencillo que requiera la técnica motivo de la clase, incluyendo los datos y la pregunta de base, aquella que genera el “desequilibrio cognitivo”

2. La formalización estadística del problema, con espacios vacíos para ser rellenados por los alumnos y el profesor durante la sesión.

3. La solución, paso a paso, con espacios vacíos para ser llenados vía el uso de software y la correspondiente interpretación

4. La teoría estadística de la metodología aplicada, también con espacios para llenar, con las definiciones y deducciones teóricas

5. Un ejemplo final, más complejo, donde los alumnos aplican lo visto antes guiados por el profesor, escribiendo sus propias conclusiones y anotaciones

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 5: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

El desarrollo de la plantilla se hace de manera interactiva, con participación del profesor que guía a los alumnos y pone las anotaciones comunes (aquellas que figurarían en sus apuntes de clase usuales más aquellas que surgen de modo natural durante su explicación), trabajando en conjunto con los alumnos (que además de las anotaciones del profesor, proponen anotaciones y escriben sus propias observaciones).

Las instrucciones de uso del software se integran en los apuntes, así como la interpretación de los resultados.

El cierre de la sesión puede incluir la integración de los apuntes de cada uno con los propuestos por el profesor y que han sido desarrollados en la clase misma

Es preferible elaborar la plantilla en formato de documento, donde es más fácil agregar texto, ecuaciones e imágenes, además de la salida del programa estadístico usado, que suele estar como cuadro o en texto.

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 6: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

Ventajas1. Mantiene al alumno activo y retiene más su

atención, pues al menos debe rellenar los espacios por sí mismo

2. Al final cada alumno tiene unos apuntes personales, con los apuntes comunes más sus propias anotaciones

3. Integra el uso del software y sus instrucciones, subordinado a la teoría en sí y su desarrollo durante la clase

4. Los alumnos “desarrollan” la metodología estadística, pues la complementan con sus observaciones y con sus respuestas a las preguntas que se generan durante la sesión

5. Motiva el trabajo de la clase como grupo

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 7: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

Desventajas1. Requiere que la clase se desarrolle en laboratorio, con

una computadora por alumno y conexión a internet.2. Hay que medir bien el tiempo, pues en general las

intervenciones de los alumnos alargan el desarrollo de cada punto

3. Habrá puntos más difíciles de integrar a los apuntes aún cuando sea sencillo hacerlos en pizarra, pues requieren fórmulas y gráficos cuya edición es especializada (usando el “módulo de ecuaciones” del Word, por ejemplo)

4. No se controla al 100% la posible distracción del alumno con otras facilidades de internet (e-mail, exploración de la red, etc.) , aunque se disminuye bastante la probabilidad de que esto ocurra

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 8: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

Ejemplo: Explicación de fundamentos del análisis jerárquico de conglomerados o “Cluster analysis”(sólo mostramos los pasos 1 a 3 de la metodología)

Supongamos que hemos medido dos variables cuantitativas X e Y en n=7 personas y tenemos los datos de abajo

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Sujeto A B C D E F G

X 1 1 2 5 5 6 6

Y 1 2 1 5 6 5 6

Page 9: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

En este conjunto de n=7 sujetos y p=2 variables, hay k=2 grupos diferenciados o “clusters” o conglomerados. Lo que se puede ver, si graficamos los puntos en un sistema de coordenadas XY(Los alumnos piden a SPSS el gráfico XY y el grupo escribe lo que está en azul)

Figura 1 Clusters de sujetos

X654321

Y

6

5

4

3

2

1

G

F

E

D

C

B

A

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 10: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

En este ejemplo, es fácil “ver” que hay k=2 clusters, pero si agregamos una variable Z al conjunto ¿Cómo saber cuántos clusters hay?O sea ¿Cómo hallar el valor de k?

Sujeto A B C D E F G

X 1 1 2 5 5 6 6

Y 1 2 1 5 6 5 6

Z 1 1 1 3 3 8 8

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 11: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

¿Un gráfico tridimensional? Ayuda pero ¿y si agregamos una cuarta variable? ¿Y si tenemos p variables X1,X2,..,Xp?

Los gráficos ya no bastan. Necesitamos una alternativa analítica

Objetivo: generar una metodología que permita grupos o “clusters” de casos que estén menos distantes en el grupo y más distantes entre grupos

A B

C

D E

F G

Figura 2 Clusters de sujetos

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 12: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

La mayor o menor cercanía entre los sujetos se puede evaluar midiendo la “distancia” entre los pares de puntos que los representan.

Recordemos que, geométricamente, la distancia entre dos puntos del plano, digamos P=(X1,Y1) y Q=(X2,Y2) es

En el ejemplo con sólo dos variables, calculemos todas las distancias entre

sujetos, en X, Y, pero para evitar complicaciones, no tomaremos raíz cuadrada sino que usaremos:

Con esta “distancia” inicial entre casos, formemos sistemáticamente los clusters más razonables desde el caso extremo donde cada caso es un cluster (k=7) al otro caso extremo donde todos los casos caen en un solo cluster (k=1). En el camino habremos pasado por el valor “natural” de k y usaremos un método gráfico para reconocer este valor

212

212 )()(),( yyxxQPd

212

212 )()(),( yyxxQPd

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 13: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

(1) Generamos un cuadro (“matriz”) inicial de distancias del tipo: (esta matriz es calculada por alumnos y profesor usando Excel o a mano)

  A B C D E F G

A 0            

B 1 0          

C 1 2 0        

D 32 25 25 0      

E 41 32 25 1 0    

F 41 34 32 1 2 0  

G 50 41 41 2 1 1 0

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 14: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

(2) Identifiquemos los DOS casos “más cercanos” y los juntamos o fusionarlos en un cluster:En este caso, hay varios pares a distancia 1, por comodidad seleccionemos A y B, para formar el “cluster” {A,B}. Tenemos entonces k = 6 clusters, a saber: {A,B}, {C}, {D},{E},{F} y {G}

(3) Formemos una nueva matriz de distancias, considerando a A y B como un solo sujeto:

Un problema: ¿Cómo medir la distancia entre {A,B} y cualquier otro caso o punto P? o sea ¿Cómo medir distancia entre clusters? Usamos la “distancia del vecino más próximo” d(P,{A,B})= Menor valor en {d(P,A), d(P,B)}(se suguiere esta solución a los alumnos)

Con esta “distancia” entre clusters, formamos una nueva matriz de distancias

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 15: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

Por ejemplo d(C,{A,B})= Menor valor en {d(C,A), d(C,B)}= Menor valor en {d(C,A), d(C,B)} = Menor valor en {1,2} = 1;

d(E, {A,B})= 32; d(F, {A,B})= 34, etc. La matriz de distancias es:(los alumnos calculan el cuadro de abajo)

  {A,B} C D E F G

{A,B}0          

C1 0        

D25 25 0      

E32 25 1 0    

F34 32 1 2 0  

G 41 41 2 1 1 0

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 16: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

(4) Repetimos el paso (2) en la nueva matriz de distancias: Ubicamos los clusters más cercanos (a menor distancia) y los fusionamos: En este caso, tomamos C como más cercano a {A,B} y formamos el nuevo cluster {A,B,C}.

(5) Usando la “distancia del vecino más próximo” d(P,{A,B,C})= Menor valor en {d(P,A), d(P,B), d(P,C)}, formamos una nueva matriz de distancias:

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 17: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

d(D,{A,B,C} = Mínimo valor en {25,25}=25; d(E,{A,B,C} = Mínimo valor en {32,25}=25;d(F,{A,B,C} = Mínimo valor en {34,32}=32, etc. (los alumnos forman el cuadro de abajo)

  {A,B,C} D E F G

{A,B,C}

0        

D25 0      

E25 1 0    

F32 1 2 0  

G 41 2 1 1 0

Page 18: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

(6) Ubicamos los clusters más cercanos en la matriz anterior: D y E, que forman el cluster {D,E}. Luego regresamos al paso anterior, recalculando distancias y así sucesivamente obtenemos matrices de distancias:(las matrices las calculan los alumnos en conjunto con el profesor)

  {A,B,C} {D,E} F G

{A,B,C}

0      

{D,E}25 0    

F32 1 0  

G 41 1 1 0

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 19: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

  {A,B,C} {D,E,F} G

{A,B,C} 0    

{D,E,F} 25 0  

G 41 1 0

  {A,B,C} {D,E,F,G}

{A,B,C}0  

{D,E,F,G}25 0

  {A,B,C,D,E,F,G}

{A,B,C,D,E,F,G}25

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 20: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

Repasando las sucesivas matrices de distancia y tomando nota de las clusters formados y las “distancias de fusión” formamos un cuadro resumen como el de abajo (el profesor va preguntando al grupo los elementos del cuadro)

El cuadro muestra TODOS los clusters razonables que se puede formar y la distancia dentro de cada uno. Por inspección, se puede determinar la cantidad “natural” k de clusters que hay en estos datos. En este ejemplo, k es k=2, pues si pasamos a k=1, la distancia dentro del cluster sube mucho, de 1 a 25 (resaltamos en rojo los 2 clusters dentificados)

k ClusterDistancia dentro de cluster o de fusión

7 {A},{B},{C},{D},{E},{F},{G} 0

6 {A,B},{C},{D},{E},{F},{G} 1

5 {A,B,C},{D},{E},{F},{G} 1

4 {A,B,C},{D,E},{F},{G} 1

3 {A,B,C},{D,E,F},{G} 1

2 {A,B,C},{D,E,F,G} 1

1 {A,B,C,D,E,F,G} 25

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 21: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

Un gráfico de árbol, donde se muestra la formación de clusters y la correspondiente distancia de fusión, también indica que hay k=2 clusters (sólo hay dos “ramas”) (el grupo discute y construye el gráfico)

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 22: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

¿Cómo se hace lo anterior con un programa estadístico como SPSS?

La secuencia de ordenes es: Analyze => Classify=>Hierarchical Cluster => Variables: X,Y,=>Label cases by: Sujeto =>Plots: Check en Dendrogram => Continue=>Method=>Cluster Method: Nearest neighbor =>Continue=>OK. (esta secuencia la muestra el profesor y el grupo lo va siguiendo)

El resultado es:

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 23: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

SPSS muestra el “dendrograma” o gráfico de árbol y el cuadro de sucesivas distancias de fusión

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 24: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

El “dendrograma” es similar al obtenido a mano y es fácil de entender

El esquema de fusiones (agglomeration schedule) muestra las sucesivas fusiones y las distancias correspondientes, y se ve que el “salto” en la distancia de fusión ocurre cuando pasamos de k=2 a k=1 cluster, por eso debemos detener las fusiones a la altura de k=2 (el esquema de fusiones es explicado por el profesor haciendo analogía con los cálculos manuales que condujeron al mismo resultado, profesor y alumnos escriben la explicación del esquema)

Se cierra esta etapa con una breve estación de preguntas y conclusiones, como:

¿Habría otras maneras de medir “distancias” entre clusters, además de la del “vecino más próximo”? La respuesta es: Sí, por ejemplo la del vecino más alejado, o una distancia promedio o una distancia entre promedios. (el profesor muestra la primera e induce al grupo a intuir la segunda. Luego muestra el repertorio de distancias disponibles con SPSS y anima a los alumnos a probarlas con los datos y ver si cambia el valor k=2)

Prof. Arturo Calderón GarcíaCurso Estadística Social en Psicología

Page 25: Clase de Estadística con uso de computador Apuntes de clase interactivos Prof. Arturo Calderón García Curso Estadística Social en Psicología.

¿Siempre funciona el dendrograma? La respuesta es: No (el profesor cambia los datos con los alumnos y muestra el contraejemplo.

¿Hay otros métodos además del dendrograma? La respuesta es: Sí (el profesor pregunta al grupo para idear métodos alternativos y no gráficos, siempre basados en la confrontación de k con la distancia de fusión. Al final se presentan otros métodos ya conocidos, como el de “punto de corte al 50%” o el de Mojena

¿Qué pasa si tenemos muchos datos? Hay que cambiar de método de cluster!, esto justifica pasar al Método de las k Medias (k-means en SPSS). Aquí se pasa al ejemplo con datos reales y propios del área de Psicología Social.

Más informes: Puede escribir a: [email protected]