1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos,...

31
1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o más grupos de objetos o individuos, de los que conocemos los valores de p variables. Objetivo: Explicar la pertenencia de cada individuo a un grupo (variable categórica) según la variable aleatoria p-dimensional del objeto (variable explicativa). Predecir a qué grupo pertenece un individuo nuevo, del que conocemos el valor de la variable p dimensional clasificadora o explicativa. Puede aplicarse para: Describir: Explicar la diferencia entre los distintos tipos de objetos. Hacer Inferencia: Contrastar diferencias significativas entre poblaciones. Tomar de decisiones: Decidir donde clasificar un objeto. 7. Análisis Discriminante

Transcript of 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos,...

Page 1: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

1

Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o más grupos de objetos o individuos, de los que conocemos los valores de p variables.

Objetivo:

Explicar la pertenencia de cada individuo a un grupo (variable categórica) según la variable aleatoria p-dimensional del objeto (variable explicativa).Predecir a qué grupo pertenece un individuo nuevo, del que conocemos el valor de la variable p dimensional clasificadora o explicativa.

Puede aplicarse para:

Describir: Explicar la diferencia entre los distintos tipos de objetos.Hacer Inferencia: Contrastar diferencias significativas entre poblaciones.Tomar de decisiones: Decidir donde clasificar un objeto.

7. Análisis Discriminante

Page 2: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

2

SUPUESTOS

Existen K poblaciones o grupos G1, G2,....Gk.

Cada grupo está formado por n1, n2,...nk objetos: .

Sobre cada objeto han sido medidas p variables x1, x2,.xp,

Se quiere buscar una regla de decisión que permita asignar un objeto a uno de los grupos partiendo de la información anterior.

Los datos se presentan en matriz de n objetos pertenecientes a K grupos, medidos por una variable aleatoria p dimensional y una variable discreta que indica el grupo al que pertenece cada objeto.

Page 3: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

3

CLASIFICACIÓN

Funciones discriminantes lineales de Fisher:

Permiten diferenciar los grupos para el proceso de clasificación. Son combinación lineal de las P variables, interviniendo cada una con un peso diferente que indica las que más discriminan. Problema descriptivo.

Funciones discriminantes canónicas:

Sirven para la predicción óptima del grupo a que pertenece un individuo. Problema de inferencia.

MATRIZ DE DATOS G X1 X2 .... Xp 1 1 .... 2 2 3

DATOS

Page 4: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

4

CLASIFICACIÓN CON DOS GRUPOS Y UNA VARIABLE CLASIFICADORA, X

Problema:

Clasificar a cada individuo en el grupo correcto, según la variable clasificadora. Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar: pueden haber errores de clasificación.

C X e I e II

GRÁFICO 1

2

XXC:ntediscriminacortedePunto III

Xi<C, clasificar al individuo i en grupo I.

Xi>C, clasificar al individuo i en grupo II

Los errores de clasificación están en :•Área a la derecha de C : Casos del grupo I donde Xi>C: casos del grupo I mal clasificados en el grupo II.•Área a la izquierda de C : Casos del grupo II donde Xi<C,: casos del grupo II mal clasificados en el grupo I.

Page 5: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

5

CLASIFICACIÓN CON DOS GRUPOS Y UNA VARIABLE CLASIFICADORA, X

Problema:

Clasificar a cada individuo en el grupo correcto, según la variable clasificadora. Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar: pueden haber errores de clasificación.

C X e I e II

GRÁFICO 1

2

XXC:ntediscriminacortedePunto III

Xi<C, clasificar al individuo i en grupo I.

Xi>C, clasificar al individuo i en grupo II

Los errores de clasificación están en :•Área a la derecha de C : Casos del grupo I donde Xi>C: casos del grupo I mal clasificados en el grupo II.•Área a la izquierda de C : Casos del grupo II donde Xi<C,: casos del grupo II mal clasificados en el grupo I.

Page 6: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

6

En el periódico “El País” del día 17 de enero de 2002 se publicó un resumen de un estudio incluido en el Anuario social de España 2001 de la Caixa, elaborado por la Universidad Autónoma de Madrid, sobre el mapa de bienestar de las provincias españolas para el año 2001, clasificándolas a partir de las 12 variables siguientes:

El estudio establece una clasificación según el bienestar de las provincias. Queremos hacer un estudio similar, pero considerando el mapa de las autonomías y los datos correspondientes al Anuario social de España de 2004. Tras la aplicación de un análisis cluster jerárquico a los indicadores según autonomía, conseguimos formar cuatro grupos.

1 Renta 7 Condiciones de trabajo 2 Salud 8 Vivienda y equipamiento del hogar 3 Servicios sanitarios 9 Accesibilidad económica y seguridad vial 4 Nivel educativo y culturañ 10 Convivencia y participación social 5 Oferta educativa, cultura y ocio 11 Seguridad ciudadana 6 Empleo 12 Entorno natural y clima

Caso: Situación de las Comunidades Autónomas

españolas en cuanto a indicadores de bienestar

Page 7: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

7

DATOSCC.AA Grupo p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12

Andalucía 1 2 6 4 4 3 3 5 6 6 5 5 5

Castilla-La Mancha 1 3 7 3 2 4 5 3 5 5 8 7 3

Extremadura 1 1 7 5 3 4 3 8 5 4 7 6 5

Murcia 1 3 3 3 4 3 7 9 7 9 6 5 3

Aragón 2 7 5 9 7 7 7 4 7 5 6 5 3

Castilla-León 2 5 6 6 6 7 5 5 5 4 7 7 4

La Rioja 2 8 6 4 7 6 8 5 6 5 6 6 5

Asturias 2 5 2 9 6 5 4 4 5 4 4 8 9

Canarias 2 5 5 6 7 6 5 6 4 9 4 6 8

Cantabria 2 6 7 8 9 6 6 3 6 5 5 8 9

Galicia 2 3 3 5 5 3 5 5 2 6 5 7 9

Valencia 2 5 4 6 5 4 6 6 6 8 5 4 6

Baleares 3 8 3 7 5 10 8 5 6 6 3 4 10

Cataluña 4 8 4 9 9 6 7 6 9 8 3 5 7

Madrid 4 9 7 9 9 5 7 10 9 10 4 4 3

Navarra 4 10 8 10 10 6 10 6 10 7 4 2 5

Euskadi 4 10 6 9 9 5 8 4 9 8 2 1 9

Page 8: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

8

Objetivo y metodología del estudio

Objetivo:

Contrastar si la clasificación que realizamos de las Comunidades Autónomas españolas es correcta, dependiendo de las 12 variables consideradas.

Metodología:

La técnica adecuada es el Análisis Discriminante. En él, la variable grupo de bienestar es la variable dependiente, mientras que el resto son las variables independientes que, previsiblemente, discriminan.

Page 9: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

9

Obtención de las funciones discriminantes

Criterio:Maximizar variabilidad entre grupos respecto a la de dentro de ellos.

Sea un eje definido por el vector unitario U, de dimensión p*1. La proyección del individuo i-ésimo sobre él es el peso zi:

Proyección de los n individuos: Vector Z (nx1), (Z=XU), función discriminante de Fisher. Es una combinación lineal de las k variables explicativas originales.

Problema:Obtener los coeficientes de ponderación uj.

Hay que tener en cuenta que :1. La matriz a diagonalizar no es simétrica: los vectores propios no son

necesariamente ortogonales.2.  El número de ejes discriminantes, F es como máximo el mínimo de [(K-1), p].

)1,2,.....n = (i x u = z ijjp

1=ji

nn2211 uX......uXuXZ

Page 10: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

10

Métodos iterativos de selección de variables

Método de inclusión iterativa

En cada paso se selecciona la variable que más contribuye a la separación de los grupos. El proceso se detiene si ninguna variable separa los grupos significativamente más de lo que ya estaban.

Método de exclusión iterativa

Se incluyen todas las variables y en cada paso se elimina la que menos contribuye a la separación de los grupos. El proceso se detiene cuando la exclusión de cualquiera de las variables hace disminuir significativamente la separación entre los grupos.

Método mixto de inclusión-exclusión: Stepwise

En cada etapa se evalúa la posibilidad de incluir o excluir una variable, según criterios prefijados. Su aplicación requiere definir previamente una regla de decisión, Landa de Wilks, cociente entre el determinante de la matriz de variación dentro de los grupos y el de la matriz de variación total.

Page 11: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

11

Stepwise

Con el landa de Wilks se calcula un estadístico F. Cuanto mayor sea F, más significativa será la variable para la que se calcula. Hay que fijar:

F mínimo para entrar (F-min-to-enter).

F máximo para salir (Fmax-to-go) (F to enter > F de salida).

Nivel de tolerancia: Medida del grado de asociación lineal entre las variables clasificadoras.

Si la tolerancia de la variable i es muy pequeña, significa que dicha variable está muy correlacionada con el resto, lo que puede provocar problemas en la estimación. Generalmente, se fija un nivel mínimo de tolerancia.

Page 12: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

12

Cómo saber si los datos son apropiados

Si las poblaciones son normales, pero con matrices de covarianzas distintas, la regla de clasificación óptima se obtiene con funciones lineales cuadráticas. Excepto en el caso de dos variables, las funciones cuadráticas son difíciles de obtener, por su complejidad analítica. Sin embargo, los resultados prácticos no suelen diferir sustancialmente. Conviene, no obstante, contrastar la igualdad de matrices de covarianzas.

Si las distribuciones de probabilidad poblacionales de los grupos son normales multivariantes con matrices de covarianzas iguales, y se fijan probabilidades a priori y costes idénticos para todos los grupos, la predicción con todas las funciones lineales discriminantes coincide con la clasificación óptima obtenida con la regla de decisión.

Cuando las poblaciones no son normales, las probabilidades o verosimilitud de la muestra no se conocen, al no conocer la forma de la distribución probabilística de cada grupo. En este caso, puede sustituirse el cociente de verosimilitudes por el de distancias de Mahalanobis. Si las poblaciones son normales, ambos coinciden.

Page 13: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

13

Ventanas SPSS 1

En la variable de agrupación pondremos la variable categórica que es la que indica el grupo de pertenencia de cada individuo en la matriz inicial. En nuestro caso se han considerado cuatro grupos.

De 1 a 4

Pediremos las medias y los ANOVAS univariados. Además, pediremos los coeficientes de la función de Fisher, la correlación y la covarianza intra-grupos.

Analizar ClasificarAnálisis discriminante

Page 14: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

14

Ventanas SPSS 2

Si elegimos usar método de inclusión por pasos, debemos definir el que deseamos y los criterios. Utilizaremos la distancia de Mahalanobis. Además, indicaremos que el resultado muestre un resumen de los pasos y el valor de la F de Snedecor para las distancias por parejas.

La distancia de Mahalanobis D² es una medida generalizada de distancia entre dos grupos que tiene en cuenta la posición central (centro de gravedad) y las dispersiones (matrices de productos cruzados o de covarianzas intragrupos) de los grupos.

DI,II: matriz de productos cruzados (matriz de covarianzas intragrupos).

Se asignará cada individuo al grupo para el que D² es menor.

)xx(D)xx(D ji1II,Iji

2j,i

Page 15: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

15

Ventanas SPSS 3Probabilidades previas:

Se puede elegir todos los grupos iguales o calcular según tamaño de grupos.

Mostrar:

Resultados para cada grupo y tabla resumen.

Usar matriz de covarianzas intragrupos.

Gráficos de los grupos combinados.

Page 16: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

16

Resultados: Estadísticos descriptivos

ÍndiceGRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTAL

Media Desv. típ. CVP Media Desv. típ. CVP Media Media Desv. típ. CVP Media Desv. típ. CVP

Renta 2,25 0,957 0,426 5,5 1,512 0,275 8 9,25 0,957 0,104 5,765 2,796 0,485

Salud 5,75 1,893 0,329 4,75 1,669 0,351 3 6,25 1,708 0,273 5,235 1,786 0,341

Ss.sanitarios 3,75 0,957 0,255 6,625 1,847 0,279 7 9,25 0,500 0,054 6,588 2,347 0,356N.educativo y cultural 3,25 0,957 0,295 6,5 1,309 0,201 5 9,25 0,500 0,054 6,294 2,365 0,376Of.educativa, cultural/ocio 3,5 0,577 0,165 5,5 1,414 0,257 10 5,5 0,577 0,105 5,294 1,795 0,339

Empleo 4,5 1,915 0,426 5,75 1,282 0,223 8 8 1,414 0,177 6,118 1,900 0,311

Condiciones trabajo 6,25 2,754 0,441 4,75 1,035 0,218 5 6,5 2,517 0,387 5,529 1,940 0,351

Vivienda 5,75 0,957 0,167 5,125 1,553 0,303 6 9,25 0,500 0,054 6,294 2,054 0,326Acces.ec.y seguridad vial 6 2,160 0,360 5,75 1,832 0,319 6 8,25 1,258 0,153 6,412 1,938 0,302

Conv.y partic.social 6,5 1,291 0,199 5,25 1,035 0,197 3 3,25 0,957 0,295 4,941 1,600 0,324Seguridad ciudadana 5,75 0,957 0,167 6,375 1,408 0,221 4 3 1,826 0,609 5,294 1,929 0,364Entorno natural y clima 4 1,155 0,289 6,625 2,446 0,369 10 6 2,582 0,430 6,059 2,512 0,415

Nº CASOS 4 8 1 4 17

Page 17: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

17

Pruebas de igualdad de medias de los grupos

Variables con los menores valores de lambda: Nivel de instrucción, vivienda, riqueza, servicios sanitarios y educación, cultura y ocio, Empleo y accesibilidad económico-comercial con F significativos a menos de un 10%.

La lambda de Wilk oscila entre 0 y 1. Valores pequeños indican fuertes diferencias de grupo y los cercanos a 1 no diferencias de grupo.

F es una proporción de variabilidad entre-grupos y variabilidad intra-grupos.

Lambda de Wilks F gl1 gl2 Sig.

Índice de renta ,172 20,872 3 13 ,000

Índice de salud ,764 1,340 3 13 ,304

Índice de servicios sanitarios ,311 9,615 3 13 ,001

Índice de nivel educativo y cultural ,173 20,696 3 13 ,000

Índice de oferta educativa, cultural y de ocio ,311 9,623 3 13 ,001

Índice de empleo ,493 4,450 3 13 ,023

Índice decondiciones trabajo (calidad del empleo) ,818 ,967 3 13 ,438

Índice de vivienda y equipamiento del hogar ,302 10,029 3 13 ,001

Índice de accesibilidad económica y seguridad vial ,703 1,833 3 13 ,191

Índice de convivencia y participación social ,372 7,300 3 13 ,004

Índice de seguridad ciudadana ,447 5,355 3 13 ,013

Índice de entorno natural y clima ,653 2,307 3 13 ,125

Variables con niveles superiores de lambda: Condiciones de trabajo, sanidad, convivencia y participación social, entorno y clima y seguridad y medio ambiente, que no muestran diferencias significativas entre los grupos de bienestar, con niveles de significación de la F superiores al 10%.

Page 18: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

18

Matriz de correlaciones

Correlación 1 2 3 4 5 6 7 8 9 10renta 1 0,38 -0,02 0,47 0,49 0,75 -0,24 0,74 -0,07 0,23salud 0,38 1 0,02 0,37 0,52 0,15 -0,2 0,17 -0,34 0,52Ss.Sanitarios -0,02 0,02 1 0,32 0,31 -0,26 -0,19 0,33 -0,38 -0,15N.Educativo 0,47 0,37 0,32 1 0,44 0,31 -0,06 0,53 -0,01 -0,18Oferta Educativa 0,49 0,52 0,31 0,44 1 0,19 -0,2 0,47 -0,4 0,48Empleo 0,75 0,15 -0,26 0,31 0,19 1 0 0,57 0,16 0,31Cond.Trabajo -0,24 -0,2 -0,19 -0,06 -0,2 0 1 0 0,55 0,05Vivienda 0,74 0,17 0,33 0,53 0,47 0,57 0 1 0 0,11Acc.Ec.y Seg.Vial -0,07 -0,34 -0,38 -0,01 -0,4 0,16 0,55 0 1 -0,38Conv.y Part.Social 0,23 0,52 -0,15 -0,18 0,48 0,31 0,05 0,11 -0,38 1Seg.Ciudadana -0,34 -0,05 0,11 0,04 0,15 -0,43 -0,08 -0,37 -0,34 0,19Entorno y clima -0,44 -0,29 0,09 0,05 -0,45 -0,43 -0,35 -0,48 -0,05 -0,73

Las matrices intra-grupos combinadas muestran una matriz de covarianzas y una matriz de correlaciones. Son diferentes de las matrices usuales donde todos los casos son tratados como una muestra individual. Las covarianzas intra-grupos combinadas se obtienen promediando las matrices de covarianzas separadas para todos los grupos. Las correlaciones intra-grupos combinadas se calculan a partir de las covarianzas y varianzas.

Page 19: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

19

Variables introducidas/eliminadas en el análisis

Distancia de Mahalanobis grande: Casos con valores extremos en una o más variables independientes. En cada paso se introduce la variable que maximiza la distancia de Mahalanobis entre los grupos más cercanos.

Paso 1: la variable que maximiza la distancia de Mahalanobis entre los dos grupos más cercanos (2 y 3) es el Nivel educativo y cultural.

Paso 2: Renta entre los grupos 2 y 4.

Paso 3: Oferta educativa entre los grupos 1 y 2.

Paso 4: Se elimina la variable Renta, puesto el estadístico desciende respecto a los anteriores entre los grupos 2 y 4.

Paso 5: Se introduce la variable Vivienda puesto que maximinza la distancia entre los grupos 2 y 4 que son los más cercanos.

Paso 6: Convivencia y participación social entre los grupos 2 y 4.

Paso Introducidas Eliminadas Mín. D cuadrado

      Estadístico Entre grupos F exacta      

          Estadístico gl1 gl2 Sig.

1 N.Educativo   1,887 2 y 3 1,677 1 13 0,218

2 Renta   10,223 2 y 4 12,582 2 12 0,001

3 Of.Educativa   10,530 1 y 2 7,920 3 11 0,004

4   Renta 7,905 2 y 4 9,729 2 12 0,003

5 Vivienda   15,903 2 y 4 11,961 3 11 0,001

6 Conv.y Part.Social   16,958 2 y 4 8,697 4 10 0,003

Page 20: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

20

Estadísticos para las variables en el análisis Paso Variables Tolerancia

F para eliminar

Mín. D cuadrado

Entre grupos

1 Nivel Educativo 1,000 20,696 Nivel Educativo ,783 4,547 ,945 3 y 4 2

Renta ,783 4,607 1,887 2 y 3 Nivel Educativo ,721 4,207 6,821 1 y 2 Renta ,687 2,678 7,905 2 y 4

3

Oferta Educativa ,704 6,495 10,223 2 y 4 Nivel Educativo ,802 20,726 ,000 2 y 4 4 Oferta Educativa ,802 9,786 1,887 2 y 3 Nivel Educativo ,666 13,130 5,584 1 y 2 Oferta Educativa ,726 10,242 3,173 1 y 3

5

Vivienda ,646 7,461 7,905 2 y 4 Nivel Educativo ,508 12,235 12,096 1 y 2 Oferta Educativa ,460 16,481 11,528 1 y 3 Vivienda ,643 6,778 8,560 2 y 4

6

Convivencia y participación social

,574 5,761 15,903 2 y 4

Tolerancia: Proporción de la varianza de la variable que no es explicada por las otras variables independientes. Se utiliza para determinar cuantas variables independientes están linealmente relacionadas con las otras (multicolinealidad). Una variable con muy baja tolerancia contribuye con poca información al modelo y puede causar problemas de cálculo.

F para eliminar: Útil para describir qué ocurre si la variable es eliminada del modelo presente. Es la misma que la F para entrar en la etapa anterior. Dependiendo del método por pasos elegido, podemos ver otros estadísticos tales como la lambda de Wilks.

2ir- 1

Page 21: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

21

Número de variables en cada etapa F exacta F aproximada

Paso

Número de

variables

Lambda

gl1

gl2

gl3 Estadístico gl1 gl2 Sig. Estadístico gl1 gl2 Sig.

1 1 ,173 1 3 13 20,696 3 13 ,000 2 2 ,080 2 3 13 10,102 6 24 ,000 3 3 ,029 3 3 13 9,816 9 26,922 ,000 4 2 ,050 2 3 13 13,847 6 24 ,000 5 3 ,017 3 3 13 13,142 9 26,922 ,000 6 4 ,006 4 3 13 13,121 12 26,749 ,000

Lambda: Contraste multivariante de significación. Contraste de hipótesis de igualdad de medias entre los grupos para cada uno de los pasos. Oscila entre 0 y 1. Valores cercanos a 0: las medias de los grupos son diferentes. Valores cercanos a 1: las medias de los grupos no son diferentes.

Lambda y sus grados de libertad son transformados en un estadístico F. Si el valor de significación es pequeño (menor que 0,10) indica que las medias de los grupos difieren. Si el valor de significación es grande (mayor que 0,10) indica que las medias de los grupos no difieren.

Como el nivel de significación o área que deja a la derecha el estadístico es, como máximo 0,012, a un nivel de significación del 5%, no se puede concluir que las medias de los grupos sean iguales. Es decir, se rechaza la igualdad de medias entre grupos de cada una de las variables incluidas en el análisis.

Page 22: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

22

Comparaciones de grupos por pares:

Última etapa Paso GRUPOS 1 2 3 4

1 F 9,200 17,478 13,471 Sig. ,002 ,000 ,000

2 F 9,200 14,243 8,697 Sig. ,002 ,000 ,003

3 F 17,478 14,243 16,082 Sig. ,000 ,000 ,000

4 F 13,471 8,697 16,082

6

Sig. ,000 ,003 ,000

Los dos grupos con mayores F y menores niveles de significación son los que difieren más.

Los dos grupos con menores F y mayores niveles de significación son los que difieren menos.

Si el valor de significación es pequeño, la diferencia entre los grupos es significativa. Si el valor de significación es grande (mayor que el 5%) entonces la diferencia entre los grupos no es significativa.

Page 23: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

23

Funciones canónicas discriminantesFunción Autovalor % de varianza % acumulado Correlación canónica

1 7,007 48,1 48,1 ,935 2 5,255 36,1 84,3 ,917 3 2,291 15,7 100,0 ,834

Valor propio: Cociente entre la suma de cuadrados intra-grupos e Inter.-grupos. El mayor valor propio corresponde al vector propio en la dirección de la máxima dispersión de las medias de los grupos. El segundo, al vector propio en la dirección que tiene la siguiente mayor dispersión, y así sucesivamente. La raíz cuadrada de cada valor propio proporciona un índice de la longitud del correspondiente vector propio. Valores propios pequeños explican muy poco de la dispersión total.

% de varianza: Evalúa la dispersión de cada variable canónica.

% acumulado: Porcentaje de la dispersión total explicada por las variables canónicas. Las dos primeras variables canónicas explican el 100% de la dispersión total.

Correlación canónica: mide la asociación entre las puntuaciones discriminantes y los grupos. Valores cercanos a 1 indican una fuerte correlación entre las puntuaciones discriminantes y los grupos.

Número de variables canónicas: Cuando hay más de dos grupos, es k-1 (donde k es el número de grupos) o p (el número de variables), el que sea menor de los dos.

Page 24: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

24

Prueba de hipótesis igualdad de medias entre grupos de las funciones

Contraste de las funciones Lambda de Wilks Chi-cuadrado gl Sig. 1 a la 3 ,006 61,260 12 ,000 2 a la 3 ,049 36,297 6 ,000

3 ,304 14,296 2 ,001

La lambda de Wilks varía entre 0 y 1. Valores cercanos a 0 indican que las medias de los grupos son diferentes. Valores cercanos a 1 indican que las medias de los grupos no son diferentes (igual a 1 indica que todas las medias son la misma).

Chi-cuadrado de la lambda de Wilks determina la significación. Si es pequeña (menor que el 10%) indica que las medias de grupo difieren. Si es grande, indica que las medias de los grupos no difieren.

Page 25: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

25

Matriz de estructura Función 1 2 3

Oferta Educativa -,548 ,139 ,088 Empleo (a) ,381 ,279 -,245 Servicios Sanitarios (a) -,325 ,286 -,184 Condiciones de Trabajo (a) ,298 -,014 -,032 Nivel Educativo -,120 ,937 ,159 Convivencia y participación social ,281 -,442 ,212 Renta (a) ,013 ,382 -,341 Vivienda ,019 ,508 -,646 Seguridad ciudadana (a) -,097 -,088 ,560 Salud (a) ,046 ,149 ,386 Entorno y clima (a) -,229 ,212 ,236 Accesibilidad económica y seguridad vial (a) ,171 ,163 -,205

Correlaciones intra-grupos de cada variable predictora con la función canónica. Proporciona otra forma de estudiar la utilidad de cada variable en la función discriminante. Para cada variable, en negrilla se marca su mayor correlación absoluta con una de las funciones canónicas, ordenándose luego por tamaño de correlación.

Función 1: Oferta educativa, Empleo, Servicios sanitarios y Condiciones de trabajo.

Función 2: Nivel educativo, Convivencia y participación social y Renta.

Función 3: Vivienda, Seguridad ciudadana, Salud, Entorno y clima y Accesibilidad económica y seguridad vial.

Page 26: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

26

Coeficientes de funciones canónicas

Función Coeficientes Variable canónica 1 2 3

Nivel educativo ,542 ,957 ,864 Oferta educativa -1,410 -,283 ,021 Vivienda ,277 ,147 -1,173 Convivencia y Part. social 1,023 -,152 ,490

Se utilizan para calcular las puntuaciones de la variable canónica en cada caso. Si las variables son medidas en unidades diferentes, la magnitud de un coeficiente no estandarizado proporciona poca indicación de la contribución relativa de la variable a la discriminación global.

Función 1 2 3 4 Nivel educativo 4,573 7,679 -,603 8,604 Oferta educativa -4,335 -2,048 9,092 -3,400 Vivienda 2,544 -,132 ,522 2,756 Convivencia y part.social 8,164 6,884 -2,091 5,632 (Constante) -35,138 -37,812 -45,214 -53,788

Medias de las variables canónicas por grupos. Las medias intra-grupos se calculan para cada variable canónica. Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos. La estimación de la función de clasificación para las Comunidades Autónomas del grupo 1 es

Los coeficientes no tipificados de las funciones canónicas discriminantes son estrictamente proporcionales a los coeficientes tipificados de dichas funciones para cada una de las variables. Si sustituimos los valores de las variables para cada una de las Autonomías, obtendremos las puntuaciones discriminantes.

Función GRUPOS 1 2 3

1 2,123 -2,494 -1,228 2 -,127 -,052 1,402 3 -8,524 -2,096 -1,536 4 ,261 3,123 -1,191

4321 261.0524.8127.0123,2 GGGG

Page 27: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

27

Estimación del grupo con los coeficientes de las Funciones discriminantes lineales de Fisher

El programa SPSS no ofrece la función discriminante de Fisher, sino tantas funciones como grupos se hayan considerado para los casos. A partir de estas funciones se podría obtener la Función discriminante lineal de Fisher.

Con ellas se podrá predecir en qué grupo debe estar un individuo. Para ello, habrá que sustituir en cada una de las funciones los valores originales de las tres variables para cada una de las Comunidades Autónomas.

En nuestro caso, se clasificará la Comunidad Autónoma en aquel grupo cuyo valor sea mayor en una de las cuatro funciones discriminantes anteriores.

GRUPO DE PERTENENCIA 1 2 3 4 Nivel educativo 4,573 7,679 -,603 8,604 Oferta educativa -4,335 -2,048 9,092 -3,400 Vivienda 2,544 -,132 ,522 2,756 Convivencia y part.social 8,164 6,884 -2,091 5,632 (Constante) -35,138 -37,812 -45,214 -53,788

Page 28: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

28

ResultadosComunidad Función Discriminante

Grupo pronosticado

Grupo inicial

Autónoma 1 2 3 Andalucía 1,76874 -1,46939 -1,55655 1 1 Castilla-La Mancha 2,11870 -4,01632 -,82647 1 1 Extremadura 1,66988 -2,99912 -,48748 1 1 Murcia 2,93504 -1,49257 -2,04129 1 1 Aragón -,66163 ,11811 ,40840 2 2 Castilla-León -,65555 -1,13349 1,94311 2 2 La Rioja ,38824 ,25586 1,32614 2 2 Asturias -,94784 -,20245 ,54859 2 2 Canarias -1,94436 ,30223 2,29563 2 2 Cantabria ,43552 2,14989 2,45621 2 2 Galicia 1,37935 -1,06135 2,98193 2 2 Valencia ,99360 -,84751 -,74635 1 2 Baleares -8,52374 -2,09642 -1,53590 3 3 Cataluña -,79022 2,78225 -1,25852 4 4 Madrid 1,42596 2,89681 -,82553 4 4 Navarra ,87219 3,63588 -,95218 4 4 Euskadi -,46390 3,17757 -1,72973 4 4

Con la función discriminante de Fisher todas las C.A. se clasifican en el mismo grupo inicial, salvo Valencia, que se estaba en el segundo grupo y, según la función discriminante de Fisher, hay que incluirla en el primer grupo.

Page 29: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

29

Estadísticos de clasificación por casos Grupo mayor 2º grupo mayor

Puntuaciones discriminantes

P(D>d/ G=g)

Nº casos

Grupo real

Grupo pronost

p gl

P(G=g/ D=d)

D2

Grupo

P(G=g|/D=d)

D2

F. 1

F. 2

F. 3

1 1 1 ,733 3 ,997 1,284 2 ,003 14,352 1,769 -1,469 -1,557 2 1 1 ,479 3 1,000 2,478 2 ,000 25,719 2,119 -4,016 -,826 3 1 1 ,799 3 ,999 1,008 2 ,001 15,480 1,670 -2,999 -,487 4 1 1 ,508 3 1,000 2,324 2 ,000 23,302 2,935 -1,493 -2,041 5 2 2 ,729 3 ,998 1,302 4 ,002 12,441 -,662 ,118 ,408 6 2 2 ,628 3 1,000 1,742 1 ,000 19,628 -,656 -1,133 1,943 7 2 2 ,947 3 ,999 ,366 4 ,000 14,576 ,388 ,256 1,326 8 2 2 ,700 3 ,999 1,425 4 ,000 15,549 -,948 -,202 ,549 9 2 2 ,238 3 1,000 4,229 4 ,000 24,981 -1,944 ,302 2,296 10 2 2 ,099 3 ,991 6,278 4 ,009 14,283 ,436 2,150 2,456 11 2 2 ,123 3 1,000 5,783 1 ,000 20,330 1,379 -1,061 2,982 12 2 1** ,239 3 ,609 4,220 2 ,389 6,501 ,994 -,848 -,746 13 3 3 1,000 3 1,000 ,000 2 ,000 83,320 -8,524 -2,096 -1,536 14 4 4 ,747 3 ,998 1,226 2 ,002 15,552 -,790 2,782 -1,259 15 4 4 ,673 3 ,999 1,542 2 ,001 16,068 1,426 2,897 -,826 16 4 4 ,875 3 1,000 ,694 2 ,000 20,141 ,872 3,636 -,952 17 4 4 ,845 3 1,000 ,818 2 ,000 20,352 -,464 3,178 -1,730 Grupo real: el que se asignó a cada caso en la clasificación inicial.

 Grupo mayor: En el que debe estar incluido cada caso, según las funciones discriminantes y con probabilidad a posteriori de pertenencia a él, P(G=g/ D=d), mayor, (teorema de Bayes), utilizando la Distancia de Mahalanobis, D2, y la probabilidad condicionada P(D>d/ G=g)

 Segundo grupo mayor: en cuanto al valor de la probabilidad a posteriori.

Puntuaciones discriminantes: las obtenidas al sustituir los valores en las funciones discriminantes canónicas.

Page 30: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

30

Gráfico

Grupo 1:

Andalucía, Castilla-La Mancha, Extremadura, Valencia y Murcia.

Grupo 2:

Canarias, Aragón, Castilla-León, Asturias, Cantabria, Galicia y La Rioja.

Grupo 3:

Baleares

Grupo 4:

Cataluña, Madrid, Euskadi y Navarra.

La única Comunidad Autónoma reclasificada, pasándola del grupo 2 al 1 Valencia.

Page 31: 1 Técnica multivariante de clasificación de individuos en grupos sistemáticamente distintos, utilizando también técnicas factoriales. Se parte de dos o.

31

Conclusiones

Las variables independientes que más discriminan entre los cuatro grupos iniciales referidos al bienestar de las autonomías son:

Nivel educativo Oferta educativa Vivienda Convivencia y participación social

Con las funciones discriminantes obtenidas, todas las comunidades autónomas se encuentran clasificadas en los mismos grupos inicialmente considerados, salvo Valencia que se había incluido en el grupo 2 y, a partir del Análisis Discriminante, parece mejor situada en el grupo 1.