58762952 Manual Spss Usm

88
UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA DEPARTAMENTO DE INDUSTRIAS VALPARAÍSO - CHILE " Manual del SPSS aplicado a métodos de Investigación de Mercados " Profesor : Sr. Cristóbal Fernández. Ayudante : Sr. Fabián Córdova. Enero 2000

Transcript of 58762952 Manual Spss Usm

Page 1: 58762952 Manual Spss Usm

UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA

DEPARTAMENTO DE INDUSTRIAS

VALPARAÍSO - CHILE

" Manual del SPSS aplicado a métodos de

Investigación de Mercados "

Profesor : Sr. Cristóbal Fernández. Ayudante : Sr. Fabián Córdova.

Enero 2000

Page 2: 58762952 Manual Spss Usm

1

Page 3: 58762952 Manual Spss Usm

2

RESUMEN. Este manual está orientado principalmente a facilitar el aprendizaje en el uso del SPSS, para

aplicar este poderoso sistema de análisis estadístico al análisis de datos relacionados al mercadeo.

Por lo tanto, se consideraron los métodos más frecuentemente utilizados en la investigación de

mercados, los cuales son Análisis Factorial, Escalamiento Multimensional, Análisis Discriminante,

Análisis Conjunto y Análisis de Correspondencias.

El contenido de este manual se centra tanto en los aspectos prácticos como en los teóricos

de los métodos estadísticos aplicados en la investigación de mercados. Debido a esto, que la teoría

es expuesta de manera somera y, a la vez, apoyada con una ilustración detallada de ejemplos

resueltos para cada método, fomentando un estilo adecuado para la autoinstrucción. De esta forma,

una persona con conocimientos elementales de estadística (distribuciones de probabilidades y

métodos de docimasia) y de álgebra de matrices debería ser capaz de aprender los métodos y

técnicas presentadas, con un estilo adecuado de texto.

Page 4: 58762952 Manual Spss Usm

3

I.- ANÁLISIS FACTORIAL. El análisis factorial es un método estructural, en cuanto a establecer relaciones descriptivas de las variables. Las variables utilizadas en el método deben ser cuantitativas; es decir, estar expresadas en unidades métricas. La extensión caso de variables no-métricas se analizan mediante el análisis de correspondencias. El interés del análisis factorial se centra en la descripción de datos más que en la inferencia estadística. La principal aplicación de este método es en la reducción de datos, identificando un pequeño numero de factores que expliquen la mayoría de la varianza observada en un numero mayor de variables manifestadas. El análisis factorial también puede utilizarse en descubrir la estructura básica que sustenta un conjunto de medidas (variables observables); desarrollar una escala sobre la cual pueden compararse algunos temas; y servir como paso previo a técnicas de análisis de dependencia ya que permite transformar datos en factores que no están correlacionados entre sí (independientes), eliminando el problema de multicolinealidad. 1.- El modelo factorial. El análisis factorial es un método estadístico cuyo objetivo es representar un conjunto de variables en términos de un menor numero de variables hipotéticas o factores, los cuales conservan la mayor parte de la información del conjunto original de datos. Para esto, asume que cada variable original puede ser descompuesta en la suma de un pequeño numero de factores comunes más un termino de error atribuible a las fluctuaciones muestrales de los valores individuales de cada variable. Este método se basa en la información contenida en la matriz de coeficiente de correlación, cuyos elementos representa el grado de asociación lineal entre las variables. El modelo de análisis factorial común expresa cada variable como una combinación lineal de los factores comunes a todas variables y un factor único a la variable:

zj = aj1 F1 + aj2 F2 + ... + ajm Fm + Uj donde:

zj = la variable normalizada j-ésima. Fi = los factores comunes. m = el numero de factores comunes a todas las variables. Uj = el factor único a la variable zj. aij = las cargas factoriales.

Las cargas factoriales representan la importancia que el i-ésimo factor (Fi) tiene en la definición de la de la j-ésima variable (zj). Aunque la función previa parece una ecuación de regresión, no es tal. Desde luego, debe saberse de antemano el numero de factores en el problema que se esta analizando, pero estos factores, al contrario que en el análisis de regresión, no se pueden observar directamente. La variable Uj si es análoga al residual en una regresión y representa las variaciones aleatorias producidas en los resultados por el efecto especifico de la variable zj.

Page 5: 58762952 Manual Spss Usm

4

La especificación del modelo se completa con las siguientes condiciones, para el caso de factores comunes considerados variables aleatorias:

1. Los factores comunes son variables aleatorias normales, independientes , de media cero y varianza unitaria.

2. Las variables especificas (únicas) son normales, independientes, de media cero y varianza σi

2. 3. Los factores comunes y los específicos son independientes entre sí. 4. Las variables originales son normales.

El caso de factores comunes no aleatorios es tratado en Anderson (1984). 2.- Etapas en un análisis factorial. El método es desarrollado principalmente en cuatro pasos: 1. La matriz de correlación o de covarianza es calculada. En el caso de que una variable muestre

bajos coeficientes de correlación con las otras variables, esta puede ser eliminada y, por lo tanto, obtener la nueva matriz de correlación. Sin embargo, es necesario que observe los valores de su comunidad y las cargas factoriales.

2. Las cargas factoriales son estimadas. En este parte, es necesario establecer el método empleado

para la extracción de los factores ya sea por componentes principales u otro método de extracción.

3. Las cargas factoriales son rotadas a fin de obtener cargas más fácilmente interpretables. Los

métodos de rotación genera cargas para cada factor ya sea grandes o pequeñas, pero no de valores intermedios. Esta rotación permite reducir el numero de factores a la estructura más simple que describe los datos, esto es, encontrar una solución final.

4. Para cada caso, los puntajes pueden ser calculados para cada factor y almacenados para usarlos

como variables de entrada en otros procedimientos. 3.- Extracción de factores. Son muchos los métodos que pueden emplearse para extraer los factores iniciales de la matriz de correlación. En general, estos métodos son complejos numéricamente. El SPSS proporciona de siete métodos de extracción, sin embargo, el más ampliamente usado en la practica en es el método de extracción por componentes principales.

Page 6: 58762952 Manual Spss Usm

5

Componentes principales. El objetivo de este método es encontrar combinaciones lineales independientes de las variables originales. La primera componente tiene la varianza máxima. Las componentes sucesivas explican progresivamente proporciones menores de la varianza y no están correlacionadas las unas con las otras. El análisis de componentes principales se utiliza para obtener la solución factorial inicial. Puede utilizarse cuando una matriz de correlaciones es singular. La generación de componentes principales se obtienen a través de un análisis propio a ala matriz de correlaciones.

(S - λi I) = 0 La solución de la ecuación característica de grado p es determinar p raíces características (o valores propios) λi con su vector característico asociado. Los valores propios λi corresponden a alas varianzas de los componentes. El tamaño de los valores propios describe la dispersión o la forma de la nube de puntos en un espacio multivariado que tiene un eje para cada variable Mínimos cuadrados no ponderados. Este método minimiza la suma de los cuadrados de las diferencias entre las matrices de correlaciones observada y reproducida, ignorando las diagonales. Mínimos cuadrados generalizados. Este método minimiza la suma de los cuadrados de las diferencias entre las matrices de correlación observada y reproducida. Las correlaciones se ponderan por el inverso de su unicidad, de manera que las variables que tengan un valor alto de unicidad reciban un peso menor que aquéllas que tengan un valor bajo de unicidad. Máxima verosimilitud. Este método proporciona las estimaciones de los parámetros que con mayor probabilidad han producido la matriz de correlaciones observada, si la muestra procede de una distribución normal multivariada. Las correlaciones se ponderan por el inverso de la unicidad de las variables, y se emplea un algoritmo iterativo. Ejes principales. Este método parte de la matriz de correlaciones original con los cuadrados de los coeficientes de correlación múltiple insertados en la diagonal principal como estimaciones iniciales de las comunalidades. Las saturaciones factoriales resultantes se utilizan para estimar de nuevo las comunalidades y reemplazan a las estimaciones previas en la diagonal de la matriz. Las iteraciones continúan hasta que el cambio en las comunalidades, de una iteración a la siguiente, satisfaga el criterio de convergencia para la extracción. Alfa. Este método considera a las variables incluidas en el análisis como una muestra del universo de las variables posibles. Este método máximiza el Alfa de Cronbach para los factores. Imagen. Método para la extracción de factores, desarrollado por Guttman y basado en la teoría de las imágenes. La parte común de una variable, llamada la imagen parcial, se define como su regresión lineal sobre las restantes variables, en lugar de ser una función de los factores hipotéticos. 4.- Rotación de fatores.

Page 7: 58762952 Manual Spss Usm

6

Con frecuencia es muy difícil interpretar los factores iniciales. Por consiguiente la solución inicial se rota con el propósito de generar una solución que permita la interpretación. existen dos amplios tipos de rotación: (1) rotación ortogonal, que mantiene a los factores no correlacionados entre sí y (2) rotación oblicua, la cual permite que los factores se correlacionen entre sí. la idea básica de la rotación es generar factores que tengan algunas variables muy correlacionadas y otras poco correlacionadas. Esto evita tener el problema de factores con todas las variables que presentan correlaciones de medio rango y, por tanto, permite una interpretación más fácil. El SPSS dispone de cinco métodos de rotación. Varimax. Método de rotación ortogonal que minimiza el número de variables que tienen saturaciones altas en cada factor. Simplifica la interpretación de los factores. Quartimax. Método de rotación que minimiza el número de factores necesarios para explicar cada variable. Simplifica la interpretación de las variables observadas. Equamax. Método de rotación que es combinación del método varimax, que simplifica los factores, y el método quartimax, que simplifica las variables. Se minimiza tanto el número de variables que saturan alto en un factor como el número de factores necesarios para explicar una variable. Oblimin directo. Método para la rotación oblicua (no ortogonal). Cuando delta es igual a cero (el valor por defecto) las soluciones son las más oblicuas. A medida que delta se va haciendo más negativo, los factores son menos oblicuos. Para anular el valor por defecto 0 para delta, introduzca un número menor o igual que 0,8. Promax. Rotación oblicua que permite que los factores estén correlacionados. Puede calcularse más rápidamente que una rotación oblimin directa, por lo que es útil para conjuntos de datos grandes. 5.- Ejemplo 1: Componentes principales y rotación Varimax. El objetivo de este ejemplo es la reducción y descripción de un conjunto de datos mediante un grupo de factores, los cuales son calculados por el método de componentes principales y, a su vez, estos factores son rotados mediante el método Varimax. Los datos son obtenidos del archivo Mundo 95.sav en donde se seleccionan algunas variables (tabla 1), las cuales se definen a continuación:

espvidaf: esperanza de vida promedio de la mujer en años. mortinf: mortalidad infantil (muertes por 1000 nacidos vivos durante el primer año) alfabet: porcentaje de la población lectora tasa_nat: tasa de nacimiento por 1000 personas. tasa_mor: tasa de mortalidad por 1000 personas. fertilid: fertilidad: numero de niños promedio. urbana: porcentaje de la población viviendo en ciudades. log_pib logaritmo (base 10) del PIB_CAP (producto interno bruto per cápita)

Page 8: 58762952 Manual Spss Usm

7

inc_pob: aumento de población (porcentaje para los años previos) nac_def: razón entre la tasa de nacimientos y la tasa de mortalidad log_pob: Logaritmo (base 10) de población.

Tabla 1. Datos económicos y demográficos de 12 países de América Latina.

PAÍS urbana espvidaf alfabet inc_pob mortinf tasa_nat tasa_mor log_pib nac_def fertilid log_pob

Argentina 86 75 95 1,30 26 20 9 3,53 2,22 2,80 4,53 Bolivia 51 64 78 2,70 75 34 9 2,86 3,78 4,21 3,90 Brasil 75 67 81 1,28 66 21 9 3,37 2,33 2,70 5,19 Colombia 70 75 87 2,00 28 24 6 3,19 4,00 2,47 4,55 Cuba 74 78 94 0,95 10 17 7 3,14 2,43 1,90 4,05 Chile 85 78 93 1,70 15 23 6 3,41 3,83 2,50 4,15 Ecuador 56 73 88 2,01 39 26 6 3,04 4,33 3,08 4,03 México 73 77 87 1,90 35 28 5 3,56 5,60 3,20 4,96 Paraguay 48 75 90 2,70 25 33 5 3,18 7,33 4,30 3,72 Perú 70 67 85 2,00 54 26 7 3,04 3,71 3,11 4,37 Uruguay 89 77 96 0,80 17 17 10 3,50 1,70 2,44 3,51 Venezuela 91 76 88 2,16 28 26 5 3,45 5,20 3,05 4,31 Para realizar una análisis factorial a los datos de la tabla previa, es necesario que elija en los menús:

Estadísticos Reducción de datos Análisis factorial...

Luego, seleccione las variables para el análisis.

Page 9: 58762952 Manual Spss Usm

8

En este caso, se utilizan todos los casos (países). Por lo tanto, no es necesario especificar una variable de selección. Los siguientes pasos en el análisis corresponden a la selección de los métodos de extracción y rotación de las variables, información de estadística descriptiva de las variables y las puntuaciones de los factores (como guardarlos y el método de estimación). Por lo tanto, en los respectivos cuadros de dialogo realice lo siguiente:

Descriptivos... Estadísticas ü Descriptivos univariados Matriz de correlación ü Coeficientes

Extracción... Método

Page 10: 58762952 Manual Spss Usm

9

ü Componentes principales Mostrar ü Gráfico de sedimentación

Rotación... Método ü Varimax Mostrar ü Gráficos de saturaciones.

El ejemplo es desarrollado siguiendo los cuatro pasos descritos previamente. Los resultados (tablas y gráficos) entregados por el SPSS se muestran a continuación: 5.1.- Generación de la matriz de correlación y comunalidades.

Page 11: 58762952 Manual Spss Usm

10

Estadísticos descriptivos. Dentro de las alternativas que provee el SPSS es posible obtener información estadística básica relativa a cada una de las variables consideradas en el análisis. Esta información es desplegada en la siguiente tabla:

73,50 4,80 1234,800 20,394 12

88,50 5,52 1224,583 5,468 12

2,980 ,700 1272,33 14,49 12

3,2724 ,2276 121,792 ,613 12

3,8730 1,6205 126,96 1,86 12

4,2722 ,4907 12

Esperanza de vida femeninaMortalidad infantil (muertes por 1000 nacim. vivos)Alfabetización (%)Tasa de natalidad (por 1.000 habitantes)Número promedio de hijosHabitantes en ciudades (%)Log(10) de PIB_CAPAumento de la población (% anual)Tasa Nacimientos/DefuncionesTasa de mortalidad (por 1.000 habitantes)Log(10) de POBLAC

MediaDesviación

típicaN del

análisis

Estadísticos descriptivos

Matriz de correlaciones. El análisis factorial analiza la estructura de las asociaciones entre las variables a través de la matriz de correlaciones. Las correlaciones contenidas en esta matriz son obtenidas mediante el coeficiente de correlación de Pearson. Un estudio preliminar de esta matriz de esta matriz permite observar la existencia de una fuerte asociación (-0,984) entre las variables espvidaf y mortinf. Esta elevada correlacion negativa entre estas variables viene a indicar que altos valores de esperanza de viida están asociados a bajos niveles de mortalidada infantil y viceversa.

1,000 -,958 ,845 -,428 -,481 ,472 ,602 -,377 ,113 -,404 -,184-,958 1,000 -,926 ,497 ,519 -,457 -,477 ,419 -,015 ,313 ,339,845 -,926 1,000 -,619 -,524 ,520 ,522 -,578 -,209 -,024 -,383

-,428 ,497 -,619 1,000 ,927 -,727 -,476 ,968 ,789 -,448 -,098-,481 ,519 -,524 ,927 1,000 -,697 -,391 ,853 ,670 -,214 -,206,472 -,457 ,520 -,727 -,697 1,000 ,781 -,678 -,501 ,229 ,218,602 -,477 ,522 -,476 -,391 ,781 1,000 -,509 -,131 ,014 ,343

-,377 ,419 -,578 ,968 ,853 -,678 -,509 1,000 ,805 -,535 -,110,113 -,015 -,209 ,789 ,670 -,501 -,131 ,805 1,000 -,855 -,066

-,404 ,313 -,024 -,448 -,214 ,229 ,014 -,535 -,855 1,000 -,067-,184 ,339 -,383 -,098 -,206 ,218 ,343 -,110 -,066 -,067 1,000

espvidafmortinfalfabettasa_natfertilidurbanalog_pibinc_pobnac_deftasa_morlog_pob

espv

idaf

mor

tinf

alfa

bet

tasa

_nat

ferti

lid

urba

na

log_

pib

inc_

pob

nac_

def

tasa

_mor

log_

pob

Matriz de correlaciones

Page 12: 58762952 Manual Spss Usm

11

Comunalidades. Para cada variable, la comunalidad representa la proporción de la varianza de aquella que puede ser explicada por los factores comunes, en otros términos, es la correlación múltiple al cuadrado de la variable con los factores. En este caso, las comunalidades son registradas antes y después del número deseado de factores extraídos. En este caso se fijó extraer dos factores. Las comunalidades van de 0 a 1, con 0 indica que los factores comunes no explican ninguna varianza de la variable y 1 que estos explican toda la varianza. En este ejemplo, la proporción de la varianza explicada por los factores comunes es debida a la extracción de dos componentes. Esto es, la comunalidad de espvidaf es de 0,965 que significa que el 96,5 porciento de la varianza de esta variable es explicada por los dos componentes extraídos.

1,000 ,9671,000 ,9841,000 ,9371,000 ,9561,000 ,7991,000 ,7911,000 ,7711,000 ,9391,000 ,9841,000 ,8691,000 ,919

espvidafmortinfalfabettasa_natfertilidurbanalog_pibinc_pobnac_deftasa_morlog_pob

Inicial Extracción

Comunalidades

Método de extracción: Análisis de Componentes principales.

5.2.- Selección de factores. El SPSS entrega dos resultados de apoyo al proceso de selección de los factores como es la tabla de Varianza total explicada y el Gráfico de sedimentación. Varianza total explicada. Estas tablas muestran los estadísticos a cada factor ya sea antes como después de la extracción de los componentes. En la columna Total se muestran los valores propios (autovalores), ordenados por tamaños, obtenidos de la matriz de correlación. Cada valor propio indica la varianza total explicada por el factor (la varianza total es la suma de los elementos de la diagonal de la matriz de correlación). El porcentaje de la varianza total atribuible a cada factor es mostrado en la columna % de la varianza. El primer factor es el más importante y este explica un 71,5% de la varianza. Esta tabla permite establecer cuales son los componentes que explican en mayor grado la dispersión (o variabilidad) contenida en los datos . Por defecto, el SPSS calcula tanto componentes como existan valores propios mayores que 1. Este valor puede ser no tan restrictivo en la selección de los valores propios, por lo tanto, puede ser cambiado en la opción de Autovalores mayores que del cuadro de dialogo de los métodos de

Page 13: 58762952 Manual Spss Usm

12

extracción. Los nuevos criterios permiten determinar un número más adecuado de factores, por ejemplo, excluir factores con varianzas menores que uno. Otra criterio para seleccionar menos factores que los extraídos por defecto, es la selección de un punto de corte en donde exista un intervalo relativamente grande entre los valores y, también, examinar las cargas para las soluciones son diferentes números de factores para ver que resultados proporciona la mejor interpretación de los datos.

5,65 51,3616 51,362 5,650 51,362 51,362 4,102 37,291 37,2912,79 25,3465 76,708 2,788 25,347 76,708 3,987 36,244 73,5361,48 13,4382 90,146 1,478 13,438 90,146 1,827 16,611 90,146

,6558 5,9621 96,108,2577 2,3426 98,451,0778 ,7074 99,158,0646 ,5874 99,746,0142 ,1293 99,875,0084 ,0760 99,951,0047 ,0424 99,993,0007 ,0066 100,000

Comp1234567891011

Total% de la

varianza%

acumulado Total% de la

varianza%

acumulado Total% de la

varianza%

acumulado

Autovalores inicialesSumas de las saturaciones al

cuadrado de la extracciónSuma de las saturaciones al

cuadrado de la rotación

Varianza total explicada

Método de extracción: Análisis de Componentes principales.

Gráfico de sedimención. La varianza explicada por cada factor, o sea, los valores propios, son graficados versus el número de orden del componente. El criterio consiste en retener los componentes previos al codo y descartar los restantes. Un codo en el gráfico es aquel punto en la curva, el cual distingue un decrecimiento pronunciado de los valores propios de un decrecimiento más estabilizado. Este criterio es netamente subjetivo.

Gráfico de sedimentación

Número de componente

1110987654321

Aut

oval

or

6

5

4

3

2

1

0

Page 14: 58762952 Manual Spss Usm

13

Matriz de componentes. Esta tabla despliega los coeficientes (o cargas) que relacionan las variables a los dos factores no rotados (componentes). Las cargas no rotadas y las cargas rotadas ortogonalmente son las correlaciones de las variables con los factores. Según la tabla, las variables espvidaf, mortinf, alfabet, tasa_nat, fertilid, log-pib y inc_pob están asociadas mayoritariamente con el primer factor. En cambio, para el segundo factor se observa una correlación más intensa únicamente con la variable tasa_mor, de -0,849. Las otras variables presentan correlaciones relativamente iguales en ambos componentes. Esta tabla permite identificar y descartar las variables que presentan bajas asociaciones con los componentes y , a la vez, que su comunalidad sea baja.

-,670 ,719 ,016,703 -,675 ,186

-,790 ,471 -,301,938 ,271 ,059,875 ,169 -,069

-,831 -,069 ,309-,676 ,202 ,522,907 ,335 ,058,620 ,741 ,226

-,282 -,825 -,331-,031 -,324 ,901

espvidafmortinfalfabettasa_natfertilidurbanalog_pibinc_pobnac_deftasa_morlog_pob

1 2 3Componente

Matriz de componentesa

Método de extracción: Análisis de componentes principales.

3 componentes extraídosa.

5.3.- Rotación de los componentes. Matriz de componentes rotada. El objetivo de la rotación es aumentar las cargas factoriales grandes y disminuir aun más las pequeñas de aquellas obtenidas al inicio. En este caso, el método de rotación empleado no cumple con los objetivos, puesto que en vez de disminuir las correlaciones de las variables espvidaf, mortinf, alfabet, tasa_nat, fertilid, log-pib y inc_pob con el segundo componente, éstas aumentaron.

Page 15: 58762952 Manual Spss Usm

14

-,971 ,053 ,145,990 ,053 ,035

-,920 -,283 -,102,456 ,833 -,234,468 ,686 -,330

-,476 -,524 ,538-,534 -,177 ,674,390 ,856 -,232

-,074 ,989 -,025,351 -,848 -,165,338 -,009 ,897

espvidafmortinfalfabettasa_natfertilidurbanalog_pibinc_pobnac_deftasa_morlog_pob

1 2 3Componente

Matriz de componentes rotadosa

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser.

La rotación ha convergido en 6 iteraciones.a.

Matriz de transformación de las componentes. Esta es la matriz de rotación para transformar las cargas de la matriz de componentes a aquellas contenidas en ña matriz de componentes rotada. Por ejemplo, las componentes rotadas de la variable espvidaf se obtienn como:

componente 1: -0,952 * 0,85 + 0,244 * -0,526 = -0,938 componente 2: -0,952 * 0,526 + 0,244 * 0,85 = -0,293

,684 ,671 -,285-,716 ,693 -,085,141 ,262 ,955

Componente123

1 2 3

Matriz de transformación de las componentes

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser.

Gráficos rotados. El gráfico de dispersión sobre el plano formado por los dos primeros componentes (plano principal), representa la nube de puntos explicando el 88% de la variación total Los puntos en este gráfico corresponden a las variables y las coordenadas de cada variable son sus cargas factoriales (de la matriz de componentes rotados). Los puntos proyectados en los extremos de los ejes presentaran mayor asociación con el eje, mientras que los puntos cerca del origen no están asociados a ningún componente. En este plano se distingue dos nubes de puntos ubicadas en cuadrantes opuestos. Sin embargo, las variables en el lado negativo presentan una mayor asociación con el primer componente que los otros puntos, los cuales también evidencia una asociación con el segundo componente.

Page 16: 58762952 Manual Spss Usm

15

Gráfico de componentes en espacio rotado

Componente 1

1,0,50,0-,5-1,0

Com

pone

nte

21,0

,5

0,0

-,5

-1,0

log(10) de poblac

tasa de mortalidad (

tasa nacimientos/def

aumento de la poblac

log(10) de pib_cap

habitantes en ciudad

número promedio de htasa de natalidad (p

alfabetización (%)

mortalidad infantil

esperanza de vida fe

5.4.- Validación del modelo. La validación del modelo se efectúa a través de la verificación de las condiciones de normalidad, esto es, si las variables observadas presentan una distribución normal. Para probar la hipótesis que los datos provienen de una distribución normal, el SPSS muestra el estadístico de Kolmogorov-Smirnov con el nivel de significación de Lilliefors, y si el tamaño de la muestra no excede de 50, se calcula el estadístico de Shapiro-Wilk También, el SPSS muestra los diagramas de probabilidad normal para determinar gráficamente desviaciones a la normalidad. Para realizar esta prueba seleccione en el menú:

Estadísticos Resumir Explorar...

Page 17: 58762952 Manual Spss Usm

16

En el cuadro de dialogo Explorar pulse Gráficos y selccione:

Gráficos ü Gráficos con pruebas de normalidad

Pruebas de normalidad. Según esta tabla, que las pruebas tanto de Kolmogorov-Smirnov como de Shapiro-Wilk no recahazan la hipótesis de normalidad para las variables observadas.

,143 12 ,200* ,953 12 ,630,289 12 ,006 ,821 12 ,017,210 12 ,150 ,908 12 ,264,153 12 ,200* ,943 12 ,497,169 12 ,200* ,933 12 ,433,118 12 ,200* ,977 12 ,929,214 12 ,135 ,905 12 ,249,147 12 ,200* ,940 12 ,481,197 12 ,200* ,908 12 ,265,148 12 ,200* ,948 12 ,563,186 12 ,200* ,923 12 ,369

Regióneconóm.Am. Lat.Am. Lat.Am. Lat.Am. Lat.Am. Lat.Am. Lat.Am. Lat.Am. Lat.Am. Lat.Am. Lat.Am. Lat.

alfabetespvidaffertilidinc_poblog_piblog_pobmortinfnac_deftasa_mortasa_naturbana

Estadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova Shapiro-Wilk

Pruebas de normalidad

Este es un límite inferior de la significación verdadera.*.

Corrección de la significación de Lillieforsa.

Page 18: 58762952 Manual Spss Usm

17

Diagramas de probabilidad normal. A veces, la condición de normalidad impuesta a las variables pude observarse a través de los gráficos de normalidad. En estos diagramas, cada individuo observado es graficado contra el cuantil correspondiente de una distribución normal estandarizada (sus valores Z) , la normalidad de una variable es verifica si los valores de la variable se distribuyen a lo largo de la línea. Según los graficados Q-Q normal, indican que todas las variables presentan una distracción de normalidad, algunas más que otras.

Gráfico Q-Q normal de Alfabetización (%)

Para REGIÓN= América Latina

Valor observado

100908070

Normal esperado

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Gráfico Q-Q normal de Esperanza de vida femenina

Para REGIÓN= América Latina

Valor observado

80787674727068666462

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Page 19: 58762952 Manual Spss Usm

18

Gráfico Q-Q normal de Número promedio de hijos

Para REGIÓN= América Latina

Valor observado

4,54,03,53,02,52,01,5

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Gráfico Q-Q normal de Aumento de la población (% anual)

Para REGIÓN= América Latina

Valor observado

3,02,52,01,51,0,5

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Page 20: 58762952 Manual Spss Usm

19

Gráfico Q-Q normal de Log(10) de PIB_CAP

Para REGIÓN= América Latina

Valor observado

3,83,63,43,23,02,8

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Gráfico Q-Q normal de Log(10) de POBLAC

Para REGIÓN= América Latina

Valor observado

5,55,04,54,03,53,0

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Page 21: 58762952 Manual Spss Usm

20

Gráfico Q-Q normal de Mortalidad infantil (muertes por 1000 nacimientos

Para REGIÓN= América Latina

Valor observado

80706050403020100

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Gráfico Q-Q normal de Tasa Nacimientos/Defunciones

Para REGIÓN= América Latina

Valor observado

87654321

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Page 22: 58762952 Manual Spss Usm

21

Gráfico Q-Q normal de Tasa de mortalidad (por 1.000 habitantes)

Para REGIÓN= América Latina

Valor observado

1110987654

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Gráfico Q-Q normal de Tasa de natalidad (por 1.000 habitantes)

Para REGIÓN= América Latina

Valor observado

40302010

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Page 23: 58762952 Manual Spss Usm

22

Gráfico Q-Q normal de Habitantes en ciudades (%)

Para REGIÓN= América Latina

Valor observado

100908070605040

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

KMO y prueba de Bartlett. La medida de la adecuación muestral de Kaiser-Meyer-Olkin contrasta si las correlaciones parciales entre las variables son pequeñas. La prueba de esfericidad de Bartlett contrasta si la matriz de correlaciones es una matriz identidad, que indicaría que el modelo factorial es inadecuado. Si los componentes son estimados ya sea por Máxima verosimilitud o por Mínimos cuadrados generalizados, la validación del método se efectúa a través de una dócima, prueba de la bondad de ajuste. Esteestadístico χ2 es usado para probar la especificación de un modelo de k-factores. La hipótesis a rechazar es que las predicciones del modelo k-factorial son buenos estimadores de las correlaciones observadas. En otras palabras, que los k-factores son lo suficiente para representar adecuadamente los datos. El estadístico, especialmente para grandes muestras, puede implicar que más factores deben ser agregados al modelo.

Page 24: 58762952 Manual Spss Usm

23

II.- ESCALAMIENTO MULTIDIMENSIONAL El escalamiento multidimensional puede ser considerado como un método alternativo al análisis factorial. En general, el objetivo de este método es encontrar las dimensiones fundamentales significativas que permiten al investigador explicar las similaridades o disimilaridades (distancias) observadas entre los objetos investigados. En el análisis factorial, las similaridades entre los objetos (es decir, las variables) están expresadas en la matriz de correlaciones. Con el escalamiento multidimensional es posible analizar cualquier tipo de matriz de similaridad o disimilaridad, además de las matrices de correlación. Las principales aplicaciones en el área de la Mercadotecnia se deben al análisis de (1) las percepciones del consumidor sobre la semejanza de marcas y (2) las preferencias del consumidor por las marcas. Este método permite posicionar las marcas en un espacio n-dimensional, donde n es la dimensión mínima fundamental de la relación. Por tanto, podemos hablar de posicionar marcas y preferencias relacionadas con las marcas en un espacio perceptual. En general, existen tres tipos de escalas multidimensionales. Estos tipos, que se relacionan con la naturaleza de los datos básicos y resultantes, son los siguientes: Completamente métricas. Estos métodos requieren medidas de datos básicos de escala de intervalos o de razón, y generan un conjunto de relaciones entre los objetos que también se presentan en intervalos o razón. Completamente no métricas. Estos métodos generalmente toman medidas de datos básicos de escala ordinal y generan el rango-orden de cada objeto en cada dimensión. No métricas . Estos métodos toman medidas de datos básicos de escala ordinal y generan un conjunto de relaciones entre los objetos que se presentan en forma de datos de intervalo, es decir, la distancia entre los objetos en el espacio perceptual tiene un significado útil. 1.- Algoritmo de iteración. El escalamiento multidimensional no es un procedimiento exacto sino más bien una manera de reordenar los objetos en una manera eficiente hasta alcanzar una configuración que mejor aproxime las distancias observadas. El programa mueve los objetos alrededor del espacio definido por el número de dimensiones y comprueba que las distancias puedan ser bien reproducidas por la nueva configuración. En términos técnicos, el programa usa un algoritmo minimización de función que evalúa diferentes configuraciones con el objetivo de maximizar la bondad de ajuste. Medidas de bondad de ajuste: Esfuerzo. La medida más comúnmente usada para evaluar cuán bien una configuración particular reproduce la matriz de distancias observadas es la medida de Esfuerzo. El Esfuerzo de una configuración está definido por:

Page 25: 58762952 Manual Spss Usm

24

Esfuerzo

d d

d

ij ij

i j

ij

i j

=

<

<

∑∑

( $ )/

2

2

1 2

donde $d ij es una distancia lo más cercana posible al dij a fin de minimizar el Esfuerzo. La

sumatoria en el denominador normaliza la función de Esfuerzo. Hay muchas medidas similares que son comúnmente empleadas para cuantificar la suma de las desviaciones al cuadrado entre las distancias observadas y esperadas. Por lo tanto, mientras más pequeño es la medida de Esfuerzo, mejor será el ajuste de la matriz de distancias reproducidas hacia la matriz de distancias observadas. 2.- Determinación del número de dimensiones. El objetivo es reducir la complejidad de la naturaleza de los datos observados, es decir, explicar la matriz de distancia en términos del mínimo número de dimensiones fundamentales. Para esto, es posible establecer dos criterios: 3.- Diagrama de sedimentación (Cattell). Gráfica el valor del Esfuerzo contra el número de dimensiones. 4.- Interpretabilidad de la configuración. Consiste en determinar el número de dimensiones que mejor facilitan la interpretación de la configuración final. 5.- Ejecucion de un análisis de escalamiento multidimensional. Para realizar un análisis de escalamiento multidimensional a los datos, es necesario que elija en los menús:

Estadísticos Escala Escalamiento multidimensional...

Los siguientes pasos en el análisis corresponden a la selección del tipo de datos utilizados, la estimación del modelo de escalamiento y las diversas opciones que están disponibles ya sea para mostrar resultados como para detener el proceso de iteración. 5.1.- Tipo de datos. Este método trabaja sobre la base de una matriz de distancias, la cual puede ser proporcionada en forma directa (Los datos son distancias) o indirectamente (Crear distancias a partir de los datos).

Page 26: 58762952 Manual Spss Usm

25

1. Si los datos son distancias, debe seleccionar al menos cuatro variables y puede pulsar en Forma para indicar el tipo de matriz (simétrica, asimétrica y rectangular).

2. En el otro caso, el SPSS creará una matriz de distancia simétrica. Además, puede crear matrices

distintas para cada categoría de una variable moviendo esa variable a Matrices individuales para. La opción Medida permite especificar el tipo de medida de distancia que desea. Esta opción presenta las siguientes alternativas:

En Medida, seleccione la opción que corresponda a su tipo de datos (de intervalo, de recuento o binarios); a continuación, en la lista desplegable, seleccione una de las medidas que corresponda a ese tipo de datos. En Transformar valores, permite estandarizar valores de datos para casos o variables antes de calcular proximidades. Estas transformaciones no son aplicables a los datos binarios. En Crear matriz de distancias, permite un análisis Entre variables o Entre casos.

Luego, seleccione las variables para el análisis.

5.2.- Modelo. Para especificar el modelo de escalamiento multidimensional debe considerar el aspecto de los datos y del modelo en sí. En Nivel de medida, permite especificar el nivel de los datos. Las opciones son:

Page 27: 58762952 Manual Spss Usm

26

Ordinal, trata los datos como categóricos y realiza un análisis no-métrico. Si se selecciona Desempatar observaciones empatadas se solicitará que sean consideradas como variables continuas, de forma que los empates (valores iguales para casos diferentes) se resuelvan óptimamente. Intervalo, trata los datos como cuantitativos y realiza un análisis métrico.

Razón, trata los datos como cuantitativos y realiza un análisis métrico.

En Condicionalidad, permite especificar qué comparaciones tienen sentido. Las opciones son Matriz, Fila o Incondicional. En Dimensiones, permite especificar la dimensionalidad de la solución o soluciones de escalamiento. Se calcula una solución para cada número del rango. Especifique enteros entre 1 y 6; se permite un mínimo de 1 sólo si selecciona Distancia euclídea como modelo de escalamiento. Para una solución única, especifique el mismo número como máximo y mínimo. En Modelo de escalamiento, permite especificar los supuestos por los que se realiza el escalamiento. Las opciones disponibles son Distancia euclídea o Distancia euclídea de diferencias individuales (también conocida como INDSCAL). Para el modelo de Distancia euclídea de diferencias individuales, puede seleccionar Permitir ponderaciones negativas de sujetos, si es adecuado para los datos.

5.3.- Opciones.

Page 28: 58762952 Manual Spss Usm

27

En el SPSS puede seleccionarse el tipo de información que necesita para la interpretación de los resultados y también determinar la detención del algoritmo a través de las siguientes opciones: En Mostrar, permite seleccionar varios tipos de resultados ya sea tablas y gráficos. En Criterios, permite determinar cuándo debe detenerse la iteración. Esta puede detenerse ya sea cuando algunos de los valores de cualquier de las alternativas se cumpla. En Tratar distancias menores que n como perdidas, consiste en que las distancias menores que este valor se excluyen del análisis.

A fin de fijar las ideas anteriores, se desarrollará un ejemplo para describir de manera comprensiva la aplicación de este metodo mediante el uso del SPSS. 6.- Ejemplo. Supongamos que deseamos medir las percepciones del consumidor con relación a la similitud y preferencia de 11 modelos de automóviles:

a.- Ford Taurus b.- Mercury Sable c.- Lincoln Continental d.- Ford Thunderbird e.- Ford Escort f.- Cadillac El dorado g.- Jaguar XJ Sedan h.- Mazda 626 i.- Plymouth Sundance j.- Biuck Le Sabre k.- Chevrolet Cavalier

Page 29: 58762952 Manual Spss Usm

28

Para las similitudes, se necesita obtener de los consumidores el rango-orden de la similitud de las 55 combinaciones de modelos de automóviles, tomando dos a la vez. En general, exsten n(n-1)/2 ordenes de rango que se han de obtener, donde n es el número de objetos de interés. Una forma de hacerlo es colocar cada una de las 55 combinaciones en una tarjeta separada. Posteriormente, se pide a los encuestados que clasifiquen por rango-orden las tarjetas en términos del par más similar al par menos similar. Una de las posibilidades combinaciones de un consumidor aparecen en la tabla de similitudes entre pares de modelos de automóviles. Por ejemplo, en este caso el consumidor consideró que los automóviles c y f era el par más similar. 6.1.- Matriz de distancias. Tabla rango-orden de similitudes entre pares de modelos de automóviles.

Ford Taurus

Mercury Sable

Lincoln Continental

Ford Thunderbird

Ford Escort

Cadillac El dorado

Jaguar XJ Sedan

Mazda 626

Plymouth Sundance

Biuck Le Sabre

Chevrolet Cavalier

Ford Taurus 0 8 50 31 12 48 36 2 5 39 10 Mercury Sable

8 0 38 9 33 37 22 6 4 14 32

Lincoln Continental

50 38 0 11 55 1 23 46 41 17 52

Ford Thunderbird

31 9 11 0 44 13 16 19 25 18 42

Ford Escort 12 33 55 44 0 54 53 30 28 45 7 Cadillac El dorado

48 37 1 13 54 0 26 47 40 24 51

Jaguar XJ Sedan

36 22 23 16 53 26 0 29 35 34 49

Mazda 626 2 6 46 19 30 47 29 0 3 27 15 Plymouth Sundance

5 4 41 25 28 40 35 3 0 20 21

Biuck Le Sabre

39 14 17 18 45 24 34 27 20 0 43

Chevrolet Cavalier

10 32 52 42 7 51 49 15 21 43 0

Para realizar una análisis de escalamiento multidimensional a la matriz de similitudes de modelos de automóviles dirígase a Estadísticos y seleccione la opción Escala y, después, la alternativa Escalamiento multidimensional. En el cuadro de dialogo Escalamiento multidimensional seleccione todas las variables (a hasta k) y la opción Los datos son distancias. Además, pulse en Modelo y seleccione las siguiente opciones:

Modelo... Nivel de medida ü Ordinal

Page 30: 58762952 Manual Spss Usm

29

Dimensiones Mínimo: 2 Máximo: 2

Pulse Opciones y seleccione las siguientes alternativas:

Mostrar... ü Gráficos de grupo ü Gráficos de sujetos individuales ü Matriz de datos

6.2.- Resultos del análisis de escalamiento multidimensional. Los resultados (tablas y gráficos) obtenidos del SPSS se muestran a continuación: Raw (unscaled) Data for Subject 1 1 2 3 4 5 6 7 8 9 10 1 ,000 2 8,000 ,000 3 50,000 38,000 ,000 4 31,000 9,000 11,000 ,000 5 12,000 33,000 55,000 44,000 ,000 6 48,000 37,000 1,000 13,000 54,000 ,000 7 36,000 22,000 23,000 16,000 53,000 26,000 ,000 8 2,000 6,000 46,000 19,000 30,000 47,000 29,000 ,000 9 5,000 4,000 41,000 25,000 28,000 40,000 35,000 3,000 ,000 10 39,000 14,000 17,000 18,000 45,000 24,000 34,000 27,000 20,000 ,000 11 10,000 32,000 52,000 42,000 7,000 51,000 49,000 15,000 21,000 43,000 Iteration history for the 2 dimensional solution (in squared distances) Young's S-stress formula 1 is used. Iteration S-stress Improvement 1 ,14147 2 ,09884 ,04263 3 ,08335 ,01549 4 ,07347 ,00988 5 ,06568 ,00779

Page 31: 58762952 Manual Spss Usm

30

6 ,06033 ,00536 7 ,05656 ,00377 8 ,05364 ,00292 9 ,05131 ,00233 10 ,04941 ,00190 11 ,04783 ,00159 12 ,04644 ,00138 13 ,04521 ,00123 14 ,04419 ,00102 15 ,04350 ,00069 Iterations stopped because S-stress improvement is less than ,001000 En este caso, la iteración se detiene al satisfacerse el primer criterio. Stress and squared correlation (RSQ) in distances RSQ values are the proportion of variance of the scaled data (disparities) in the partition (row, matrix, or entire data) which is accounted for by their corresponding distances. Stress values are Kruskal's stress formula 1. For matrix Stress = ,04717 RSQ = ,98905 Configuration derived in 2 dimensions Stimulus Coordinates Dimension Stimulus Stimulus 1 2 Number Name 1 A 1,2089 ,3568 2 B ,2442 ,3328 3 C -1,9523 ,0223 4 D -,6279 ,1926 5 E 1,9226 -,8934 6 F -1,9368 -,2685

Page 32: 58762952 Manual Spss Usm

31

7 G -,9811 1,2333 8 H ,7031 ,3976 9 I ,5072 -,0113 10 J -,7548 -,7510 11 K 1,6670 -,6114 Optimally scaled data (disparities) for subject 1 1 2 3 4 5 6 7 8 9 10 1 ,000 2 ,925 ,000 3 3,205 2,274 ,000 4 1,803 ,925 1,325 ,000 5 1,325 2,006 3,982 2,712 ,000 6 3,205 2,274 ,291 1,325 3,910 ,000 7 2,274 1,386 1,386 1,325 3,637 1,770 ,000 8 ,466 ,574 2,712 1,347 1,8032 ,723 1,803 ,000 9 ,574 ,466 2,444 1,386 1,770 2,444 2,006 ,466 ,000 10 2,274 1,325 1,325 1,325 2,712 1,386 2,006 1,770 1,386 ,000 11 1,071 1,803 3,637 2,444 ,574 3,620 3,205 1,325 1,386 2,444

Gráfico de ajuste no lineal

Modelo de distancia euclídea

Observaciones

6050403020100

Dis

tanc

ias

5

4

3

2

1

0

Page 33: 58762952 Manual Spss Usm

32

Gráfico de transformación

Modelo de distancia euclídea

Observaciones

6050403020100

Dis

tanc

ias

5

4

3

2

1

0

La siguiente figura se conoce como el diagrama de Shepard, el cual despliega las distancias observadas contra las distancias reproducidas. Si todas las distancias reproducidas son idénticas a las distancias observadas, por lo tanto, todos los puntos en este diagrama se encontrarían a lo largo de una línea recta.

Gráfico de ajuste lineal

Modelo de distancia euclídea

Disparidades

543210

Dis

tanc

ias

5

4

3

2

1

0

La siguiente figura representa la configuración final obtenida después de que el modelo es ajustado sucesivamente hasta que se cumpla al criterio establecido en Opciones (el proceso

Page 34: 58762952 Manual Spss Usm

33

converge en la iteración número 15, o sea, la convergencia del S-stress es mejor que 0,001). La interpretación de los ejes (o dimensiones) facilita la tarea para la determinación de los gustos y preferencias de los consumidores. En este caso, en particular, la matriz de distancia esta asociada a la percepción que tiene un consumidor a cerca de la similitud entre los modelos de automóviles. Por lo tanto, mediante este espacio perceptual bidimensional es posible establecer segmentos competitivos originados por la posición relativa que tienen los modelos dentro de este espacio. También, puede identificarse la combinación de atributos preferidos, productos sustitutos y otros aspectos relacionados con el producto y el mercado.

Configuración de estímulos derivada

Modelo de distancia euclídea

Dimensión 1

210-1-2-3

Dim

ensi

ón 2

1,5

1,0

,5

0,0

-,5

-1,0

kj

i

h

g

f

e

dc

b a

Page 35: 58762952 Manual Spss Usm

34

III.- ANÁLISIS DISCRIMINANTE. El análisis discriminante es una técnica apropiada en el caso de una variable dependiente nominal y variables independientes de intervalos. Las variables dependientes nominales son muy comunes en el área del marketing; por ejemplo, riesgos de crédito bueno versus crédito malo, consumidores leales a una marca versus consumidores no leales, diferentes usuarios de marcas y vendedores con éxito versus vendedores sin éxito. Como resultado, este método se ha aplicado en forma extensiva en la investigación de mercados. La idea del análisis discriminante es encontrar una combinación lineal de las variables independientes (o, para más de dos grupos, un conjunto de combinaciones lineales) tal que los puntajes medios de las categorías de la variable dependiente, en esta combinación lineal, se diferencien en forma máxima. Esta combinación lineal recibe el nombre de función discriminante (FD). En símbolos,

FD = v1 X1 + v2 X2 + ... + vm Xm donde Xm es la m-ésima independiente. El propósito es encontrar los valores para los v, los cuales dan la FD requerida. El criterio que se emplea para decidir cuando son diferentes al máximo las medias de grupo, es la conocida prueba ANOVA F, para las diferencias entre medias. Por tanto, las v se derivan de tal forma que

FSC

SCentre grupo

dentro grupo

=

se maximiza. El análisis discriminante también llamado análisis de identificación o asignación, requiere una clasificación a priori de la muestra y el objetivo es establecer las fronteras entre esos grupos (o clases) dados, a fin de asignar un nuevo individuo a uno de ellos. 1.- Supuestos. El análisis discriminante es muy similar a un análisis de varianza y, por lo tanto, se aplican todos los supuestos en un análisis de varianza (ANOVA). De hecho, pueden utilizarse las pruebas estadísticas y diagnostico de supuestos que están disponibles en un ANOVA, a objeto de examinar los datos antes de un análisis discriminante. Este método considera los siguientes supuestos: Distribución normal. Este asume que los datos representan una muestra con una distribución normal multivariada. Por lo tanto, pueden examinarse las variables si o no están normalmente distribuidas mediante gráficos de distribución de frecuencias (histogramas). Estas pueden obtenerse a través del menú Gráficos. Homogeneidad de varianzas y covarianzas. Esta asume que las matrices de varianzas/covarianzas de las variables son homogéneas a través de los grupos. Por lo tanto, será necesario revisar las matrices de covarianzas y de correlación intra-grupos. Estas matrices son entregadas como resultado a través de la opción Estadísticas del análisis discriminante. En el caso

Page 36: 58762952 Manual Spss Usm

35

de existir diferencias intente excluir los grupos de poco interés y realice una vez más el análisis. El SPSS proporciona una prueba bastante rigurosa para comprobar la homogeneidad de las matrices de varianzas/covarianzas Pertenencia. Este asume que la pertenencia a un grupo es exclusiva (es decir, ningún caso pertenece a más de un grupo) y exhaustiva de modo colectivo ( es decir, todos lo casos son miembros de un grupo). 2.- Ejemplo 1: Modelo discriminante para dos grupos. Los datos se presentan en la tabla 1 y corresponden a información económica y demográfica de 46 países, obtenidas del archivo wordl95.sav. En este ejemplo se aplica el método análisis discriminante a la tabla a fin de generar una función discriminante mediante la combinación de la información contenida en las variables calorías, urbana, log_pib y log_pop. Este función permitiría distinguir entre países de zona tropical y templada, y también la posterior clasificación de países ya sea en uno de estos dos grupos, sobre la base de su información económica y demográfica (variables calorías, urbana, log_pib y log_pop). La muestra de datos fue previamente clasificada según la variable clima (variable de agrupación), puesto que lo requiere el método. El SPSS excluye los casos incompletos. Tabla 1 - Datos económicos y demográficos de 46 países. PAÍS urbana calorías log_pib log_pob clima Alemania 85 3443 04 05 8 Argentina 86 3113 04 05 8 Austria 58 3495 04 04 8 Bangladesh 16 2021 02 05 5 Brasil 75 2751 03 05 5 Camboya 12 2166 02 04 5 Colombia 70 2598 03 05 5 Costa Rica 47 2808 03 04 5 Chile 85 2581 03 04 8 China 26 2639 03 06 8 Dinamarca 85 3628 04 04 8 Ecuador 56 2531 03 04 5 El Salvador 44 2317 03 04 5 España 78 3572 04 05 8 Estados Unid 75 3671 04 05 8 Filipinas 43 2375 03 05 5 Francia 73 3465 04 05 8 Gabón 46 2383 04 03 5 Gran Bretaña 89 3149 04 05 8 Grecia 63 3825 04 04 8

Page 37: 58762952 Manual Spss Usm

36

Guatemala 39 2235 03 04 5 Haiti 29 2013 03 04 5 Hungía 64 3644 04 04 8 Indonesia 29 2750 03 05 5 Irlanda 57 3778 04 04 8 Liberia 45 2382 03 03 5 Malasia 43 2774 03 04 5 Nicaragua 60 2265 03 04 5 Nigeria 35 2312 02 05 5 Noruega 75 3326 04 04 8 Nueva Zeland 84 3362 04 04 8 Países Bajos 89 3151 04 04 8 Panamá 53 2539 03 03 5 Rep. Dominic 60 2359 03 04 5 Ruanda 6 1971 02 04 8 Rumanía 54 3155 03 04 8 Senegal 40 2369 03 04 5 Singapur 100 3198 04 03 5 Suiza 62 3562 04 04 8 Tailandia 22 2316 03 05 5 Turquía 61 3236 04 05 8 Uganda 11 2153 03 04 5 Uruguay 89 2653 03 04 8 Venezuela 91 2582 03 04 5 Vietnam 20 2233 02 05 5 Zambia 42 2077 03 04 5 Para realizar una análisis discriminante a los datos de la tabla 1, es necesario que elija en los menús:

Estadísticos Clasificar Discriminante...

Luego, seleccione las variables para el análisis.

Variable de agrupación: clima Definir rango... Mínimo: 5 Máximo: 8

Independientes: calorías, log_pib, log_pop,urbana

Page 38: 58762952 Manual Spss Usm

37

Para verificar los supuestos del método y analizar los coeficientes de la función pulse en Estadísticos. Mostrará un cuadro de dialogo en donde seleccione las siguientes alternativas:

Estadísticos... Descriptivos ü Medias ü ANOVAs univariados ü M de Box Matrices ü Covarianza de grupos separados

Por otra parte, en el cuadro de dialogo Clasificar es posible especificar las probabilidades de pertenencia a los grupos, el tipo de matriz utilizada para clasificar los casos y seleccionar los resultados requeridos para el análisis. Por lo tanto, pulse Clasificar y seleccione lo siguiente:

Page 39: 58762952 Manual Spss Usm

38

Clasificar... Mostrar ü Resultados para cada caso ü Tabla de resumen

2.1.- Verificación de los supuestos. Una de los supuestos necesarios para el método es la igualdad de las matrices de covarianza de grupo. Por ejemplo, las varianzas de calorías deben ser iguales en los dos grupos de piases ( o en todos los grupos en un problema multivariado), y la varianzas poblacional entre calorías y urbana deben ser iguales para los grupos. En el caso de que las observaciones en un grupo sigan una distribución normal multivariadas, los grupos formarían elipsoides de concentración de puntos, los cuales estarían construidos usando la misma media, la desviación estándar y la matriz de covarianza de cada grupo. El SPSS provee el estadístico multivariado M de Box para probar la hipótesis nula que las matrices de covarianzas son iguales. Los valores de esta tabla Logaritmo de los determinantes dan una indicación de las matrices de covarianzas que más difieren. En esta tabla se observan una dispersión de los puntos del grupo tropical relativamente menor al otro grupo.

Page 40: 58762952 Manual Spss Usm

39

4 12,9544 14,498

4 13,971

ClimapredominantetropicaltempladoIntra-gruposcombinada

Rango

Logaritmodel

determinante

Logaritmo de los determinantes

Los rangos y logaritmos naturales de losdeterminantes impresos son los de lasmatrices de covarianza de los grupos.

Los resultados de la prueba se muestra en la tabla a continuación. La hipótesis nula de igual en las matrices de covariancias poblacionales no se rechaza. Note, sin embargo, puede existir situaciones con matrices de covarianzas poblacionales no son demasiado diferentes, en donde la prueba puede ser significativa. Esto puede ocurrir cuando los tamaños muestrales intra-grupos son grandes o cuando es violada el supuesto de normalidad multivariada.

13,8611,248

108603,929

,255

M de BoxAprox.gl1gl2Sig.

F

Resultados de la prueba

Además, es importante comparar las desviaciones estándar de cada variable dentro de los grupos. En la tabla Estadístico del grupo es posible analizar estas diferencias de las variables. Se observa que calorías presenta la mayor diferencias de las varianzas entre las dos climas. Las otras variables no evidencia diferencias en las varianzas.

Page 41: 58762952 Manual Spss Usm

40

2420,2800 281,3498 25 25,0002,9895 ,4579 25 25,0004,1805 ,6231 25 25,000

45,1200 22,5801 25 25,0003258,0476 464,0787 21 21,000

3,8537 ,5515 21 21,0004,2965 ,6651 21 21,000

68,7619 21,3680 21 21,0002802,7391 562,0886 46 46,000

3,3841 ,6607 46 46,0004,2334 ,6380 46 46,000

55,9130 24,8317 46 46,000

caloríasLog_pibLog_poburbanacaloríasLog_pibLog_poburbanacaloríasLog_pibLog_poburbana

Climapredominantetropical

templado

Total

Media Desv. típ.No

ponderados Ponderados

N válido (según lista)

Estadísticos del grupo

La siguiente matiz de covarianza permite comparar las varianzas de las variables en los grupos.

79157,710 100,598 -11,054 4357,590100,598 ,210 -,097 7,569-11,054 -,097 ,388 -3,766

4357,590 7,569 -3,766 509,860215369,0 206,070 -29,453 4018,762

206,070 ,304 -,085 8,121-29,453 -,085 ,442 -2,471

4018,762 8,121 -2,471 456,590

caloríasLog_pibLog_popurbanacaloríasLog_pibLog_popurbana

Climapredominantetropical

templado

calorías Log_pib Log_pop urbana

Matrices de covarianza

El estadístico Lambda de Wilks (Pruebas de la igualdad de las medias de los grupos) es usado para probar la hipótesis nula que la media de todas las variables a través de los grupos son iguales. Los valores del estadístico lambda de Wilks son de 0 a 1. Los valores más pequeños indican una fuerte diferencias entre los grupos. Según la tabla, los valores del estadístico F indica que las diferencias son altamente significativas de las medias de las variables entre los dos grupos, excepto para la variable log-pop.

Page 42: 58762952 Manual Spss Usm

41

,437 56,782 1 44 ,000,566 33,743 1 44 ,000,992 ,372 1 44 ,545,770 13,135 1 44 ,001

caloríasLog_pibLog_poburbana

Lambdade Wilks F gl1 gl2 Sig.

Pruebas de igualdad de las medias de los grupos

2.2.- Modelo discriminante. El propósito principal de una análisis discriminante esta relacionado al tema de la clasificación predictiva de casos. Una vez que el modelo ha sido terminado y las funciones discriminantes derivadas, debemos preguntarnos que tan bien podemos predecir la pertenencia de un caso a un grupo particular. Funciones de clasificación. Estas funciones son usadas para determinar la pertenencia de un caso a grupo. Se obtienen tantas funciones de clasificación como grupos existan. Las columnas de la tabla coeficientes de la función de clasificación contiene los coeficientes de la función para cada grupo. Los coeficientes son calculados para maximizar las distancia entre los dos grupos.

,002 ,00820,647 21,00713,502 14,111

-,172 -,175-58,801 -78,712

caloríasLog_pibLog_poburbana(Constante)

tropical templadoClima predominante

Coeficientes de la función de clasificación

Funciones discriminantes lineales de Fisher

La función de clasificación para los países en la zona tropical son.

Ztrop = 0,002 calorías + 20,647 log_pib + 13,502 log_pop + -0,172 urbana - 58,801 La función de clasificación para los países en la zona templada son.

Ztemp = 0,008 calorías + 21,007 log_pib + 14,111 log_pop + -0,175 urbana - 78,712 Cada función permite calcular los puntajes de clasificación para cada caso. Una vez realizado esto, es fácil decidir como clasificar el caso: en general, un casos se dice pertenecer a un grupo cuando su puntaje clasificación a aquel grupo es mayor que a otros grupos.

Page 43: 58762952 Manual Spss Usm

42

Función discriminante lineal de Fisher. Cuando hay dos grupos pueden utilizarse las funciones clasificación para obtener la función discriminante lineal. En un diagrama de dispersión esta función representa a una lineal que divide a los dos grupos. Los coeficientes de la función discriminante lineal son calculados mediante la diferencia entre los coeficientes de las funciones de clasificación tropical y templada.

FD = (0,002 - 0,008) calorías + (20,647- 21,007) log_pib + (13,502 - 14,111) log_pop + (- 0,172 + 0,175) urbana + (- 58,801 + 78,712)

FD = - 0,006 calorías - 0,36 log_pib - 0,609 log_pop + 0,173 urbana + 19,911

2.3.- Resumen de la función canónica discriminante. Autovalores. Mide la dispersión del centroides de los grupos. En este caso el autovalor es uno que indica que los centroides de los dos grupos están relativamente cerca. El autovalor corresponde al cuociente entre la suma de cuadrados intra-grupos y suma de cuadrados inter-grupos. Correlación canónica. Mide la asociación entre los puntajes discriminantes y los del grupo. Cuando hay solamente dos grupos ésta es la correlación de Pearson..

1,326a 100,0 100,0 ,755Función1

Autovalor% de

varianza%

acumuladoCorrelación

canónica

Autovalores

Se han empleado las 1 primeras funcionesdiscriminantes canónicas en el análisis.

a.

Lambda de Wilks. Este indica la proporcion de la varianza total en los puntajes discriminantes que no son explicados por las diferencias entre los grupo. En este caso, casi el 50% de la varianza no es explicada por las difrencias de los grupos. El lambda es docimado con una distribucion χ2. Con una χ2 de 35,46 se tiene que la diferencia entre los dos centroides es significativa, considerando las medias de las variables simulktaneamente.

,430 35,460 4 ,000

Contrastede lasfunciones1

Lambdade Wilks Chi-cuadrado gl Sig.

Lambda de Wilks

Coeficientes estandarizados de las funciones canónicas discriminantes. Estos proporcionan una indicación más verdadera de la contribución relativa de cada variable a la función discriminante.

Page 44: 58762952 Manual Spss Usm

43

,951,080,173

-,026

caloríaslog_piblog_popurbana

1Función

Coeficientes estandarizados de lasfunciones discriminantes canónicas

Matriz de estructura. Una manera para determinar que variables son las que definen una funcion discriminante es observar las correlaciones intra-grupo de cada variable predictora con la variable canónica o funcion discriminante (mostradas en la matriz de estructura). Haciando una anlogia al anlisis factorual, esstos correalaciones pueden pensarse como cargas factoriales de las variables en cada funcion discriinante.

,986,760,474,080

caloríasLog_pibLog_poburbana

1Función

Matriz de estructura

Funciones en los centroides de los grupos. Esta tabla indica los valores tomados por las funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos.

-1,0321,229

Climapredominantetropicaltemplado

1Función

Funciones en loscentroides de los grupos

2.4.- Clasificación de los casos. Estadísticos por caso. Esta tabla. permite comparar la información de los miembros de su grupo actual a los miembros pronosticados por el método. La pertenencia de un caso a uno de los dos grupos, se calcula a través de la funciones de clasificación. Además se entrega la probabilidad de pertenencia de un caso a uno de los dos grupos.

Page 45: 58762952 Manual Spss Usm

44

8 8 ,499 1 ,983 ,457 5 ,017 8,629 1,9058 8 ,707 1 ,847 ,141 5 ,153 3,556 ,8548 8 ,568 1 ,979 ,327 5 ,021 8,025 1,8015 5 ,402 1 ,988 ,702 8 ,012 9,606 -1,8705 8** ,261 1 ,503 1,266 5 ,497 1,291 ,1045 5 ,456 1 ,986 ,554 8 ,014 9,035 -1,7775 5 ,581 1 ,787 ,305 8 ,213 2,922 -,4805 5 ,395 1 ,653 ,725 8 ,347 1,988 -,1818 5** ,676 1 ,834 ,175 8 ,166 3,397 -,6148 5** ,306 1 ,561 1,046 8 ,439 1,534 -,0108 8 ,409 1 ,988 ,682 5 ,012 9,529 2,0555 5 ,815 1 ,884 ,055 8 ,116 4,110 -,7985 5 ,715 1 ,967 ,134 8 ,033 6,901 -1,3988 8 ,365 1 ,990 ,820 5 ,010 10,028 2,1348 8 ,155 1 ,997 2,022 5 ,003 13,565 2,6515 5 ,953 1 ,919 ,003 8 ,081 4,852 -,9748 8 ,476 1 ,985 ,507 5 ,015 8,840 1,9415 5 ,779 1 ,961 ,079 8 ,039 6,462 -1,3138 8 ,906 1 ,908 ,014 5 ,092 4,596 1,1118 8 ,169 1 ,997 1,890 5 ,003 13,221 2,6045 5 ,628 1 ,975 ,235 8 ,025 7,542 -1,5175 5 ,240 1 ,995 1,382 8 ,005 11,812 -2,2088 8 ,375 1 ,990 ,787 5 ,010 9,912 2,1165 5 ,258 1 ,500 1,278 8 ,500 1,279 ,0988 8 ,243 1 ,994 1,362 5 ,006 11,754 2,3965 5 ,726 1 ,966 ,123 8 ,034 6,820 -1,3835 5 ,315 1 ,571 1,009 8 ,429 1,579 -,0285 5 ,537 1 ,981 ,381 8 ,019 8,287 -1,6505 5 ,897 1 ,945 ,017 8 ,055 5,714 -1,1628 8 ,961 1 ,935 ,002 5 ,065 5,336 1,2788 8 ,927 1 ,941 ,008 5 ,059 5,535 1,3208 8 ,792 1 ,877 ,069 5 ,123 3,992 ,9665 5 ,883 1 ,902 ,022 8 ,098 4,470 -,8855 5 ,805 1 ,957 ,061 8 ,043 6,288 -1,2798 5** ,214 1 ,995 1,546 8 ,005 12,284 -2,2768 8 ,771 1 ,870 ,085 5 ,130 3,882 ,9385 5 ,836 1 ,954 ,043 8 ,046 6,095 -1,2405 8** ,717 1 ,850 ,131 5 ,150 3,606 ,8678 8 ,463 1 ,985 ,539 5 ,015 8,974 1,9635 5 ,972 1 ,933 ,001 8 ,067 5,271 -1,0678 8 ,966 1 ,934 ,002 5 ,066 5,307 1,2715 5 ,496 1 ,984 ,464 8 ,016 8,657 -1,7138 5** ,663 1 ,828 ,190 8 ,172 3,332 -,5965 5 ,642 1 ,818 ,216 8 ,182 3,227 -,5675 5 ,719 1 ,967 ,130 8 ,033 6,871 -1,3925 5 ,336 1 ,991 ,925 8 ,009 10,387 -1,994

Númerodecasos1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

Original

Gruporeal

Grupopronosticado p gl

P(D>d | G=g) P(G=g |D=d)

Distancia deMahalanobisal cuadrado

hasta elcentroide

Grupo mayor

GrupoP(G=g |

D=d)

Distancia deMahalanobisal cuadrado

hasta elcentroide

Segundo grupo mayor

Función1

Puntuaciones

discriminantes

Estadísticos por casos

Caso mal clasificado**.

Page 46: 58762952 Manual Spss Usm

45

Por ejemplo, para el caso 2 (Argentina) el puntaje de pertenencia a las zonas es: Ztrop= (0,002 x 3113) + (20,647 x 3,53) + (13,502 x 4,53) + (-0,172 x 86) - 58,801 = 66,68 La función de clasificación para los países en la zona templada son. Ztemp= (0,008 x 3113) + (21,007 x 3,53) + (14,111 x 4,53) + (-0,175 x 86) - 78,712 = 69,21 El puntaje de pertenencia de Argentina es mayor para la zona templada (grupo 8). Por lo tanto, Argentina es clasificado como un país de clima templado. Distancias Mahalanobis (D2). Esta es una medida de distancias entre dos puntos en un espacio definido por dos o más variables (dimensiones) correlacionadas . Por ejemplo, si hay dos variables que no están correlacionadas, entonces las distancias Mahalanobis entre los puntos insertos en un espacio bidimensional seria idéntica a la distancia Euclidiana, esto es, la distancia, por ejemplo, medida por una regla. ahora bien, en los casos de tener dos variables correlacionadas los ejes que definen el espacio ya no serian ortogonales, por lo tanto, la distancia Euclidiana no correspondería a una métrica apropiada, mientras que la distancias Mahalanobis explicaría adecuadamente las similitudes entre los puntos. Distancias Mahalanobis y la probabilidad de pertenencia de los casos. A cada grupo puede definirse un punto que representa las media del grupo. Estos puntos son llamados centroides del grupo. Entonces, para cada punto asociado a un caso puede calcularse las distancias Mahalanobis con respecto a los centroides de los grupos. Por lo tanto, podemos clasificar los casos pertenecientes a un determinado grupo, de acuerdo con el criterio de la menor de las distancias Mahalanobis. Los casos con grandes valores distancias Mahalanobis de la media del grupo pueden ser identificados como casos atípicos. Para muestras grandes de una distribución normal multivariada, la distancia Mahalanobis de una caso a la media de su grupo es distribuida aproximadamente como una χ2 con grados de libertad igual al número de variables en la función. La probabilidad de pertenencia indica que tanto se identifica un caso a las características de un determinado grupo. Estas probabilidades son derivadas de las distancias Mahalanobis. Por ejemplo, la probabilidad de pertenecer Argentina al grupo 8 (0,70) es bastante alta comparada a la probabilidad de pertenencia al grupo 5 (0,15). Estas probabilidades son derivadas del calculo de las distancias Mahalanobis entre el caso y el centroide del grupo. 2.5.- Predicción. Un resultado que cualquiera debería observar para determinar que tan bien las funciones de clasificación pronostica que los casos sean miembros de un grupo es la matriz de clasificación. Resultados de la clasificación. Esta tabla muestra el número (o porcentaje) de casos clasificados correctamente e incorrectamente. Entre los 25 países tropical (grupo 5), 23 (92%) están clasificados correctamente y 2 (8%) están clasificados incorrectamente. Para la zona templada, 17 (81%) países

Page 47: 58762952 Manual Spss Usm

46

están clasificados correctamente y 4 (19%) están mal clasificados. En general, el 87% de los casos de la muestra están clasificados correctamente.

23 2 254 17 21

92,0 8,0 100,019,0 81,0 100,0

Climapredominantetropicaltempladotropicaltemplado

Recuento

%

Originaltropical templado

Grupo de pertenenciapronosticado

Total

Resultados de la clasificacióna

Clasificados correctamente el 87,0% de los casos agrupados originales.a.

3.- Ejemplo 2: Modelo discriminante para multi-grupos. El objetivo de este ejemplo es la obtención de un modelo para cuatro grupos usando algún método de selección de variables. Los datos relacionados con estas variables están contenidos en la tabla 2. La idea es construir funciones discriminantes a partir de la combinación de algunas variables independientes (espvidaf, mortinf, alfabet, tasa_nat, tasa_mor, fertilid, urbana, log_pib, inc_pob, nac_def y log_pob) que mejor pronostiquen la clasificación de un país (caso) dentro de una región geográfica: Europa, Asia/Pacífico, Medio Oriente y América Latina. Tabla 2 - Datos económicos y demográficos de 60 países. PAÍS urbana espvidaf alfabet inc_po mortin región tasa_nat tasa_mo log_pib nac_def fertilid log_pob Afghanistan 18 44 29 3 168 3 53 22 02 02 7 04 Corea del Su 72 74 96 1 22 3 16 6 04 03 2 05 China 26 69 78 1 52 3 21 7 03 03 2 06 Filipinas 43 68 90 2 51 3 27 7 03 04 3 05 Hong Kong 94 80 77 0 6 3 13 6 04 02 1 04 India 26 59 52 2 79 3 29 10 02 03 4 06 Indonesia 29 65 77 2 68 3 24 9 03 03 3 05 Japón 77 82 99 0 4 3 11 7 04 02 2 05 Malasia 43 72 78 2 26 3 29 5 03 06 4 04 Pakistán 32 58 35 3 101 3 42 10 03 04 6 05 Singapur 100 79 88 1 6 3 16 6 04 03 2 03 Tailandia 22 72 93 1 37 3 19 6 03 03 2 05 Taiwan 71 78 91 1 5 3 16 . 04 . . 04 Arabia Saudí 77 70 62 3 52 5 38 6 04 06 7 04 Armenia 68 75 98 1 27 5 23 6 04 04 3 04 Egipto 44 63 48 2 76 5 29 9 03 03 4 05 Emiratos Ára 81 74 68 5 22 5 28 3 04 09 5 03 Irán 57 67 54 3 60 5 42 8 03 05 6 05 Iraq 72 68 60 4 67 5 44 7 03 06 7 04 Israel 92 80 92 2 9 5 21 7 04 03 3 04

Page 48: 58762952 Manual Spss Usm

47

Jordania 68 74 80 3 34 5 39 5 03 08 6 04 Kuwait 96 78 73 5 13 5 28 2 04 14 4 03 Líbano 84 71 80 2 40 5 27 7 03 04 3 04 Libia 82 65 64 4 63 5 45 8 04 06 6 04 Siria 50 68 64 4 43 5 44 6 03 07 7 04 Turquía 61 73 81 2 49 5 26 6 04 04 3 05 Argentina 86 75 95 1 26 6 20 9 04 02 3 05 Bolivia 51 64 78 3 75 6 34 9 03 04 4 04 Brasil 75 67 81 1 66 6 21 9 03 02 3 05 Colombia 70 75 87 2 28 6 24 6 03 04 2 05 Costa Rica 47 79 93 2 11 6 26 4 03 07 3 04 Cuba 74 78 94 1 10 6 17 7 03 02 2 04 Chile 85 78 93 2 15 6 23 6 03 04 3 04 Ecuador 56 73 88 2 39 6 26 6 03 04 3 04 Guatemala 39 67 55 3 57 6 35 8 03 04 5 04 México 73 77 87 2 35 6 28 5 04 06 3 05 Nicaragua 60 67 57 3 53 6 35 7 03 05 4 04 Panamá 53 78 88 2 17 6 25 5 03 05 3 03 Paraguay 48 75 90 3 25 6 33 5 03 07 4 04 Perú 70 67 85 2 54 6 26 7 03 04 3 04 Rep. Domini 60 70 83 2 52 6 25 6 03 04 3 04 Uruguay 89 77 96 1 17 6 17 10 03 02 2 04 Venezuela 91 76 88 2 28 6 26 5 03 05 3 04 Para obtener el mejor modelo discriminante, que no necesariamente deba incluir todas las variables independientes o predictoras, se utilizará un método de selección de variables. Para realizar una análisis discriminante a los datos de la tabla 2, es necesario que elija en los menús:

Estadísticos Clasificar Discriminante...

Luego, seleccione las variables para el análisis.

Variable de agrupación: región Definir rango... Mínimo: 3 Máximo: 6

Independientes: espvidaf, mortinf, alfabet, tasa_nat, tasa_mor, fertilid, urbana, log_pib,

inc_pob, nac_def, log_pob

ü Usar un método de inclusión por pasos

Page 49: 58762952 Manual Spss Usm

48

Métodos de selección de variables. Probablemente la manera más común de uso del análisis discriminante es incluir varias medidas al inicio del estudio a fin de determinar algunas que mejor discriminan entre los grupos. El SPSS entrega varios métodos para construir un modelo usando procedimiento por pasos, que consisten ingresar o remover una variable independiente del modelo a cada paso. Específicamente, en cada paso el SPSS revisa todas las variables y evalúa cual contribuye más a la discriminación entre los grupos (es decir, aumentar la diferencia de las medias entre los grupos). Entonces, esta variable será incluida en el modelo, el SPSS procede al siguiente paso para incluir una nueva variable. Los métodos para controlar la entrada y salida de las variables independientes de la función discriminante son: Lambda de Wilks. El estadístico F es calculado a cada variable independiente presente (o disponible), el cual mide el cambio en el lambda de Wilks cuando la variable es agregada al modelo. La variable con el F más grande (o el lambda de Wilks más pequeño) ingresa al modelo. El SPSS también comprueba las variables ya incluidas y, en consecuencia, removerá la variable si el valor de su F-salida es demasiado pequeño. Distancias de Mahalanobis. En cada paso, ingresara la variable que maximiza las distancias Mahalanobis entre los dos grupos más cercanos. La razón más pequeña de F. En cada paso, ingresa la variable que maximiza la razón más pequeña de F para pares de grupo. V de Rao. También conocida como la traza de Lawley-Hotelling. En cada paso, ingresa la variable el valor mayor de las V de Rao, la cual maximiza la diferencia entre las medias (centroides) de los grupos. La suma de la varianza no explicada. La suma de la varianza no explicada para todos los pares de grupos también puede usarse como criterio para la selección de variables. La variable elegida para ingresar es aquella que miniminiza la suma de la varianza no explicada.

Page 50: 58762952 Manual Spss Usm

49

En el cuadro de dialogo de análisis discriminante pulse Método, el cual despliega un nuevo cuadro de dialogo, en el cual deberá seleccionar:

Mostrar ü F para distancias por parejas

Para obtener información acerca de las diferencias entre los grupos, igualdad de varianza de las variables a través de los grupos y los coeficientes de la variables canónicas realice lo siguiente: En el cuadro de dialogo de análisis discriminante pulse Estadísticos. Aparecerá un nuevo cuadro de dialogo, en el cual deberá seleccionar:

Descriptivos ü Medias ü ANOVAs univariados ü M de Box Coeficientes de la función ü De Fisher Matrices ü Correlación intra-grupos

Page 51: 58762952 Manual Spss Usm

50

Para obtener un resumen y una información detallada del análisis y, a la vez, gráficos que muestren las fronteras en el diagrama de dispersión seleccione las siguientes opciones en el cuadro de dialogo Clasificación:

Mostrar ü Resultados para cada paso ü Tabla de resumen ü Clasificación dejando uno fuera Gráficos ü Grupos combinados ü Grupos separados

3.1.- Verificacion de los supuestos. Las variables utilizadas para la contsrución del modelo discriminante deben cumplir con los siguientes supuestos:

Page 52: 58762952 Manual Spss Usm

51

1. Las variables independientes se distribuyen normal. 2. Igual de varianzas y covarianzas de las variables a tráves de los grupos.

Estadísticos del grupo. Esta tabla permite analizar si se cumplen los supuestos asociados con el modelo. De esta, se observa las medias de las variables difieren entre los grupos (región) y que las desviaciones estándar de cada variables son tan similares entre los grupos.

Page 53: 58762952 Manual Spss Usm

52

74,3333 23,3563 12 12,00068,5000 10,8418 12 12,000

3,1575 1,8874 12 12,0001,5192 ,8965 12 12,0003,2416 ,7289 12 12,0004,8038 ,7866 12 12,000

51,6000 47,8872 12 12,0003,0892 1,1027 12 12,0008,4167 4,5817 12 12,000

25,0000 12,2993 12 12,00048,5000 29,3025 12 12,00071,0769 14,6143 13 13,00071,2308 5,0192 13 13,000

4,8685 1,5517 13 13,0003,1300 1,1576 13 13,0003,5317 ,4071 13 13,0004,0012 ,5500 13 13,000

42,6154 21,2122 13 13,0006,1697 3,0198 13 13,0006,1538 1,9513 13 13,000

33,3846 8,7611 13 13,00071,6923 15,7342 13 13,000

84,5882 11,8325 17 17,00073,1176 4,9860 17 17,000

3,1559 ,7871 17 17,0001,9294 ,5865 17 17,0003,2205 ,2514 17 17,0004,1010 ,5062 17 17,000

35,6529 20,2316 17 17,0004,2069 1,5159 17 17,0006,6765 1,7936 17 17,000

25,9412 5,6841 17 17,00066,2941 16,0459 17 17,00077,4762 17,3307 42 42,00071,2143 7,2298 42 42,000

3,6864 1,5949 42 42,0002,1838 1,0872 42 42,0003,3229 ,4856 42 42,0004,2709 ,6875 42 42,000

42,3643 30,8275 42 42,0004,4951 2,3225 42 42,0007,0119 2,9765 42 42,000

27,9762 9,4469 42 42,00062,8810 22,2099 42 42,000

alfabetespvidaffertilidinc_poblog_piblog_pobmortinfnac_deftasa_mortasa_naturbanaalfabetespvidaffertilidinc_poplog_piblog_popmortinf

nac_deftasa_mortasa_naturbanaalfabetespvidaffertilidinc_poplog_piblog_popmortinfnac_deftasa_mortasa_naturbanaalfabetespvidaffertilidinc_poplog_piblog_popmortinfnac_deftasa_mortasa_naturbana

RegióneconómicaAsia /Pacífico

OrienteMedio

AméricaLatina

Total

Media Desv. típ.No

ponderados Ponderados

N válido (según lista)

Estadísticos del grupo

Page 54: 58762952 Manual Spss Usm

53

Pruebas de la igualdad de las medias de los grupos. Para probar qué tan separados están las medias de cada variables en todos los grupos, el SPSS calcula el Lambda de Wilks, también conocido como estadístico U, para determinar está diferencia. Este estadístico toma valores entre 0 y 1. Los valores pequeños indican que las medias de las variables difieren. El estadístico lambda de Wilks es la razón entre la suma de cuadrados intra-grupos a la suma total de los cuadrados. El estadístico F es la razón de la variabilidad inter-grupos a la variabilidad intra-grupos. Se observan diferencias no significativas de las variables espvidaf, log_pib, mortinf y tasa_mor.

,877 2,727 2 39 ,078,930 1,468 2 39 ,243,748 6,577 2 39 ,003,628 11,562 2 39 ,000,915 1,818 2 39 ,176,750 6,498 2 39 ,004,954 ,939 2 39 ,400,722 7,526 2 39 ,002,903 2,090 2 39 ,137,848 3,501 2 39 ,040,818 4,351 2 39 ,020

alfabetespvidaffertilidinc_poblog_piblog_pobmortinfnac_deftasa_mortasa_naturbana

Lambdade Wilks F gl1 gl2 Sig.

Pruebas de igualdad de las medias de los grupos

Prueba de Box sobre la igualdad de las matrices de covarianza de los grupos. Para tamaños de muestra suficientemente grandes, un valor de α no significativo quiere decir que no hay evidencia suficiente de que las matrices difieran. Esta prueba es sensible a las desviaciones de la normalidad multivariada.

4 6,137

4 5,797

4 3,214

4 6,079

RegióneconómicaAsia /PacíficoOrienteMedioAméricaLatinaIntra-gruposcombinada

Rango

Logaritmodel

determinante

Logaritmo de los determinantes

Los rangos y logaritmos naturales de losdeterminantes impresos son los de lasmatrices de covarianza de los grupos.

Page 55: 58762952 Manual Spss Usm

54

48,5992,052

204585,168

,004

M de BoxAprox.gl1gl2Sig.

F

Resultados de la prueba

Contrasta la hipótesis nula de quelas matrices de covarianzapoblacionales son iguales.

Matrices intra-grupos combinadas. Estas correlaciones pueden ser muy diferentes de las correlaciones usuales en donde todos los casos son tratados como una sola muestra. Estas correlaciones se calculan partir de las varianzas y covarianzas separadamente para cada grupo (por ejemplo, si sus grupos son hombres y mujeres, para cada variable, las desviaciones son calculadas de la media de los hombres y la media de las mujeres, respectivamente). Las varianzas y covarianzas son, por lo tanto, combinadas para formar una matriz de covarianzas combinada. Las correlaciones son calculadas desde las varianzas y covarianzas. Conjuntos de variables que muestren una fuerte asociación entre ellas generarían diferentes subconjuntos alternativos de variables.

1,000 ,822 -,791 -,533 ,615 -,192 -,801 -,117 -,581 -,789 ,493,822 1,000 -,742 -,417 ,792 -,322 -,975 ,095 -,768 -,790 ,646

-,791 -,742 1,000 ,688 -,533 ,083 ,722 ,279 ,491 ,962 -,498-,533 -,417 ,688 1,000 -,300 -,123 ,365 ,786 ,015 ,691 -,327,615 ,792 -,533 -,300 1,000 -,392 -,763 ,023 -,506 -,628 ,787

-,192 -,322 ,083 -,123 -,392 1,000 ,362 -,271 ,176 ,078 -,375-,801 -,975 ,722 ,365 -,763 ,362 1,000 -,130 ,802 ,779 -,623-,117 ,095 ,279 ,786 ,023 -,271 -,130 1,000 -,472 ,280 -,077-,581 -,768 ,491 ,015 -,506 ,176 ,802 -,472 1,000 ,518 -,321-,789 -,790 ,962 ,691 -,628 ,078 ,779 ,280 ,518 1,000 -,577,493 ,646 -,498 -,327 ,787 -,375 -,623 -,077 -,321 -,577 1,000

alfabetespvidaffertilidinc_poblog_piblog_pobmortinfnac_deftasa_mortasa_naturbana

alfabet espvidaf tasa_nat inc_pop log_pib log_pop mortinf nac_def tasa_mor tasa_nat urbana

Matrices intra-grupo combinadas

3.2.- Selección de variables por pasos. Variables no incluidas en el análisis. Para entender la selección de variables por pasos. es necesario revisar y contrastar las tablas variables no incluidas en el análisis y variables en el análisis. En el paso 0 en la tabla de variables no incluidas en el análisis, inc_pop tiene la más grande de las F-que-introducir y, también, el Lambda de Wilks más pequeño, por lo tanto, el SPSS ingresa esta variable al primer modelo. En el paso 1, urbana, presenta la F-que-introducir más grande, así que es incorporada al modelo. Los pasos restantes se analizan de la misma manera, así que las variables log-pib y espvidaf son ingresadas al modelo. El estadístico F-que-introducir, en el paso 0, es igual al calculado de un análisis de varianza (ANOVA) para los grupos usados en el análisis discriminante.

Page 56: 58762952 Manual Spss Usm

55

En lo pasos siguientes, el F-que-introducir corresponde al F calculado de un análisis de covarianza donde los coeficientes covariados son las variables previamente ingresadas No es fácil asociar probabilidades con las de estas F porque es necesaria la distribución de la F más grande. La distribución de la F más grande esta afectada por el número de variables observadas, la estructura de su correlación, el número de grupos, y el tamaño delas muestras de los grupos. Cuando las variables independientes están altamente correlacionadas, el valor crítico dela F puede ser mucho más grande para probar una sola variable preseleccionada. Para cada variable, el Lambda de Wilks es usado para probar la igualdad de los centroides entre los grupos usando el conjunto de variables incluyendo esta variable y aquellas ya incorporadas al modelo. Una variable con baja tolerancia es casi una función lineal de las otras, su inclusión en el modelo puede generar cálculos inestables o pocos confiables.

Page 57: 58762952 Manual Spss Usm

56

1,000 1,000 2,727 ,8771,000 1,000 1,468 ,9301,000 1,000 6,577 ,7481,000 1,000 11,562 ,6281,000 1,000 1,818 ,9151,000 1,000 6,498 ,7501,000 1,000 ,939 ,9541,000 1,000 7,526 ,7221,000 1,000 2,090 ,9031,000 1,000 3,501 ,8481,000 1,000 4,351 ,818

,716 ,716 3,542 ,529,826 ,826 3,837 ,522,526 ,526 ,826 ,602,910 ,910 3,746 ,524,985 ,985 4,290 ,512,867 ,867 2,512 ,554,382 ,382 ,318 ,617

1,000 1,000 1,620 ,578,522 ,522 ,447 ,613,893 ,893 7,010 ,459,602 ,602 1,426 ,426,536 ,536 ,358 ,450

,443 ,443 1,318 ,428,379 ,372 4,545 ,368,791 ,718 1,505 ,424,583 ,583 ,113 ,456,346 ,310 ,420 ,448,888 ,793 ,185 ,454,384 ,384 ,474 ,447,486 ,306 4,387 ,296,337 ,238 4,401 ,296,407 ,348 2,257 ,327,761 ,361 2,200 ,328,397 ,258 2,696 ,320,308 ,280 1,227 ,345,713 ,304 1,769 ,335,324 ,320 ,942 ,350,275 ,191 ,729 ,284,270 ,223 1,855 ,267,751 ,236 1,222 ,277,046 ,039 1,387 ,274,147 ,123 1,707 ,270,250 ,118 ,311 ,291,214 ,214 1,392 ,274

alfabetespvidaffertilidinc_poblog_piblog_pobmortinfnac_deftasa_mortasa_naturbanaalfabetespvidaffertilidlog_piblog_pobmortinfnac_deftasa_mor

tasa_naturbanaalfabetespvidaffertilidlog_piblog_pobmortinfnac_deftasa_mortasa_natalfabetespvidaffertilidlog_pobmortinfnac_deftasa_mortasa_natalfabetfertilidlog_pobmortinfnac_deftasa_mortasa_nat

Paso0

1

2

3

4

ToleranciaTolerancia

mín.F que

introducirLambdade Wilks

Variables no incluidas en el análisis

Page 58: 58762952 Manual Spss Usm

57

Variables en el análisis. Para cada variable en el modelo, la F-que-introducir y el Lambda de Wilks son usados para describir que sucede si la variable es sacada de el modelo estructurado en ese momento. Por lo tanto, el Lambda de Wilks para la variable incorporada es igual al Lambda de Wilks de todo el modelo del paso previo. La F-que-introducir para la variable ingresada es igual a su F-que-introducir.

1,000 11,562,893 14,875 ,818,893 7,010 ,628,888 14,535 ,657,372 7,851 ,524,379 4,545 ,459,807 12,861 ,507,371 5,960 ,394,238 9,373 ,450,337 4,401 ,368

inc_pobinc_poburbanainc_poburbanalog_pibinc_poburbanalog_pibespvidaf

Paso12

3

4

ToleranciaF que

eliminarLambdade Wilks

Variables en el análisis

3.3.- Resumen de la funciones canónicas discriminantes. Autovalores. El primer valor propio (1,117) corresponde al primer vector propio, el cual se encuentra en la dirección de la máxima dispersión de los centroides, el segundo valor propio corresponde al segundo vector propio en la dirección que tiene la siguiente dispersión más grande, etc. La raíz cuadrada de cada valor propio entrega una indicación de la longitud de su correspondiente vector propio. La primera variable canónica explica el 65,2% de la dispersión total. La correlación entre cada variable canónica y el conjunto de variables ficticias definen la estructura de los grupos.

1,117a 65,2 65,2 ,726,597a 34,8 100,0 ,611

Función12

Autovalor% de

varianza%

acumuladoCorrelación

canónica

Autovalores

Se han empleado las 2 primeras funcionesdiscriminantes canónicas en el análisis.

a.

Lambda de Wilks. En esta Tabla se muestra el contraste de la funciones 1 a la 2, en donde se docima la hipótesis que las medias delas dos funciones (dos variables canónicas) son iguales en los tres grupos. Una transformación χ2 del Lambda de Wilks es usado para determinar la significancia.

Page 59: 58762952 Manual Spss Usm

58

El valor p o nivel significativo observado es menor a 0,0005, por lo tanto, la hipótesis de igualada de medias es rechazada.

,296 45,675 8 ,000,626 17,553 3 ,001

Contrastede lasfunciones1 a la 22

Lambdade Wilks Chi-cuadrado gl Sig.

Lambda de Wilks

Variables canónicas estandarizadas. El número de variables canónicas es k-1 (donde k es el número de grupos) o p (el número de variables), el menor de los dos.

,367 -1,170,978 ,179

-,481 1,877,894 -,814

espvidafinc_poblog_piburbana

1 2Función

Coeficientes estandarizados de lasfunciones discriminantes canónicas

Matriz de estructura. para cada variable, un arterisco indica que tiene la correlación absoluta más grande con una de las tres variables canónicas.

Page 60: 58762952 Manual Spss Usm

59

,724* ,135,676* ,370,433* -,151

-,386* -,074-,311* ,214,212 ,396*,173 ,338*

-,074 -,304*,156 -,284*

-,192 ,282*,221 ,255*

nac_defa

inc_poburbanalog_poba

tasa_mora

fertilida

tasa_nata

alfabeta

espvidafmortinfa

log_pib

1 2Función

Matriz de estructura

Correlaciones intra-grupo combinadas entre lasdiscriminantes y las funciones discriminantes canónicas tipificadasVariables ordenadas por el tamaño de la correlación con la

Mayor correlación absoluta entre cada variable yfunción discriminante.

*.

Esta variable no se emplea en el análisis.a.

Funciones en los centroides de los grupos. En esta tabla se muestra la media de la variable canónica por grupo. El contraste de los centroides de cada par de grupos es mostrada en la tabla Comparación de grupos por pares.

-1,418 ,558

1,220 ,664

6,763E-02 -,901

RegióneconómicaAsia /PacíficoOrienteMedioAméricaLatina

1 2Función

Funciones en los centroides de losgrupos

Funciones discriminantes canónicasno tipificadas evaluadas en lasmedias de los grupos

Comparación de grupos por pares. En esta tabla, los estadísticos F son usados para describir que grupos son más similares ( diferentes) y para probar la igualdad de las medias (centroides) para cada par de grupos. Los datos son puntajes de las variables canónicas y las medias de los grupos son desplegados en la tabla Funciones en los centroides de los grupos. El estadístico F para cada par de los grupos es proporcional al estadístico T2 de Hotelling y la D2 Mahalanobis. Por lo tanto, es posible pensar el estadístico F como una medida de distancia entre cada par.

Page 61: 58762952 Manual Spss Usm

60

20,755 1,518 ,000 ,225

20,755 13,611,000 ,001

1,518 13,611 ,225 ,001

20,219 4,702 ,000 ,015

20,219 8,640,000 ,001

4,702 8,640 ,015 ,001

13,281 5,841 ,000 ,002

13,281 7,245,000 ,001

5,841 7,245 ,002 ,001

10,038 7,040 ,000 ,000

10,038 6,424,000 ,001

7,040 6,424 ,000 ,001

FSig.FSig.FSig.FSig.FSig.FSig.FSig.FSig.FSig.FSig.FSig.FSig.

RegióneconómicaAsia /Pacífico

OrienteMedio

AméricaLatina

Asia /Pacífico

OrienteMedio

AméricaLatina

Asia /Pacífico

OrienteMedio

AméricaLatina

Asia /Pacífico

OrienteMedio

AméricaLatina

Paso1

2

3

4

Asia /Pacífico

OrienteMedio

AméricaLatina

Comparaciones de grupos por paresa,b,c,d

1, 39 grados de libertad para el paso 1.a.

2, 38 grados de libertad para el paso 2.b.

3, 37 grados de libertad para el paso 3.c.

4, 36 grados de libertad para el paso 4.d.

3.4.- Clasificación de los casos. Coeficientes de la función de clasificación. En el modelo multi-grupo, hay una función de clasifoicación para cada grupo.

Page 62: 58762952 Manual Spss Usm

61

2,058 2,176 2,3737,136 10,078 8,4845,732 3,486 -1,519-,351 -,241 -,229

-77,784 -91,905 -86,015

espvidafinc_poblog_piburbana(Constante)

Asia /Pacífico

OrienteMedio

AméricaLatina

Región económica

Coeficientes de la función de clasificación

Funciones discriminantes lineales de Fisher

Resultados de la clasificacion. El 81,45 de los casos totales son clasificados correctamente por modelo de cinco variables. La clasificacion correcta de los casos es más alta para los países del Asia/Pacifico (92,3%): El segundo grupo mejor clasificado corresponde a los paises de America Latina.

Page 63: 58762952 Manual Spss Usm

62

12 1 0 133 8 2 13

2 0 15 17

17 0 0 17

92,3 7,7 ,0 100,023,1 61,5 15,4 100,0

11,8 ,0 88,2 100,0

100,0 ,0 ,0 100,0

11 1 1 133 8 2 13

2 0 15 17

84,6 7,7 7,7 100,023,1 61,5 15,4 100,0

11,8 ,0 88,2 100,0

RegióneconómicaAsia / PacíficoOriente MedioAmérica Latina

CasosdesagrupadosAsia / PacíficoOriente MedioAmérica Latina

CasosdesagrupadosAsia / PacíficoOriente MedioAmérica Latina

Asia / PacíficoOriente MedioAmérica Latina

Recuento

%

Recuento

%

Original

Validacióncruzada

a

Asia /Pacífico

OrienteMedio

AméricaLatina

Grupo de pertenencia pronosticado

Total

Resultados de la clasificaciónb,c

La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada,cada caso se clasifica mediante las funciones derivadas a partir del resto de loscasos.

a.

Clasificados correctamente el 81,4% de los casos agrupados originales.b.

Clasificados correctamente el 79,1% de los casos agrupados validados mediantevalidación cruzada.

c.

3.5.- Gráficos. 3.5.1- Gráficos por grupos separados.

Page 64: 58762952 Manual Spss Usm

63

funciones discriminantes canónicas

Región económica = Europa (OCDE)

Función 1

4,54,03,53,02,52,01,51,0

Fun

ción

2

1,2

1,0

,8

,6

,4

,2

-,0

-,2

-,4

-,6

Centroide de grupo

Centroide de grupo

OCDE

funciones discriminantes canónicas

Región económica = Asia / Pacífico

Función 1

3210-1-2-3

Fun

ción

2

1

0

-1

-2

-3

-4

Centroide de grupo

Centroide de grupo

Asia / Pacífico

Page 65: 58762952 Manual Spss Usm

64

funciones discriminantes canónicas

Región económica = Oriente Medio

Función 1

10-1-2-3-4

Func

ión

25

4

3

2

1

0

-1

-2

Centroide de grupo

Centroide de grupo

Oriente Medio

funciones discriminantes canónicas

Región económica = América Latina

Función 1

10-1-2-3-4

Fun

ción

2

1,0

,5

0,0

-,5

-1,0

-1,5

Centroide de grupo

Centroide de grupo

América Latina

3.5.2.- Diagrama de dispersión con todos los grupos.

Page 66: 58762952 Manual Spss Usm

65

funciones discriminantes canónicas

Función 1

6420-2-4

Func

ión

2

6

4

2

0

-2

-4

Región económica

Centroides de grupo

América Latina

Oriente Medio

Asia / Pacífico

OCDE

América Latina

Oriente Medio

Asia / Pacífico

OCDE

3.6.- Validación del modelo. El análisis discriminante al igual que otros métodos estadísticos multivariados se apoya en determinados supuestos. Así que, cumplir con los supuestos también es una manera de validación del modelo obtenido. Los supuestos más críticos de este método son: las variables independientes deben tener una distribución normal multivariada y las matrices de varianza-covarianza intra-grupos deben ser iguales en todos los grupos. Para verificar estos supuestos el SPSS dispone de dócimas para probar la hipótesis que los datos provienen de una distribución normal y diagramas de probabilidad normal para determinar gráficamente desviaciones a la normalidad mediante las opciones en el cuadro de dialogo de Explorar (Estadísticos / Resumir). También, es posible verificar la confiabilidad del modelo a través de la validación cruzada, es decir, el SPSS calcula funciones de clasificación para un subconjunto de cada grupo a fin de que analice como el procedimiento clasifica los casos no utilizados para la generación de estas nuevas funciones discriminantes. Estos significa que nuevos datos pueden ser clasificados usando funciones derivadas de los grupos originales. Por lo tanto, el mismo analista puede diseñas su propia validación cruzada mediante una asignación aleatoria de los casos a cada grupo para un conjunto de datos analizando y para un conjunto de datos probado. Entonces, el SPSS estimara las funciones discriminantes usando el conjunto de datos analizando y aplicar la función al resto de los casos (conjunto de datos probado). La proporción de clasificación correcta para el conjunto de datos probado es una buena medida empírica de la eficiencia del modelo discriminante.

Page 67: 58762952 Manual Spss Usm

66

IV.- ANÁLISIS CONJUNTO. La investigación de mercados esta enfocada frecuentemente a descubrir cuáles características de un producto o servicio son más importantes a los consumidores. El producto ideal o servicio naturalmente tendría todas las mejores características, pero de acuerdo con la realidad existe un compromiso de por medio. Por ejemplo, el producto de características más costosas no puede tener el más bajo precio. El análisis conjunto es una técnica para medir las preferencias del consumidor acerca de los atributos de un producto o servicio. El análisis conjunto es apropiado para analizar variables independientes nominales y una variable dependiente ordinal. Esencialmente es un análisis de varianza de los datos de rango-orden. El beneficio de este método es que genera medidas de nivel de intervalos de los efectos de las categorías delas variables independientes. Existen dos enfoques en este método para analizar los datos recopilados, estos son:

1. Análisis conjunto por comparación de pares de perfiles.

2. Análisis conjunto por comparación totales de perfiles. Sin embargo, el análisis conjunto por comparación totales de perfiles (también conocido como método por concepto total) es el explicado en este capitulo, debido a que este es considerado como una de las técnicas del análisis conjunto más realista. En esta técnica todos los factores son considerados simultáneamente. El SPSS tiene tres procedimiento de método en el módulo de Categorías - generación de diseño ortogonal, Despliegue del diseño y el análisis conjunto - todos diseñados para la técnica por comparación totales de perfiles. 1.- Análisis conjunto por comparación totales de perfiles. En esta técnica, el encuestado se le pide que clasifique, ordene o coloque puntajes a un conjunto de perfiles de acuerdo a su preferencia. En cada uno de estos perfiles, todos los factores de interés son presentados y una combinación diferente de niveles factoriales (características) aparecen. Así, de esta manera, todo un concepto esta descrito en cada perfil. 2.- Una ordenación ortogonal. Un inconveniente que está asociado al método por comparación totales de perfiles se debe cuando el estudio a realizar considera un número elevado de atributos y , a su vez, cada uno de ellos presenta varios niveles. Por lo tanto, el número total de perfiles resultantes de todas las posibles combinaciones de los niveles genera encuestas demasiados grandes para que los encuestados clasifiquen u ordenen de una manera razonable. Por esta razón, frecuentemente solo un conjunto más pequeño de todos los posibles perfiles es usado en la investigación. Este subconjunto, llamado un arreglo ortogonal, es un tipo de diseño, en el cual solamente los efectos principales son considerados y las interacciones entre estas son asumidas ser despreciables.

Page 68: 58762952 Manual Spss Usm

67

El procedimiento de Generar Diseño Ortogonal en el modulo de Categorías del SPSS produce un plan de efectos principales ortogonales. Desde los factores y niveles especificados, el procedimiento Generar Diseño Ortogonal puede crear ya se un nuevo archivo de datos de trabajo conteniendo el plan ortogonal o esta puede reemplazar el archivo de datos de trabajo utilizado. 3.- El estímulo experimental. Según mencionado en Recopilando y Analizando los Datos, la recolección de datos en el método por comparación totales de perfiles requiere que el estimulo sea presentado a cada sujeto en cada conjunto de perfiles individuales. Una vez que la ordenación (o arreglo) sea elegido, cada ejemplo de un producto completo debe colocarse en un perfil separado. Esto ayuda al encuestado a concentrarse en solamente en el producto de ese momento bajo evaluación. El estimulo debe también ser estandarizado para asegurar que los perfiles todos sean similares en apariencia física, excepto para las diferentes combinaciones de características. El procedimiento de Generar Diseño Ortogonal en el modulo de Categorías del SPSS efectúa estas tareas tomando el diseño generado en Generar Diseño Ortogonal o ingresado por el usuario e imprime los perfiles de concepto total en un formato listo para utilizar. 4.- Recolectando y analizando los datos. Cada encuestado en el estudio se le entrega un completo conjunto de perfiles y se le pregunta que indica sus preferencias para el producto. El investigador puede decirle al encuestado que indique la preferencia de una o varias maneras. El encuestado puede ser consulado que asigne un puntaje a cada perfil y, por lo tanto, a mayor puntaje más altos son las preferencias. Alternativamente, puede preguntarse al encuestado que asigne un rango a cada perfil clasificado de 1 a n, donde n es el número total de perfiles y un número de clasificación menor significa una mayor preferencia. Una ligera variación de esto es consultar al encuestado que ordene los perfiles de más al menos preferido. Cualquier método es usado, los datos son entonces registrados para cada individuo. El procedimiento Conjunto de Categorías del SPSS es usado para estimar los puntajes de utilidad para cada respuesta individual y para toda la muestra. Los resultados muestran tales cosas como cuáles combinaciones de características es la más preferidas, cuáles son las características específicas de mayor influencia en la preferencia de el producto total, y la importancia relativa de cada factor. Puesto que cada nivel del factor tiene un puntaje de utilidad, que puede también predecir los efectos de las combinaciones que no fueron actualmente presentadas en el experimento. La información obtenida de un análisis conjunto puede ser aplicado a una amplia variedad de cuestionarios de investigación de mercados. Este puede ser usado para investigar áreas tales como diseño de productos, participación de mercados, avisos (cupones) publicitarios, análisis costo-beneficio y segmentación de mercados. Datos. Supongamos que un compañía interesada en la venta de un nuevo alimento canino desea examinar la influencia de cuatro atributos en las preferencias del consumidor -tamaño, distribución, valor nutricional y prestigio de la marca. Hay tres niveles para cada uno de los atributos. La tabla 1 muestra las variables usadas en el estudio de alimento para peros, con las etiquetas de sus variables y sus valores.

Page 69: 58762952 Manual Spss Usm

68

Tabla 1. Variables en el estudio de alimento canino. Nombre variable Etiqueta variable Etiqueta valor tamano tamaño 1 a 3 kgs,

3 a 10 kgs, 10 a 20 kgs

distribu distribución supermercados, veterinarios, tienda de mascotas

nutricion valor nutricional 0 a 20, 20 a 25, 26 a 30

prestigi prestigio de la marca bajo, medio, alto

5.- Generación de un diseño ortogonal. Un diseño de arreglo ortogonal puede ser generado para los factores y niveles por factor que especifique. En el caso que no esta abierto, el SPSS crea uno, generando nombres de las variables, etiqueta de la variable y valores de las opciones que ha seleccionado. En la figura 1 se muestra el Editor de datos, desplegando el diseño ortogonal para el ejemplo de alimento canino. Los factores son desplegados como variables y los casos creados por el procedimiento. Cada caso el Editor de datos representa un caso en el diseño ortogonal. El SPSS tiene ya prefijado un número mínimo de casos necesarios para generar un arreglo ortogonal. El procedimiento determina el número de casos que se necesita administrar para permitir estimaciones de las utilidades. También, se puede especificar que genere un número mínimo de casos. Además a los casos en el diseño, se pueden especificar casos reservados. Los casos reservados son juzgados por los sujetos, pero estos no son usados por el análisis para estimar las utilidades. Estos son usados para verificar la validez de las utilidades estimadas. Los casos reservados son generados de otro arreglo aleatorio, no por medio del plan ortogonal experimental. Los casos reservados aparecen después de los casos experimentales. El plan ortogonal es guardada en otro archivo de datos y es usada para desplegar el diseño de acuerdo a los perfiles de los individuos, y en análisis conjunto. Observe que las dos variables adicionales,. card_ y status_ , aparecen en el archivo de datos. La variable card_ asigna un número secuencia a cada perfil para su conveniencia. Status_ indica si un caso es parte de el diseño experimental. También, existe la posibilidad de crear casos simulados. Hay combinaciones que son consideradas por el individuo pero que están incluidas en el análisis

Figura 1. Plan ortogonal (PLAN.SAV).

Page 70: 58762952 Manual Spss Usm

69

Para obtener un diseño ortogonal, desde los menús elija:

Datos Diseño ortogonal Generar...

Esta despliega un cuadro de dialogo Generar un diseño ortogonal, como mostrado en la siguiente figura:

Page 71: 58762952 Manual Spss Usm

70

En esta ventana ingrese los factores a través de los siguientes pasos:

1. Defina al menos un factor. Ingrese un nombre en Nombre del factor. Los nombres de los factores pueden ser cualquier nombre valido para variables en el SPSS, excepto status_ o card_. También puede agregar una etiqueta al factor.

2. Pulse en Añadir para agregar el nombre del factor y una etiqueta opcional. 3. Pulse en Definir valores para agregar las categorías de las variables.

Archivo de datos. Permite controlar el destino del diseño ortogonal.

1. Crea un archivo de datos nuevo que contenga los factores y los casos generados por el plan. Por defecto, este archivo de datos recibe el nombre ortho.sav, y se guarda en el directorio actual. Pulse en Archivo para especificar un nombre y un destino diferentes para el archivo.

2. Reemplazar el archivo de trabajo con el plan generado.

Restablecer semilla de aleatorización a. Restituye la semilla de aleatorización al valor especificado. La semilla puede ser cualquier valor entero entre 0 y 2.000.000.000. Dentro de una sesión, SPSS utiliza una semilla diferente cada vez que genera un conjunto de números aleatorios, dando lugar a resultados distintos. Definir valores. Cuando pulse en Definir valores se desplegará el cuadro de dialogo a continuación:

En esta ventana podrá asignar valores a cada nivel de los factores seleccionados. Opciones. Al seleccionar Opciones aparecerá el cuadro de dialogo siguiente:

Page 72: 58762952 Manual Spss Usm

71

Generar como mínimo. Especifica un número mínimo de casos para el plan. Seleccione un entero positivo menor o igual que el número total de casos que se pueden formar a partir de todas las combinaciones posibles de los niveles de los factores. Casos reservados. Crea casos de reserva que se suman a los casos corrientes del plan. Puede especificar cualquier entero positivo menor o igual que el número total de casos que pueden formarse a partir de todas las combinaciones posibles de los niveles de los factores. Si no especifica un valor de reserva, no se generan casos de reserva. 6.- Desplegando los perfiles del diseño ortogonal. Una vez que se tiene el diseño del plan, es necesario colocar cada combinación de factores en un perfil separado para suministrar a los individuos. Cada caso en el diseño ortogonal es mostrado como un perfil. Los perfiles pueden ser fácilmente observados y pueden ser configurados a la manera que el investigador cree que es lo más conveniente. Cada concepto puede ser producido en una hoja separada y contener títulos y pie de paginas ya sea en la parte superior o inferior de cada perfil. También puede controlarse la disposición del perfil dentro de la página a objeto de agregar figuras a los perfiles. Para mostrar un diseño ortogonal, desde los menús elija:

Datos Diseño ortogonal Mostrar...

Esta despliega un cuadro de dialogo Mostrar un diseño ortogonal, según como:

Page 73: 58762952 Manual Spss Usm

72

En esta ventana efectúe los siguientes pasos:

1. Mueva uno o más factores dentro de la lista de factores. 2. Seleccione un formato para desplegar os perfiles en la salida. 3. Pulse en Títulos (opcional), para definir títulos y pie de página para los perfiles.

A continuación, se muestra el diseño ortogonal para "alimento canino". Plancards: Title: Número de perfil )CARD Card 1 Distribución Veterinario Valor Nutricional 25 a 30 Prestigio de la marca Bajo Tamaño 10 a 20 kgs Card 2 Distribución Tienda de Mascotas Valor Nutricional 0 a 20 Prestigio de la marca Medio Tamaño 10 a 20 kgs Card 3 Distribución Supermercados Valor Nutricional 25 a 30 Prestigio de la marca Medio Tamaño 3 a 10 Kgs. Card 4 Distribución Tienda de Mascotas Valor Nutricional 20 a 25 Prestigio de la marca Bajo

Page 74: 58762952 Manual Spss Usm

73

Tamaño 3 a 10 Kgs. Card 5 Distribución Veterinario Valor Nutricional 0 a 20 Prestigio de la marca Alto Tamaño 3 a 10 Kgs. Card 6 Distribución Tienda de Mascotas Valor Nutricional 25 a 30 Prestigio de la marca Alto Tamaño 1 a 3 Kgs. Card 7 Distribución Supermercados Valor Nutricional 0 a 20 Prestigio de la marca Bajo Tamaño 1 a 3 Kgs. Card 8 Distribución Supermercados Valor Nutricional 20 a 25 Prestigio de la marca Alto Tamaño 10 a 20 kgs Card 9 Distribución Veterinario Valor Nutricional 20 a 25 Prestigio de la marca Medio Tamaño 1 a 3 Kgs. Footer: 7.- Análisis de preferencias del producto canino. Una vez que los datos ha sido recolectados, puede utilizarse el procedimiento Conjunto para estimar las utilidades para cada nivel de los factores. Los puntajes de estas utilidades indican la influencia de cada nivel factor en las preferencias de los encuestados para una combinación particular. Estos son calculados mediante el procedimiento, el cual consiste en un conjunto de regresiones de clasificación o puntajes de los perfiles. Pues, todos son expresados en una unidad común, los puntajes de las utilidades pueden ser todos sumados, por la cual se obtendría la utilidad total de una combinación. Para mayor conveniencia, las utilidades totales deben ser altamente correlacionadas con los datos de preferencias observados. El SPSS versión 7.5, no tiene una interface gráfica para el procedimiento Conjunto. Por lo tanto, para llevar a cabo cualquier análisis conjunto se deberá realizar el análisis a través de la sintaxis de los comandos. Consideremos realizar un análisis conjunto para el diseño de un producto "alimento canino", para lo cual se deberá disponer de los datos de preferencias recopilados de los encuestados y el plan ortogonal. El método de secuencia fue utilizado para recopilar los datos. Esto es, los individuos

Page 75: 58762952 Manual Spss Usm

74

ordenaron los perfiles desde el más al menos preferido. Por ejemplo, el primer individuo, en la tabla 2, asignó la preferencia número uno al segundo perfil. En la tabla 2 se muestran los datos de preferencias de 30 encuestados. Tabla 2. Datos de preferencias de los encuestados. SUJETO PREF1 PREF2 PREF3 PREF4 PREF5 PREF6 PREF7 PREF8 PREF9

01 02 01 09 06 04 07 03 08 05 02 06 07 09 04 05 08 02 03 01 03 04 08 09 06 03 07 02 05 01 04 09 02 05 07 08 06 04 03 01 05 03 05 04 09 06 08 02 07 01 06 08 05 06 07 09 04 03 02 01 07 07 03 09 06 08 04 02 05 01 08 09 05 04 07 08 06 03 02 01 09 09 04 03 07 08 06 05 02 01 10 05 08 07 06 09 04 02 03 01 11 03 08 07 05 09 06 02 04 01 12 07 06 03 08 09 05 04 02 01 13 07 08 09 03 05 06 02 04 01 14 06 07 08 04 09 05 03 02 01 15 08 06 04 07 09 05 02 03 01 16 09 05 07 04 08 06 02 03 01 17 09 04 07 05 06 08 01 03 02 18 06 03 09 02 07 08 04 05 01 19 05 02 08 01 07 06 04 09 03 20 05 02 09 01 06 07 04 08 03 21 09 04 07 06 05 08 03 02 01 22 04 05 07 08 06 09 01 03 02 23 08 07 03 06 05 04 09 02 01 24 09 02 07 05 08 06 04 03 01 25 09 02 07 05 08 06 03 04 01 26 03 07 04 08 09 06 02 05 01 27 09 04 03 05 07 08 06 02 01 28 06 08 05 07 09 02 01 04 03 29 05 08 07 04 09 06 03 02 01 30 07 06 05 04 08 09 02 03 01

Para realizar un análisis conjunto, debe escribir los comandos dentro de una ventana de sintaxis, y luego ejecutarla. Para obtener un análisis conjunto: 1.- Desde el menú principal seleccione:

Page 76: 58762952 Manual Spss Usm

75

Archivo Nuevo Sintaxis

Este abre una ventana de sintaxis SPSS.

2.- Ingrese los comandos que desea ejecutar en la ventana de sintaxis.

CONJOINT PLAN='PLAN.SAV' /DATA=* /SEQUENCE=PREF1 TO PREF9 /SUBJECT=sujeto /FACTORS=TAMANO DISTRIBU (DISCRETE) NUTRICIO PRESTIGI (LINEAR) /PRINT=ALL /UTILITY='UTIL.SAV'. SAVE OUTFILE='RANKS.SAV'.

3.- Seleccione los comandos que desea ejecutar y, entoces, pulse Ejecutar comando actual en las

barras de herramientas. El SPSS entrega una salida para cada encuestado mediante el subcomando SUJECT. La figura 3 muestra la salida del primer encuestado. La salida muestra los puntajes de utilidades y sus errores estándar para cada cada nivel de factor. Por lo tanto, la suma de los valores de una combinacion específica se obtiene como resultado la utilidad total de este producto. Por ejemplo, la utilidad total de un alimento canino con un tamaño de 1 a 3 kgs., ditribución en supermercados, valor nutricional de 0 a 20 y bajo prestigio de la marca, es:

utilidad(tamano: 1 a 3 kgs.) + utilidad(ditribu: supermercados) + utilidad(nutricio: 0 a 20) + utilidad(prestigi: bajo).

(0,6667) + (-2,0) + (0,5) + (-1,3333) = -2,1666

Figura 2. Resultados conjunto para el primer encuestado. Factor Model Levels Label TAMANO d 3 Tamaño DISTRIBU d 3 Distribución NUTRICIO l 3 Valor Nutricional PRESTIGI l 3 Prestigio de la marca (Models: d=discrete,l=linear,i=ideal,ai=antiideal, <=less, >=more) All the factors are orthogonal. _ SUBJECT NAME: 1,00 Importance Utility(s.e.) Factor

Page 77: 58762952 Manual Spss Usm

76

+--------+ TAMANO Tamaño I31,25 I ,6667( ,9718) I- 1 a 3 Kgs. +--------+ -2,0000( ,9718) --I 3 a 10 Kgs. I 1,3333( ,9718) I- 10 a 20 kgs I +---------+ DISTRIBU Distribución I34,38 I -2,0000( ,9718) --I Supermercados +---------+ ,3333( ,9718) I Veterinario I 1,6667( ,9718) I-- Tienda de Mascotas I +--+ NUTRICIO Valor Nutricional 9,38 I I ,5000( ,8416) I- 0 a 20 +--+ 1,0000(1,6833) I- 20 a 25 I 1,5000(2,5249) I-- 25 a 30 I B = ,5000( ,8416) I +------+ PRESTIGI Prestigio de la marca I25,00 I -1,3333( ,8416) -I Bajo +------+ -2,6667(1,6833) ---I Medio I -4,0000(2,5249) ----I Alto I B = -1,3333( ,8416) I 6,6667(2,4777) CONSTANT Pearson's R = ,926 Significance = ,0002 Kendall's tau = ,800 Significance = ,0016 Las utilidades totales deben corresponder de cerca a los datos observados. Para datos RANK y SEQUENCE la relación es inversa. Valores bajos indican alta preferencia y, por lo tanto, producirá altas utilidades. En cambio, altos valores indican baja preferencia y produce bajas utilidades. Las utilidades totales pueden estar un poco fuera de los datos observados debido a la falta de ajuste. Los errores estándar para cada utilidad es una indicación de que tan bien el modelo ajusta los datos de un encuestado en particular. Algunos resultados adicionales para cada factor en la salida CONJUNTA son los valores de b, el coeficiente de regresión lineal o pendiente para modelos lineales y cuadráticos y el valor de c, el termino cuadrático para modelos IDEAL y ANTIIDEAL. Para modelos LINEAR, el puntaje pronosticado puede ser calculado multiplicando el valor del factor por B. Para modelos cuadráticos, puede ser calculado multiplicando el valor del factor por B, y sumando aquel valor por el producto de C y el cuadrado de el valor del factor.

Page 78: 58762952 Manual Spss Usm

77

Los estadísticos R de Pearson y el tau de Kendall son otra indicación de qué tan bien el modelo ajusta los datos. Estas son correalciones entre las preferencias observadas y estimadas. Estos coeficientes deberían siempre ser muy altos. Por otra parte, en muchos análisis conjunto, el número de parámetros es cercano al número de perfiles a encuestar, lo cual aumenta artificialmente las correlaciones entre los puntajes observados y los estimados. En estos casos, la correlación entre los puntajes observados y estimados para los perfiles reservados podría entregar una mejor indicación del ajuste del modelo, puesto que estos perfiles no fueron usados para estimar los puntajes. Estos perfiles reservados producen siempre coeficientes de correlación más bajos. Tabla 3. Archivo de datos UTIL.SAV.

suj const tam1 tam2 tam3 dist1 dist2 dist3 nutrl prestl

score1

score2

score3

score4

score5

score6

score7

score8

score9

01 6,67 0,67 -2,00 1,33 -2,00 0,33 1,67 0,50 -1,33 8,50 7,50 1,50 6,00 1,50 6,50 4,50 3,00 6,00

02 5,33 3,00 -0,67 -2,33 -0,33 -0,67 1,00 -0,67 0,50 0,83 4,33 3,33 4,83 4,83 8,83 7,83 2,83 7,33

03 3,33 0,67 0,33 -1,00 0,67 -1,67 1,00 0,50 0,33 2,50 4,50 6,50 6,00 3,50 7,50 5,50 5,00 4,00

04 7,67 1,33 -1,00 -0,33 -0,67 0,67 0,00 -2,33 1,00 2,00 7,00 1,00 3,00 8,00 5,00 7,00 5,00 7,00

05 2,00 -0,67 3,00 -2,33 0,00 0,00 0,00 0,33 1,17 1,83 2,33 8,33 6,83 8,83 5,83 2,83 3,83 4,33

06 2,33 1,00 0,00 -1,00 1,00 -0,33 -0,67 -0,83 2,17 0,67 4,17 5,17 2,17 7,67 6,67 5,67 7,17 5,67

07 5,00 2,33 -0,33 -2,00 2,33 -1,67 -0,67 0,17 -0,17 1,67 2,17 7,17 4,17 2,67 6,67 9,67 5,17 5,67

08 6,67 1,33 1,00 -2,33 -0,33 1,00 -0,67 -1,33 0,50 1,83 3,33 4,33 4,83 8,83 4,83 6,83 2,83 7,33

09 5,67 1,33 1,00 -2,33 1,00 -0,67 -0,33 0,17 -0,50 2,67 2,17 7,17 6,17 4,67 5,67 7,67 3,17 5,67

10 4,67 1,00 0,00 -1,00 0,67 0,00 -0,67 -1,67 1,83 0,50 5,00 4,00 2,50 8,50 5,50 6,50 6,50 6,00

11 3,00 0,33 0,67 -1,00 3,00 -1,00 -2,00 -0,33 1,33 1,33 2,33 8,33 2,33 6,33 4,33 7,33 8,33 4,33

12 3,00 2,33 -0,33 -2,00 2,33 -1,67 -0,67 0,17 0,83 0,67 2,17 7,17 3,17 3,67 7,67 8,67 6,17 5,67

13 5,33 1,67 -0,67 -1,00 2,67 -0,67 -2,00 -1,00 0,83 1,50 3,00 6,00 1,50 5,50 4,50 9,50 7,50 6,00

14 3,67 2,33 -0,67 -1,67 1,00 -1,67 0,67 -0,17 0,83 0,67 4,17 5,17 4,17 3,67 8,67 7,67 5,17 5,67

15 3,33 1,33 -0,67 -0,67 0,67 -1,67 1,00 -0,33 1,17 1,17 5,67 4,67 4,17 4,17 8,17 6,17 6,17 4,67

16 7,67 1,67 0,33 -2,00 -0,33 1,00 -0,67 -1,83 0,50 1,67 4,17 3,17 4,17 8,67 4,67 7,67 3,17 7,67

17 7,33 2,00 0,33 -2,33 -0,67 1,00 -0,33 -0,67 -0,50 3,50 3,00 4,00 5,50 6,50 5,50 7,50 1,50 8,00

18 1,33 2,00 -0,67 -1,33 0,67 -1,67 1,00 0,83 1,00 1,83 3,83 5,83 4,33 2,83 9,83 5,83 5,33 5,33

19 6,67 -1,33 -0,67 2,00 -0,67 0,67 0,00 -1,83 1,00 4,83 8,83 1,83 3,33 7,83 2,83 3,83 7,33 4,33

20 7,00 0,33 -0,67 0,33 -2,67 2,33 0,33 -1,50 0,50 5,67 7,17 0,17 4,17 8,67 4,67 3,67 3,17 7,67

21 6,67 2,33 0,33 -2,67 -0,33 0,00 0,33 -0,67 -0,17 1,83 3,33 4,33 5,83 5,83 6,83 7,83 1,83 7,33

22 7,00 0,33 1,33 -1,67 0,00 0,00 0,00 -1,00 0,00 2,33 4,33 5,33 6,33 7,33 4,33 6,33 3,33 5,33

23 3,00 0,67 0,33 -1,00 3,00 -2,00 -1,00 -0,17 1,17 0,67 3,17 8,17 3,17 4,67 5,67 7,67 8,17 3,67

24 8,33 1,67 -1,33 -0,33 -0,33 0,33 0,00 -2,33 0,67 2,00 7,00 1,00 3,00 7,00 5,00 8,00 5,00 7,00

25 7,67 1,67 -1,33 -0,33 0,00 0,33 -0,33 -2,17 0,83 2,00 6,50 1,50 2,50 7,00 5,00 8,00 5,50 7,00

26 6,00 0,67 1,00 -1,67 2,67 -2,33 -0,33 0,17 -0,67 1,83 2,83 8,83 6,33 2,83 4,83 8,83 5,33 3,33

27 6,00 0,67 2,00 -2,67 0,33 0,33 -0,67 -0,33 -0,17 2,50 2,00 7,00 6,50 7,50 4,50 6,50 2,50 6,00

28 2,00 1,67 -1,67 0,00 0,00 0,00 0,00 -0,67 2,17 2,17 5,67 2,67 1,17 6,17 8,17 5,17 7,17 6,67

Page 79: 58762952 Manual Spss Usm

78

29 6,00 0,33 1,00 -1,33 1,00 0,00 -1,00 -1,67 1,17 0,83 4,33 5,33 3,83 8,83 3,83 6,83 5,83 5,33

30 6,33 2,00 0,00 -2,00 0,33 -1,00 0,67 -1,33 0,67 0,00 5,00 4,00 5,00 6,00 7,00 8,00 4,00 6,00

Tabla 4. Archivo de datos RANKS.SAV. SUJETO PREF

1 PREF

2 PREF

3 PREF

4 PREF

5 PREF

6 PREF

7 PREF

8 PREF

9 01 02 01 09 06 04 07 03 08 05 02 06 07 09 04 05 08 02 03 01 03 04 08 09 06 03 07 02 05 01 04 09 02 05 07 08 06 04 03 01 05 03 05 04 09 06 08 02 07 01 06 08 05 06 07 09 04 03 02 01 07 07 03 09 06 08 04 02 05 01 08 09 05 04 07 08 06 03 02 01 09 09 04 03 07 08 06 05 02 01 10 05 08 07 06 09 04 02 03 01 11 03 08 07 05 09 06 02 04 01 12 07 06 03 08 09 05 04 02 01 13 07 08 09 03 05 06 02 04 01 14 06 07 08 04 09 05 03 02 01 15 08 06 04 07 09 05 02 03 01 16 09 05 07 04 08 06 02 03 01 17 09 04 07 05 06 08 01 03 02 18 06 03 09 02 07 08 04 05 01 19 05 02 08 01 07 06 04 09 03 20 05 02 09 01 06 07 04 08 03 21 09 04 07 06 05 08 03 02 01 22 04 05 07 08 06 09 01 03 02 23 08 07 03 06 05 04 09 02 01 24 09 02 07 05 08 06 04 03 01 25 09 02 07 05 08 06 03 04 01 26 03 07 04 08 09 06 02 05 01 27 09 04 03 05 07 08 06 02 01 28 06 08 05 07 09 02 01 04 03 29 05 08 07 04 09 06 03 02 01 30 07 06 05 04 08 09 02 03 01

Page 80: 58762952 Manual Spss Usm

79

V.- ANÁLSIS DE CORRESPONDENCIAS. El Análisis de Correspondencias es un método estadístico que permite analizar tablas de contingencia. Este método representa gráficamente las filas y columnas de una tabla de contingencia en la forma de puntos dentro del mismo espacio de menor dimensión. La distancia entre los puntos indica la similaridad entre los perfiles de la tabla, además, la distribución espacial de los puntos resume toda la información contenida en la tabla acerca de las similaridades entre las filas y columnas. Esta nueva representación de la tabla de contingencia puede usarse para revelar los patrones inherentes en los datos, es decir, mediante una abstracción visualizar los patrones de los datos a fin de descubrir cuales son las variables o grupo de variables que están correlacionadas. En este sentido, el Análisis de Correspondencias se encuentra en aquella clase de métodos conocidos como análisis de datos exploratorios o, simplemente, análisis de datos. El Análisis de Correspondencias no sólo ayuda a mostrar las relaciones existentes entre las variables, sino también cómo éstas están relacionadas. El despliegue gráfico conjunto de un Análisis de Correspondencias permite de manera más fácil detectar las relaciones estructurales entre las categorías de las variables. Además, el Análisis de Correspondencias tiene requerimientos de datos altamente flexibles. El único requerimiento de datos para un Análisis de Correspondencias es una tabla de contingencia con entradas no negativas. Por lo tanto, el investigador puede recabar datos rápidamente y fácilmente. El Análisis de Correspondencias es concebido por sobre todo como un método geométrico más bien que estadístico y por lo mismo se le ha asociado principalmente con la escuela francesa de análisis de datos. Benzécri y sus colaboradores permitieron popularizar este método. El Análisis de Correspondencias se ha convertido en un método muy utilizado en la investigación de mercados. Puesto que en muchas aplicaciones de investigaciones de mercados, los datos recopilados son categóricos, principalmente, debido a las restricciones impuestas en el proceso de recolección. Estas limitaciones de confeccionar encuestas más entendibles y menos costosas se adaptan en gran medida a las características poseídas por el Análisis de Correspondencias, lo cual ciertamente ha contribuido a que ésta se convierta en un método de fácil aplicación y de mucha aceptación dentro de esta área de estudio. El Análisis de Correspondencias es una importante herramienta para desarrollar un conocimiento general de cómo las características del producto y de la compañía tienden a definir la imagen relativa de los competidores en el mercado. Ejemplo. El propósito de este ejemplo es mostrar la aplicación del método de análisis de correspondencias a la tabla de contingencia (tabla 1), a objeto de estudiar las asociaciones existentes entre las filas y columnas de esta tabla. Las filas de la tabla de contingencia representan las principales religiones profesadas en el mundo y las columnas indican regiones geográficas en el mundo. Tabla 1. Tabla de contingencia de variables religión y región. The table to be analyzed: 1 2 3 4

Page 81: 58762952 Manual Spss Usm

80

Nor-Este Centro O Sur Oeste Margin 1 Protesta 54 140 206 80 480 2 Católico 55 56 28 43 182 3 Judío 10 1 1 3 15 4 Ninguna 12 20 8 24 64 5 Otra 5 4 4 2 15 -------- -------- -------- -------- -------- Margin 136 221 247 152 756 El análisis de correspondencias analiza los datos contenidos en la tabla de contingencia y genera ya sea tablas como gráficos que permiten identificar e interpretar las relaciones fundamentales entre las categorías y entre las dos variables. Según lo anterior, una elección importante en este método es el tipo de normalización aplicada. Aunque las soluciones bajos diferentes tipo de normalización son completamente equivalentes en términos del ajuste (los valores propios), los gráficos pueden revelar algo diferente. En este ejemplo se utiliza la normalización principal, debido a que estamos interesados en las diferencias o similaridades entre las categorías de la variable (religión). La normalización principal maximiza la distancia entre los puntos fila. La mayoría de los resultados de este ejemplo son analizados en términos de los puntos fila. Para obtener un análisis de correspondencias, desde los menús elija:

Estadística Reducción de datos Análisis de correspondencias...

Esta despliega un cuadro de dialogo Análiside correspondencias (ANACOR), como mostrado en la siguiente figura:

Page 82: 58762952 Manual Spss Usm

81

Luego, seleccione las variables para el análisis.

Fila: relig Definir rango... Mínimo: 1 Máximo: 5

Columna: región Definir rango... Mínimo: 1 Máximo: 4

En Opciones puede seleccionar el tipo de normalización que se aplica a los datos de la tabla de correspondencias y también seleccionar el tipo de información (tablas y gráficos) que considera necesaria para realizar una interpretación acerca de las asociaciones existentes entre las filas y columnas de la tabla. Por lo tanto, pulse en Opciones y seleccione las alternativas siguientes:

Opciones Normalización ü Principal Mostrar ü Perfiles ü Valores propios

Gráfico ü Fila ü Columna

Page 83: 58762952 Manual Spss Usm

82

Resultados del análisis de correspondencias. El procedimiento de Correspondencias entrega la tabla de contingencia analizada y los demás resultados que permitan interpretar las relaciones entre las variables de esta tabla. Los resultados del método se detallan a continuación: Perfiles y distancias. Para determinar las distancias entre las categorías, esta método considera las distribuciones marginales así como las frecuencias de celdas individual. Este calcula los perfiles fila y columna, los cuales son las proporciones para cada celda, basadas en los totales marginales. The Rowprofiles: 1 2 3 4 Nor-Este Centro O Sur Oeste Margin 1 Protesta ,113 ,292 ,429 ,167 1,000 2 Católico ,302 ,308 ,154 ,236 1,000 3 Judío ,667 ,067 ,067 ,200 1,000 4 Ninguna ,188 ,313 ,125 ,375 1,000 5 Otra ,333 ,267 ,267 ,133 1,000 -------- -------- -------- -------- Margin ,180 ,292 ,327 ,201 The Columnprofiles: 1 2 3 4 Nor-Este Centro O Sur Oeste Margin 1 Protesta ,397 ,633 ,834 ,526 ,635 2 Católico ,404 ,253 ,113 ,283 ,241 3 Judío ,074 ,005 ,004 ,020 ,020 4 Ninguna ,088 ,090 ,032 ,158 ,085 5 Otra ,037 ,018 ,016 ,013 ,020 _ -------- -------- -------- -------- Margin 1,000 1,000 1,000 1,000

Page 84: 58762952 Manual Spss Usm

83

En análisis de correspondencias las diferencias entre los perfiles son explicadas en términos de medidas de distancias, por lo tanto, si dos perfiles que exhiben la mayor diferencia entre sus perfiles, en consecuencia, mostrarán la mayor distancia entre los puntos en el gráfico. Entonces, el objetivo del análisis de correspondencias es encontrar una configuración en que las distancias de los puntos fila en un gráfico son iguales a las distancias entre los perfiles fila en la tabla. Las distancias que el análisis de correspondencias aproxima no son distancias ordinarias, sino distancias ponderadas. Estas distancias ponderadas están basadas en el concepto de masa. Masa es una medida que indica la influencia de un objeto basado en su frecuencia marginal. La masa afecta al centroide, que es la media ponderada del perfil fila o columna. El centroide fila es el perfil fila promedio. Por lo tanto, los puntos de mayor masa influirán en la ubicación del centroide, esto es, acercarán el centroide a su posición espacial. Puntajes fila y columna. Los puntajes fila son las coordenadas de los puntos fila en el gráfico 1. Geométricamente, los puntos columna son proporcionales al centroide ponderado de los puntos fila. Row Scores: RELIG Marginal Dim Profile 1 2 1 Protesta ,635 -,250 -,024 2 Católico ,241 ,422 ,003 3 Judío ,020 1,119 -,629 4 Ninguna ,085 ,348 ,386 5 Otra ,020 ,284 -,286 Column Scores: REGIÓN4 Marginal Dim Profile 1 2 1 Nor-Este ,180 ,564 -,206 2 Centro O ,292 -,029 ,083 3 Sur ,327 -,407 -,096 4 Oeste ,201 ,198 ,220 De acuerdo con lo anterior, surgen dos características de los puntos fila y columna que son: 1) las distancias Euclidianas entre los puntos fila se aproxima a una distancia χ2; y 2) los puntos fila están en el centroide ponderado de los puntos columna. Los puntajes fila y columna dependen de la normalización usada en el análisis.

Page 85: 58762952 Manual Spss Usm

84

Inercia. Si las entradas en la tabla de contingencia son frecuencias, entonces la suma ponderada sobre todas las distancias al cuadrado entre los perfiles fila y la media del perfil fila es igual al estadístico χ2. Las distancias Euclidianas en el gráfico se aproximan a distancias χ2 en la tabla. La inercia total es definida como la suma ponderada de todas las distancias al centroide dividida por la suma de todas las celdas en la tabla de contingencia. Las puntos con masa pequeña afectan la inercia únicamente con su distanciamiento al centroide. En cambio, los puntos de más grande influencian la inercia total aun cuando ellos se encuentren cercanos al centroide. Contribuciones. Cada punto fila y columna contribuyen a la inercia de la configuración espacial. Los puntos fila y columna que contribuyen substancialmente a la inercia de una dimensión son importantes a esa dimensión. Un análisis de las contribuciones de los puntos son una ayuda importante en la interpretación de una solución del análisis de correspondencias. Las contribuciones de los puntos a la inercia de cada dimensión se conocen como contribuciones absolutas. Contribution of row points to the inertia of each dimension: RELIG Marginal Dim Profile 1 2 1 Protesta ,635 ,333 ,017 2 Católico ,241 ,359 ,000 3 Judío ,020 ,208 ,349 4 Ninguna ,085 ,086 ,562 5 Otra ,020 ,013 ,072 -------- -------- 1,000 1,000 Contribution of column points to the inertia of each dimension: REGIÓN4 Marginal Dim Profile 1 2 1 Nor-Este ,180 ,479 ,340 2 Centro O ,292 ,002 ,090 3 Sur ,327 ,453 ,135 4 Oeste ,201 ,066 ,435 -------- -------- 1,000 1,000 Las contribuciones de lasa dimensiones a la inercia de cada punto se conocen como contribuciones relativas, puesto que estas no dependen de la masa del punto. Contribution of dimensions to the inertia of each row point:

Page 86: 58762952 Manual Spss Usm

85

RELIG Marginal Dim Total Profile 1 2 1 Protesta ,635 ,990 ,009 ,999 2 Católico ,241 ,981 ,000 ,981 3 Judío ,020 ,737 ,233 ,969 4 Ninguna ,085 ,438 ,539 ,977 5 Otra ,020 ,484 ,490 ,975 Contribution of dimensions to the inertia of each column point: REGIÓN4 Marginal Dim Total Profile 1 2 1 Nor-Este ,180 ,882 ,118 1,000 2 Centro O ,292 ,063 ,530 ,592 3 Sur ,327 ,943 ,053 ,996 4 Oeste ,201 ,429 ,530 ,959 Dimensionalidad. La idea detrás del análisis de correspondencias es generar una solución de menor dimensión. el número máximo de dimensiones para una solución de un análisis de correspondencias es igual al número de filas menos 1 o el número de columnas menos 1, el menor de los dos. Este es expresado como mín(r,c)-1. En este ejemplo, el máximo número de dimensiones es mín(5,4)-1, o 3. Dimension Singular Inertia Proportion Cumulative Value Explained Proportion 1 ,34543 ,11932 ,827 ,827 2 ,14991 ,02247 ,156 ,983 3 ,05024 ,00252 ,017 1,000 --------- ---------- ---------- Total ,14432 1,000 1,000 Gráficos. Los gráficos constituyen la parte más rica de la información de los resultados obtenidos del análisis y su número puede ser determinado por medio de los criterios de porcentaje de variación explicada y gráfico de Cattell. Este método permite descomponer toda la inercia (variabilidad de los puntos con respecto al centroide) contenida en la tabla de contingencia en distintos planos con ejes de coordenadas rectangulares (varios gráficos bidimensionales).

Page 87: 58762952 Manual Spss Usm

86

La normalización principal utilizada en este ejemplo, que construye gráficos simétricos, es usada en el caso que el interés esta en estudiar las distancias entre los puntos fila y las distancias entre los puntos columna, separadamente. Por lo tanto, este tipo de normalización es inadecuado estudiar en solo gráfico las relaciones conjuntas entre los perfiles de las variables.

Punt. de fila para Preferencia Religiosa

Principal normalization

Dimensión 1

1,21,0,8,6,4,20,0-,2-,4

Dim

ensi

ón 2

,4

,2

0,0

-,2

-,4

-,6

-,8

Otra

Judío

CatólicoProtestante

Punt. de columna para Región

Principal normalization

Dimensión 1

,6,4,2-,0-,2-,4-,6

Dim

ensi

ón 2

,3

,2

,1

-,0

-,1

-,2

-,3

Oeste

Sur

Centro Oeste

Nor-Este

Page 88: 58762952 Manual Spss Usm

87