Análisis de Conglomerados

16
ANÁLISIS DE CONGLOMERADOS Indice 1. Objetivos 2. Panorama General 3. Conceptos Básicos 4. Datos Estadísticos Relacionados con el Análisis de Conglomerados 5. Cómo realizar el Análisis de Conglomerados 6. Determinación de la Confianza y Validez 7. Variables Conglomeradas 8. Ejercicio de la tabla de datos Clasificación de Técnicas Multivariantes El Análisis Multivariante (al contrario que el Uni y Bivariante) es un mundo lleno de complejidades. Para entender esta auténtica caja de Pandora, llena de entresijos y de particularidades, merece la pena intentar una clasificación de técnicas estadísticas multivariantes. Como una primera visión clasificatoria de las técnicas multivariantes, se propone la siguiente, que divide dichas técnicas en dos grandes grupos: Figura 1 - Técnicas Multivariantes Descriptivas Figura 2 - Técnicas Multivariantes Explicativas

description

Análisis de Conglomerados

Transcript of Análisis de Conglomerados

Page 1: Análisis de Conglomerados

ANÁLISIS DE CONGLOMERADOS

Indice

1. Objetivos 2. Panorama General 3. Conceptos Básicos 4. Datos Estadísticos Relacionados con el Análisis de

Conglomerados 5. Cómo realizar el Análisis de Conglomerados 6. Determinación de la Confianza y Validez 7. Variables Conglomeradas 8. Ejercicio de la tabla de datos

Clasificación de Técnicas Multivariantes

El Análisis Multivariante (al contrario que el Uni y Bivariante) es un mundo lleno de complejidades. Para entender esta auténtica caja de Pandora, llena de entresijos y de particularidades, merece la pena intentar una clasificación de técnicas estadísticas multivariantes.

Como una primera visión clasificatoria de las técnicas multivariantes, se propone la siguiente, que divide dichas técnicas en dos grandes grupos:

Figura 1 - Técnicas Multivariantes Descriptivas

Figura 2 - Técnicas Multivariantes Explicativas

Page 2: Análisis de Conglomerados

Por otro lado, el paquete estadístico SPSS presenta las técnicas de clasificación de grupos (Classify) en tres procedimientos:

Figura 3 - Procedimientos de Clasificación de Grupos en SPSS

Para más información sobre las aplicaciones de Análisis de Conglomerados ver el artículo Segmentación de Mercados.

1. Objetivos

Al finalizar la lectura de este capítulo, el estudiante podrá:

Describir el concepto básico y el panorama del análisis de conglomerados, así como su importancia en la investigación de mercados.

Describir los estadísticos relacionados con el análisis de conglomerados.

Explicar el procedimiento para realizar el análisis de conglomerados, que incluye: formulación del problema, selección de una medida de distancia, selección de un procedimiento de agrupación, así como decisión del número, interpretación y perfil de los grupos.

Describir el propósito y los métodos para evaluar la calidad, confianza y validez de los resultados de los conglomerados.

Describir las aplicaciones del agrupamiento no jerárquico y el agrupamiento de las variables.

2. Panorama General

Al igual que el análisis factorial, el análisis de conglomerados estudia todo un conjunto de relaciones interdependientes. Este análisis no hace ninguna distinción entre VD y VI. En vez de ello, se calculan las relaciones interdependientes de todo el conjunto de variables. El objetivo principal del análisis de conglomerados es clasificar los objetos en partes relativamente homogéneas con base en el conjunto de variables específicas. Los objetos en un grupo son relativamente similares en términos de estas variables y difieren de los objetos en otros. Cuando se utiliza de esta manera, el análisis de conglomerados es diferente al análisis factorial ya que reduce el número de objetos, no el número de variables, al reunirlos en un número de grupos mucho menor.

Este capítulo describe el concepto básico del análisis de conglomerados. Los pasos que comprende la realización de este análisis se estudiarán e ilustrarán en el contexto del conglomerado jerárquico. Después, se presentará una aplicación del conglomerado no jerárquico, seguida de un estudio del conglomerado de las variables.

3. Conceptos Básicos

Page 3: Análisis de Conglomerados

El análisis de conglomerados consiste en un tipo de técnicas que se utilizan para clasificar los objetos o casos en grupos relativamente homogéneos llamados conglomerados. Los objetos en cada grupo tienden a ser similares entre sí y diferentes a los objetos en otros grupos. Este análisis se conoce también como análisis de clasificación o taxonomía numérica. Nos ocupamos de los procedimientos de conglomerados que asignan cada objeto a un solo grupo. La Figura 4 muestra un caso de conglomerado ideal en el que los grupos se separan en dos variables: conciencia de calidad (variable 1) y susceptibilidad al precio (variable 2). Nótese que cada consumidor pertenece a un grupo y no existen áreas que se superpongan. Por otra parte, la Figura 4 presenta el caso de una agrupación que puede encontrarse en la realidad. Las fronteras de algunos de los grupos no están definidas con claridad y la clasificación de algunos consumidores no es obvia porque muchos de ellos podrían agruparse en un grupo u otro.

Figura 4 - Conglomerado Ideal / Conglomerado Real

Tanto el análisis de conglomerados como el discriminante se ocupan de la clasificación. Sin embargo, el análisis discriminante requiere del conocimiento previo de participación en el grupo de cada objeto o caso que se incluye, a fin de desarrollar la regla de clasificación. Por el contrario, en el análisis de conglomerados no hay información a priori acerca de la participación en el grupo de ninguno de los objetos. Los datos sugieren los grupos y no se definen previamente.

El análisis de conglomerados se utiliza en mercadotecnia para diversos propósitos, entre los que se encuentran los siguientes:

Segmentación del mercadoPor ejemplo, los consumidores pueden agruparse con base en los beneficios que buscan de la compra de un producto. Cada grupo consistirá en consumidores relativamente homogéneos en términos de los beneficios que buscan. Este planteamiento se conoce como segmentación de los beneficios.

Comprensión del comportamiento del compradorEl análisis de conglomerados puede utilizarse para identificar grupos de compradores homogéneos. Así, el comportamiento de cada grupo puede estudiarse por separado. Este análisis también se utiliza para identificar la clase de estrategias que los compradores de automóviles emplean para obtener información externa.

Identificación de oportunidades para productos nuevosAl agrupar marcas y productos, pueden determinarse los conjuntos competitivos dentro del mercado. Las marcas en el mismo grupo compiten más entre sí que con las de otros grupos. Una empresa puede analizar sus ofertas actuales en comparación con aquellas de

Page 4: Análisis de Conglomerados

sus competidores a fin de identificar las oportunidades potenciales de los nuevos productos.

Selección de mercados de pruebaAl dividir las ciudades en grupos homogéneos, es posible seleccionar ciudades comparables a fin de probar diversas estrategias de mercadotecnia.

Reducción de datosEl análisis de conglomerados puede utilizarse como instrumento de reducción general de datos a fin de desarrollar subgrupos de datos que sean más fáciles de manejar que las observaciones individuales. El análisis multivariante subsecuente se realiza con base en los subgrupos, en lugar de las observaciones individuales. Por ejemplo, para describir las diferencias en el comportamiento de uso del producto, primero pueden agruparse los consumidores. Las diferencias entre los conglomerados pueden estudiarse con el uso del análisis discriminante múltiple.

4. Datos Estadísticos Relacionados con el Análisis de Conglomerados

Antes de estudiar los estadísticos relacionados con el análisis de conglomerados, debemos mencionar que la mayor parte de estos métodos son procedimientos relativamente sencillos que no están respaldados por el razonamiento estadístico. La mayor parte de los métodos de agrupación son heurísticos, basados en algoritmos. De manera que, el análisis de conglomerados presenta un fuerte contraste con el análisis de la varianza, la regresión, el análisis discriminante y el análisis factorial, que se basan en un razonamiento estadístico. A pesar de que muchos métodos de agrupación tienen propiedades estadísticas importantes, es necesario reconocer la sencillez fundamental de estos métodos. Los estadísticos y conceptos siguientes están relacionados con el análisis de conglomerados.

Programa de aglomeraciónOfrece información sobre los objetos o casos que se combinan en cada etapa de un proceso de agrupación jerárquica.

Centroide de agrupamientoEl centroide de agrupamiento son los valores medios de las variables para todos los casos u objetos de un grupo particular.

Centros de agrupamientoSon los puntos de partida iniciales en la agrupación no jerárquica. Los grupos se construyen alrededor de estos centros o semillas.

Participación en el grupoIndica el grupo al que pertenece cada objeto o caso.

DendrogramaUn dendrograma, o gráfica de árbol, es un dispositivo gráfico para presentar los resultados del conglomerado. Las líneas verticales representan los grupos que están unidos. La posición de la línea en la escala indica las distancias en las que se unieron los grupos. El dendrograma se lee de izquierda a derecha.

Distancias entre los centros de los gruposIndican cuán separados están los pares individuales de grupos. Los grupos muy separados son distintos y, por tanto, deseables.

Diagrama de carámbanoEs una representación gráfica de los resultados del conglomerado, se llama así porque se asemeja a una hilera de carámbanos que pende

Page 5: Análisis de Conglomerados

del alero de una casa. Las columnas corresponden a los objetos que se agrupan y los renglones corresponden al número de conglomerados. Un diagrama de carámbano se lee de abajo hacia arriba. La Figura 10 es un diagrama de carámbano.

Matriz de coeficientes de distancia/similitudÉsta es una matriz de triángulo inferior que contiene las distancias en dirección pareada entre los objetos o casos.

5. Cómo realizar el Análisis de Conglomerados

Los pasos que comprende la realización del análisis de conglomerados se mencionan en la Figura 5. El primer paso consiste en formular el problema de agrupación al definir las variables en las que se basa ésta. Después, debe seleccionarse una medida de distancia apropiada. La medida de distancia determina qué tan similares o diferentes son los objetos que se agrupan. Se han desarrollado varios procedimientos de agrupación y el investigador debe seleccionar uno apropiado para el problema que se maneja. La decisión del número de conglomerados requiere del criterio del investigador. Los conglomerados derivados deben interpretarse en términos de las variables utilizadas para formarlos, y deben perfilarse en términos de las variables sobresalientes adicionales. Por último, es preciso que el investigador evalúe la validez del proceso de conglomerados.

Figura 5 - Cómo realizar el análisis de conglomerados

5.1. Formulación del Problema

Quizá la parte más importante de la formulación del problema de conglomerados es la selección de las variables en las que se basa la agrupación. La inclusión de una o más variables irrelevantes puede distorsionar una solución de agrupación que de otra forma podría ser útil. Básicamente, el conjunto de variables seleccionado debe describir la similitud entre los objetos en términos relevantes para el problema de investigación de mercados. Las variables deben seleccionarse con base en la investigación previa, la teoría o una consideración de las hipótesis que se prueban. En la investigación exploratoria, el investigador debe poner en práctica el criterio y la intuición.

Page 6: Análisis de Conglomerados

Para ilustrar lo anterior, consideramos un conglomerado de consumidores con base en la actitud que tienen cuando salen de compras. De acuerdo con la investigación previa, se identificaron seis variables de actitud. Se pidió a los entrevistados que expresaran su grado de acuerdo con las afirmaciones siguientes, con base en una escala de siete puntos (1= en desacuerdo, 7= de acuerdo):

V1 = "Salir de compras es divertido". V2 = "Salir de compras afecta el presupuesto". V3 = "Combino la salida de compras con la comida fuera de casa". V4 = "Cuando salgo de compras, trato de hacer las mejores". V5 = "No me importa salir de compras". V6 = "Puede ahora ahorrar mucho dinero si compara los precios".

Los datos obtenidos de una muestra de prueba a 20 entrevistados se presentan en la Figura 6. Nótese que en la práctica el conglomerado se realiza en muestras mucho mayores de 100 o más. Se utilizó una muestra pequeña para ilustrar el proceso.

Figura 6 - Tabla de Datos del Ejemplo

Caso V1 V2 V3 V4 V5 V61 6 4 7 3 2 32 2 3 1 4 5 43 7 2 6 4 1 34 4 6 4 5 3 65 1 3 2 2 6 46 6 4 6 3 3 47 5 3 6 3 3 48 7 3 7 4 1 49 2 4 3 3 6 3

10 3 5 3 6 4 611 1 3 2 3 5 312 5 4 5 4 2 413 2 2 1 5 4 414 4 6 4 6 4 715 6 5 4 2 1 416 3 5 4 6 4 717 4 4 7 2 2 518 3 7 2 6 4 319 4 6 3 7 2 720 2 3 2 4 7 2

5.2. Selección de la Medida de Distancia o Similitud

Ya que el objeto del conglomerado es agrupar objetos similares, se necesita alguna medida para evaluar las diferencias y similitudes entre objetos. La estrategia más común consiste en medir la equivalencia en términos de la distancia entre los pares de objetos. Los objetos con distancias reducidas entre ellos son más parecidos entre sí que aquellos que tienen distancias mayores. Existen varias formas de calcular las distancias entre dos objetos.

Page 7: Análisis de Conglomerados

La medida de similitud que se utiliza con mayor frecuencia es la distancia euclidiana o su cuadrado. La distancia euclidiana es la raíz cuadrada de la suma de las diferencias cuadradas en los valores para cada variable. También están disponibles otras medidas de distancia. La distancia Manhattan o de Calles Urbanas entre dos objetos es la suma de las diferencias absolutas en los valores para cada variable. La distancia de Chebychev entre dos objetos es la diferencia absoluta máxima en los valores para cualquier variable. En nuestro ejemplo, utilizamos la distancia euclidiana cuadrada.

Si las variables se miden en unidades muy diferentes, la solución de la agrupación tendrá la influencia de las unidades de la medición. En un estudio de compras en supermercados, las variables de actitud pueden medirse con base en una escala tipo Likert de nueve puntos; el patrocinio, en relación con la frecuencia de visitas por mes y la cantidad de dólares gastados; y la lealtad de la marca, en términos del porcentaje del gasto en compras de abarrotes destinado al supermercado favorito. En estos casos, antes de agrupar a los entrevistados, debemos estandarizar los datos al volver a colocar cada variable en una escala a fin de obtener una media de cero y una desviación estándar de uno. Aun cuando la estandarización puede eliminar la influencia de la unidad de medición, también es probable que reduzca las diferencias entre los grupos en las variables que pueden discriminar mejor los grupos o conglomerados. Es recomendable eliminar a las personas que mienten al responder (casos con valores atípicos).

El uso de distintas medidas de distancia puede llevar a diversos resultados de conglomerado. Por consiguiente, se recomienda utilizar medidas diferentes y comparar los resultados. Después de seleccionar una medida de distancia o similitud, podemos elegir un procedimiento de agrupación.

5.3. Selección del Procedimiento de Aglomeración

La Figura 7 es una clasificación de los procedimientos de conglomerados. Estos pueden ser jerárquicos o no. El conglomerado jerárquico se caracteriza por el desarrollo de una jerarquía o estructura en forma de árbol. A su vez, los métodos jerárquicos pueden ser:

Análisis de Conglomerados por AglomeraciónEl conglomerado por aglomeración empieza con cada objeto en un grupo separado. Los conglomerados se forman al agrupar los objetos en conjuntos cada vez más grandes. Este proceso continúa hasta que todos los objetos forman parte de un solo grupo.

Análisis de Conglomerados por DivisiónEl conglomerado por división comienza con todos los objetos agrupados en un solo conjunto. Los conglomerados se dividen hasta que cada objeto sea un grupo independiente.

Figura 7 - Clasificación de los procedimientos de conglomerados

Page 8: Análisis de Conglomerados

Los métodos de conglomerados se utilizan con frecuencia en la investigación de mercados. Consisten en métodos de enlace, métodos de varianza o de sumas de los cuadrados de error y métodos centroides. Los métodos de enlace incluyen el enlace sencillo, el completo y el promedio.

El método de enlace sencillo se basa en la distancia mínima o la regla del vecino más próximo. Los primeros dos objetos conglomerados son aquellos que tienen la menor distancia entre sí. La siguiente distancia más corta se identifica, ya sea que el tercer objeto se agrupe con los dos primeros o que se forme un nuevo conglomerado de dos objetos. En cada etapa, la distancia entre dos conglomerados es la distancia entre sus dos puntos más próximos (véase Figura 8). En cualquier etapa, dos conglomerados surgen por el enlace sencillo más corto entre éstos. Este proceso continúa hasta que todos los objetos se encuentren en un conglomerado. El método del enlace sencillo no funciona adecuadamente cuando los conglomerados no están bien definidos.

El método del enlace completo es similar al enlace sencillo, excepto que se basa en la distancia máxima o la estrategia del vecino más lejano. En el enlace completo, la distancia entre dos conglomerados se calcula como la distancia entre sus puntos más lejanos.

El método del enlace promedio funciona de manera similar, pero en este método, la distancia entre dos conglomerados se define como el promedio de las distancias entre todos los pares de objetos, donde se encuentra un miembro del par de cada uno de los conglomerados (Figura 8). Como puede observarse, el método del enlace promedio emplea la información sobre todos los pares de distancias, no sólo las mínimas o máximas. Por esta razón, generalmente se prefiere a los métodos de enlace sencillo y completo.

Figura 8 - Métodos de Enlace para el Conglomerado

Page 9: Análisis de Conglomerados

Los métodos de varianza tratan de generar conglomerados a fin de reducir la varianza dentro de los grupos.

Un método de la varianza que se utiliza con frecuencia es el procedimiento de Ward. Para cada conglomerado, se calculan las medias para todas las variables. Después, para cada objeto, se calcula la distancia euclidiana cuadrada para las medias de los grupos (Figura 9); estas distancias se suman a todos los objetos. En cada etapa, se combinan los dos conglomerados con el menor incremento en la suma total de los cuadrados de las distancias dentro de los conglomerados.

En el método centroide, la distancia entre dos grupos es la distancia entre sus centroides (medias para todas las variables), como se muestra en la Figura 9. Cada vez que se agrupan los objetos, se calcula un centroide nuevo.

Figura 9 - Otros Métodos de Agrupación por Aglomeración

De los métodos jerárquicos, el método de enlace promedio y el procedimiento de Ward han demostrado un mejor desempeño que los otros procedimientos.

El segundo tipo de procedimientos de conglomerados, los métodos de conglomerados no jerárquicos, con frecuencia se conocen como agrupación

Page 10: Análisis de Conglomerados

de k medias. Estos métodos incluyen el umbral secuencial, umbral paralelo y la división para la optimización.

En el método del umbral secuencial, se selecciona un centro de grupo y se agrupan todos los objetos dentro de un valor de umbral que se especifica previamente a partir del centro. Después, se selecciona un nuevo centro o semilla de grupo y el proceso se repite para los puntos sin agrupar. Una vez que un objeto se agrupa con una semilla, ya no se considera para su conglomerado con semillas subsecuentes.

El método del umbral paralelo funciona de manera similar, excepto que varios centros de grupo se seleccionan simultáneamente y los objetos dentro del nivel del umbral se agrupan dentro del centro más próximo.

El método de división para la optimización difiere de los otros dos procedimientos de umbral en que los objetos pueden reasignarse posteriormente a otros grupos, a fin de optimizar un criterio general, como la distancia promedio dentro de los grupos para un número determinado de conglomerados.

Dos desventajas importantes de los procedimientos no jerárquicos son que el número de grupos debe especificarse previamente y que la selección de los centros de grupo es arbitraria. Además, los resultados del conglomerado pueden depender de la forma en que se seleccionan los centros. Muchos programas no jerárquicos eligen los primeros k (k= número de grupos) casos sin valores faltantes como los centros de grupo iniciales. De manera que, los resultados del conglomerado pueden depender del orden de las observaciones en los datos. No obstante, el conglomerado no jerárquico es más rápido que los métodos jerárquicos y es apropiado cuando el número de objetos u observaciones es alto. Se ha sugerido que los métodos jerárquicos y no jerárquicos se utilicen uno después del otro. Primero, una solución de conglomerado inicial se obtiene con el uso de un procedimiento jerárquico, como el enlace promedio o el de Ward. Las cantidades de grupos y centroides de grupo que se obtienen de esta forma se utilizan como entradas para el método de división para la optimización.

La elección de un método de conglomerado y la elección de una medida de distancia están interrelacionadas. Por ejemplo, las distancias euclidianas cuadradas deben utilizarse con los métodos de Ward y centroide. Varios procedimientos no jerárquicos emplean también las distancias euclidianas cuadradas.

Otra parte importante de los resultados se encuentra en el gráfico de carámbano de la Figura 10. Las columnas corresponden a los objetos que se agrupan; en este caso, son los entrevistados asignados del 1 al 20. Los renglones corresponden al número de grupos. Esta figura se lee de abajo hacia arriba. Primero, todos los casos se consideran como grupos individuales. Ya que hay 20 entrevistados, existen 20 grupos iniciales. En el primer caso, se combinan los dos objetos más cercanos, y como resultado se obtienen 19 grupos. La última línea de la Figura 10 muestra estos 19 grupos. Los dos casos, entrevistados 14 y 16, que se combinan en esta etapa no tienen ningún espacio en blanco que los separe. El renglón número 18 corresponde a la etapa siguiente, con 18 grupos. En esta etapa, los entrevistados 2 y 13 se agrupan. De esta manera, en esta etapa hay 18 grupos; 16 consisten en entrevistados individuales y dos contienen dos

Page 11: Análisis de Conglomerados

entrevistados cada uno. Cada paso subsecuente lleva a la formación de un nuevo grupo en una de estas tres formas:

Se agrupan dos casos individuales. Un caso se une a un grupo ya existente. Se unen dos grupos.

Figura 10 - Gráfico de Carámbano Vertical por el Procedimiento de Ward

5.4. Elección del Número de Grupos

Un aspecto importante en el análisis de conglomerados es decidir el número de éstos. A pesar de que no existe ninguna regla general y rápida, están disponibles algunos lineamientos.

Las consideraciones teóricas, conceptuales o prácticas pueden sugerir un número determinado de grupos. Por ejemplo, si el propósito de la agrupación es identificar los segmentos del mercado, es probable que la gerencia quiera un número de grupos en particular.

En el conglomerado jerárquico, las distancias en las que los grupos se combinan pueden utilizarse como criterios. Esta información puede obtenerse del programa de aglomeración o del dendrograma.

En la agrupación no jerárquica, la relación de la varianza total dentro de los grupos con varianza entre los grupos puede trazarse en comparación con el número de éstos. El punto donde ocurre un recodo o un doblez marcado indica un número apropiado de grupos. Generalmente, no vale la pena aumentar el número de grupos más allá de este punto.

5.5. Interpretación y Perfil de los Grupos

La interpretación y el perfil de los grupos comprende el análisis de los centroides de grupo. Los centroides representan los valores medios de los objetos que contiene el grupo en cada una de las variables. Los centroides nos permiten describir cada grupo al asignarle un nombre o etiqueta. Si el programa de conglomerado no ofrece esta información, puede obtenerse por medio del análisis discriminante.

Page 12: Análisis de Conglomerados

Resulta útil elaborar el perfil de los grupos en términos de las variables utilizadas para el conglomerado, como los datos demográficos, los psicográficos, uso del producto, uso de los medios u otras variables. Por ejemplo, los grupos pueden haberse derivado con base en los beneficios que se buscan. Puede realizarse un perfil más detallado, en términos de las variables demográficas y psicográficas para dirigir los esfuerzos de mercadotecnia hacia cada grupo. Las variables que marcan una diferencia significativa entre los conglomerados pueden identificarse mediante el análisis discriminante y el análisis de varianza unidireccional.

6. Determinación de la Confianza y Validez

Dados los criterios generales que comprende el análisis de conglomerados, no debe aceptarse ninguna solución de agrupación sin una evaluación de su confianza y validez. Los procedimientos formales para evaluar la confianza y validez de las soluciones de agrupación son complejos y no por completo defendibles. Por consiguiente, los omitimos. No obstante, los siguientes procedimientos ofrecen revisiones adecuadas de la calidad de los resultados de la agrupación.

Realice el análisis de conglomerados con los mismos datos y utilice distintas medidas de distancia. Compare los resultados con todas las medidas a fin de determinar la estabilidad de las soluciones.

Utilice diversos métodos de conglomerado y compare los resultados. Divida los datos a la mitad en forma aleatoria. Realice el

conglomerado por separado en cada mitad. Compare los centroides de grupo en las dos submuestras.

Elimine las variables en forma aleatoria. Realice la agrupación con base en el conjunto reducido de variables. Compare los resultados basados en el conjunto completo con los que obtuvo al realizar el conglomerado.

En el conglomerado, no jerárquico, la solución puede depender del orden de los casos en el conjunto de datos. Lleve a cabo corridas múltiples y utilice distintos órdenes de los casos hasta que la solución se estabilice.

7. Variables Conglomeradas

En ocasiones, el análisis de conglomerados se utiliza también para identificar grupos homogéneos. En este caso, las unidades que se utilizan para el análisis son las variables y las medidas de distancia que se calculan para todos los pares de variables. Por ejemplo, el coeficiente de correlación, ya sea el valor absoluto o con el signo, puede usarse como medida de similitud (la opuesta a la distancia) entre las variables.

El conglomerado jerárquico de las variables puede ayudar en la identificación de variables únicas, o variables que hacen una contribución única a los datos. El conglomerado puede emplearse también para reducir el número de variables. Una combinación de variables en el conglomerado, que se conoce como componentes de conglomerado, se encuentra asociado con cada conglomerado. Frecuentemente, un conjunto grande de variables puede reemplazarse con el conjunto de componentes de conglomerado con poca pérdida de información. No obstante, un número determinado de componentes de conglomerado no explica tanta varianza como el mismo número de componentes principales. Entonces, ¿por qué debe utilizarse el conglomerado de las variables?. Por lo regular, los componentes de los

Page 13: Análisis de Conglomerados

conglomerados son más fáciles de interpretar que los principales, incluso si estos últimos se giran.

8. Ejercicio de la tabla de datos

Utilizando el fichero de datos 20010723.sav, el alumno deberá proceder a realizar:

1. Análisis de correlaciones 2. Análisis cluster jerárquico, especificando una solución de rango de

2 y de 3 clusters. Al obtener los clusters, a la solución de 3 clusters le dará los nombres siguientes:

Cachondos, a las personas que tienen una fuerte inclinación por las variables divertid (diversión) y combino (combinación de compra y diversión),

Pasotas, a quienes no les importa ir de compras, Pesetas, a aquellas personas que fijan su centro de miras en

las cuestiones económicas. 3. Análisis cluster no jerárquico con 3 grupos. El visitante deberá

prestar atención a si obtiene los mismos resultados que los obtenidos mediante el procedimiento análisis de cluster jerárquico.

4. Análisis cluster jerárquico y otro un análisis cluster no jerárquico, pero ahora sólo con 2 grupos, para comparar estos resultados con los obtenidos con 3 grupos.