Análisis de clasificación
Pedro López-RoldánDepartamento de Sociología
Centro de Estudios Sociológicos sobre la Vida Cotidiana y el Trabajo (QUIT)Instituto de Estudios del Trabajo (IET)
Universidad Autónoma de [email protected]
Sandra FachelliDepartamento de Sociología y Análisis de las Organizaciones
Universidad de BarcelonaGrupo de Investigación en Educación y Trabajo (GRET)
Universidad Autónoma de [email protected] Agosto de 2015
Seminario de Doctorado
Construcción de tipologías | Análisis de Clasificación 1
Presentación: clasificación y tipología
• El Análisis de Clasificación (ACL) técnica multivariada llamada también:– Cluster Analysis (Análisis de Conglomerados)– Análisis de Clasificación Automática / Analyse Typologique
• Reservamos la expresión Análisis tipológico para aludir a un proceso metodológico más general destinado a la construcción de tipologías, profuso en la tradición sociológica, que eventualmente puede usar técnicas de tipo multivariable.
• Propuesta metodológica de construcción: Tipología estructural y articuladase define como
“… un instrumento de operativización conceptual, construido de forma articuladaentre la teoría y la realidad empírica, y destinado a definir, estructurar y medir la complejidad multidimensional de los fenómenos sociales. Ello se traduce en la constitución de un conjunto de categorías o tipos a través de la agrupación de un universo de unidades mediante la combinación simultánea de las características que constituyen su espacio de atributos”. (López-Roldán, 1996: 15)
Construcción de tipologías | Análisis de Clasificación 2
Propuesta metodológica de construcción (López-Roldán, 1994)
La tipología estructural i articulada
Articulación Estructuración
Tipificación de la realidad social
Medición
OperativizarDefinir
TEORÍA
Articulación
Realidad empírica
▬ Deducción / Concreción▬ Inducción / Abstracción Explicación estructural
Construcción de tipologías | Análisis de Clasificación 3
Modelo de Análisis Análisis deanálisis Factorial Clasificación
X (n×p) R (p×p) F (n×m) D (n×n) T (k×m)Datos originales Matriz de Correlaciones Matriz Factorial Matriz de Distancias Matriz Tipológica
n radios, p variables, m factores y k tipos Georeferenciación
Mapa social
Proceso de construcción de tipologías
Construcción de tipologías | Análisis de Clasificación 4
El análisis de clasificación
• Presentación. Proceso de clasificación
– Se parte de individuoscaracterizados por variables (X)
– Objetivo: crear grupos lo más parecidos internamente y lo más diferentes entre ellos
– De forma automatizada según cada método– A partir de calcular medidas de similitud o de disimilitud (proximidad)
Espacio de atributosEspacio social
Representación de 5 individuos en el espacio de 2 variables
Construcción de tipologías | Análisis de Clasificación 5
Proceso de análisis de un
ACL
El análisis de clasificación
Fin
Construcción de tipologías | Análisis de Clasificación 6
– Etapa más crítica– Métrica: habitualmente continua, pero también pueden ser cualitativas de
tipo binario (dicotómicas, con valores 0/1) o bien pueden ser datos de frecuencias
– Deben ser homogéneas y comparables entre sí– Hay que evaluar si están correlacionadas y si su importancia es
proporcionada (sobredimensionalización)– Deben tener las mismas unidades de medida (estandarizar)
– Idoneidad de un Análisis Factorial:• Los factores acumulan diversas variables en cada uno de ellos• Los factores son variables incorrelacionadas• Los factores son variables continuas• Estandarizadas: expresadas en unidades de desviación típica
(media 0 y desviación 1)• Son variables que más discriminan o diferencian los individuos• SPAD cita tomar el 80% de la varianza o la mitad de factores (!)
1. Elección del conjunto de variables original
Construcción de tipologías | Análisis de Clasificación 7
– Con variables continuas: Distancia euclidiana
2'
1' )()',( ji
p
jijii xxdiid
Fragmento original de la obraElementos de Euclides de Alexandria (365 – 275 aC)
Pitágoras de Samos (582 aC - 496 aC)
2. Elección de la medida de proximidad
2 2 2 2 2 2 2(6 2) (5 2) 4 3 25 25 5h a b h
Construcción de tipologías | Análisis de Clasificación 8
– Matriz de distancias
2. Elección de la medida de proximidad
Construcción de tipologías | Análisis de Clasificación 9
Más de 100 métodos de clasificación existentes
3. Elección del método de clasificación
a) Métodos jerárquicos• Ascendentes o aglomerativos:
- Distancias mínimas- Distancias máximas- Distancia media entre grupos- Distancias entre centroides- Distancia mediana- Ward (mínima pérdida de inercia)
RECIP en SPAD• Descendentes o disociativos:
- los anteriores- Monotéticos:Método de William i LambertDetector automático de interacción (AID)
- Politéticos
b) Métodos no jerárquicos o de partición• De reasignación:
- Centros móviles (K-means, QUICKCLUSTERen SPSS)- Nubes dinámicas con grupos estables- Método de Forgy- Climbing- Isodata distancias mínimas
• De búsqueda de la densidad:- De aproximación tipológica: análisis modal de
Wishart, método de Taxmap de Carmichael iSneath, método Fortin
- De aproximación probabilística: método de lescombinaciones de Wolf
- Vecino más cercano (KNNen SPSS)• Directos: block clustering de Hartigan• De reducción de dimensiones: análisis factorial Q• Otros: algoritmos más recientesc) Métodos mixtos
- SEMIS en SPAD (Clas.if. Híbrida)- TWOSTEP CLUSTER en SPSS (Clasif. en dos fases)
CLU
STE
Ren
SPS
S
Construcción de tipologías | Análisis de Clasificación 10
– Métodos jerárquicos ascendentes
Dendrograma (árbol de agregación)
3. Elección del método de clasificación
Construcción de tipologías | Análisis de Clasificación 11
– Método ward, de mínima pérdida de inercia (intergrupos)
3. Elección del método de clasificación
Construcción de tipologías | Análisis de Clasificación 12
– Método ward, de mínima pérdida de inercia (intergrupos)
3. Elección del método de clasificación
Construcción de tipologías | Análisis de Clasificación 13
– Método de centros móviles: no jerárquico, nubes dinámicas, muchos datos
3. Elección del método de clasificación
Construcción de tipologías | Análisis de Clasificación 14
• Método no jerárquico. Nubes dinámicas• Gran cantidad de datos• Proceso:
1. Se fijan k de grupos con unos centres iniciales aleatorios a donde se asignan los individuos más próximos:
2. Esta partición se hace s veces (2, 3, 4…):
3. Se construye la partición-producto (tabla de contingencia): las casillas no vacías del cruce son los grupos estables
4. A continuación, habiendo reducido el número de unidades, se aplica un procedimiento clasificatorio, p. ej. Ward
– Método de grupos estables
3. Elección del método de clasificación
Construcción de tipologías | Análisis de Clasificación 15
– Método mixto, algoritmo del software SPAD (SEMIS)
• Partiendo de las puntuaciones factoriales del conjunto de individuos se aplica un triple proceso clasificatorio (Lebart, Morineau, Piron, 2004: 177 a 184):
1. Una primera clasificación se obtiene por el cruce de varias particiones de base construidas alrededor de centros móviles
2. Las clases estables que se obtienen de este primer procedimiento se agregan a continuación por un método de clasificación jerárquica ascendente según el criterio de Ward
3. Finalmente, las diferentes particiones de los individuos que se pueden obtener a partir del árbol de agregación del procedimiento Ward optimizan o se consolidan mediante una reasignación a los diferentes grupos creados en cada partición con un nuevo proceso de clasificación por centros móviles que mejora la inercia entre los grupos.
• A partir del árbol de agregación se trata de determinar el corte que corresponde a la mejor o mejores particiones
3. Elección del método de clasificación
Construcción de tipologías | Análisis de Clasificación 16
– El número de grupos, según el método clasificatorio:• Se fija con anterioridad• Se determina a posteriori
– Según criterios e hipótesis previas o de forma más exploratoria
– Criterios para decidir el número de grupos:• Proporción de varianza explicada por cada partición• Distancias entre los grupos.
• Analizar la Tabla de aglomeración: crecimiento del coeficiente• Saltos del dendrograma• En algunos métodos puede ser una decisión automatizada• El contenido substantivo y los criterios teóricos son importantes• Se trata de comparar y contrastar clasificaciones alternativas y
validarlas
4. Clasificación en un número de grupos
Construcción de tipologías | Análisis de Clasificación 17
– Tabla de aglomeración RMB 1986
4. Clasificación en un número de grupos
Construcción de tipologías | Análisis de Clasificación 18
– Tabla de aglomeración
Cálculo de (ver Excel):-Diferencias primeras(“velocidad”)-Diferencias segundas(“aceleración”)
Historial de conglomeración
Conglomerado 1
Conglomerado 2
Conglomerado 1
Conglomerado 2
1 35 1 22 0,00085 0,00 - 0 0 42 34 12 19 0,00210 0,00 0,00 0 0 143 33 6 18 0,00567 0,00 0,00 0 0 144 32 1 2 0,00963 0,00 0,00 1 0 165 31 3 8 0,01416 0,00 0,00 0 0 106 30 13 15 0,01901 0,01 0,00 0 0 167 29 5 28 0,02404 0,01 0,00 0 0 98 28 23 26 0,03387 0,01 0,00 0 0 219 27 5 32 0,04617 0,02 0,00 7 0 20
10 26 3 16 0,06252 0,02 0,00 5 0 1311 25 7 14 0,07918 0,03 0,01 0 0 1812 24 10 20 0,10709 0,03 0,00 0 0 2613 23 3 9 0,13654 0,04 0,01 10 0 1914 22 6 12 0,17199 0,04 0,00 3 2 2315 21 21 25 0,21014 0,07 0,03 0 0 2216 20 1 13 0,27604 0,07 0,00 4 6 1817 19 33 34 0,34323 0,08 0,01 0 0 3218 18 1 7 0,41847 0,08 0,00 16 11 2819 17 3 17 0,49789 0,09 0,01 13 0 2320 16 4 5 0,59009 0,14 0,05 0 9 2721 15 23 24 0,72996 0,15 0,01 8 0 2422 14 21 29 0,88273 0,20 0,05 15 0 2723 13 3 6 1,08209 0,23 0,03 19 14 2824 12 23 27 1,30902 0,24 0,02 21 0 3025 11 30 31 1,55367 0,27 0,03 0 0 3026 10 10 11 1,82629 0,48 0,20 12 0 3127 9 4 21 2,30229 0,70 0,22 20 22 3328 8 1 3 2,99990 0,82 0,12 18 23 3129 7 35 36 3,82083 1,52 0,69 0 0 3230 6 23 30 5,33626 1,79 0,27 24 25 3431 5 1 10 7,12446 3,75 1,96 28 26 3332 4 33 35 10,87472 4,69 0,94 17 29 35
33 3 1 4 15,56061 22,01 17,32 31 27 3434 2 1 23 37,56896 32,43 10,42 33 30 3535 1 1 33 70,00000 34 32 0
Próxima etapa
Etapa Grupos Diferencias primeras
Diferencias segundas
Conglomerado que se combina
Etapa en la que el conglomerado aparece por
primera vezCoeficientes
0
2
4
6
8
10
12
14
16
18
20
34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2
4. Clasificación en un número de grupos
Construcción de tipologías | Análisis de Clasificación 19
Descripción de los tipos– Caracterización cruzando la tipología con las variables factoriales, las
originales (activas y pasivas) y otras de interés– Tablas de contingencia– Tablas de medias– Representaciones gráficas: gráficos de dispersión, de barras, mapas, ...
Validación de los resultados– Validación: estabilidad de los resultados– Cambiar las variables (introducir o quitar)– Cambiar su codificación– Cálculo de medidas de evaluación:
– Internas: índice de Davies–Bouldin, índice Dunn, coeficiente Silhouette, cophenético, de pertenencia– Externas: medida Rand, medida F, índice de Jaccard, índice Fowlkes–Mallows, matriz de confusión,
información mútua
– Simulación de Montecarlo– Interpretación teórica
5. Descripción y validación de los grupos o tipos
Construcción de tipologías | Análisis de Clasificación 20
5. Descripción de los grupos o tipos
Ejemplo de la RMB 1986
Construcción de tipologías | Análisis de Clasificación 21
5. Descripción de los grupos o tipos
Ejemplo de la RMB 1986
Construcción de tipologías | Análisis de Clasificación 22
5. Descripción de los grupos o tipos
Ejemplo de la RMB 1986
Construcción de tipologías | Análisis de Clasificación 23
5. Descripción de los grupos o tipos
Ejemplo de la RMB 1986
Construcción de tipologías | Análisis de Clasificación 24
Ejemplo de la RMB 1986
5. Descripción de los grupos o tipos
Construcción de tipologías | Análisis de Clasificación 25
Construcción de los estratos
Construcción de tipologías | Análisis de Clasificación 26
Construcción de los estratos
Construcción de tipologías | Análisis de Clasificación 27
Construcción de los estratos
Construcción de tipologías | Análisis de Clasificación 28
Construcción de los estratos
Construcción de tipologías | Análisis de Clasificación 29
• Procedimiento general de construcción tipológica: ACM en combinación con el análisis de clasificación (ACL)
• Seleccionamos el procedimiento predefinido por el menú: Template / Predefined chains
Análisis de Clasificación con SPAD
Análisis Factorial combinado con Análisis de Clasificación
COREM: Análisis de Correspondencias Múltiples con eliminación de categorías
CORCO: Análisis de Correspondencias Múltiples Condicional
CORMU: Análisis de Correspondencias Múltiples
Construcción de tipologías | Análisis de Clasificación 30
• Procedimiento general de construcción tipológica: ACM en combinación con el análisis de clasificación (ACL)
Análisis de Clasificación con SPAD
ACMCORMU: Multiple Correspondence AnalysisDEFAC: Description of Factorial Axes
ACLRECIP/SEMIS: Factor Based Cluster AnalysisPARTI-DECLA: Cut the tree & Cluster DescriptionGuardar variablesESCAL: Storing of Factorial Axis & Partitions
Construcción de tipologías | Análisis de Clasificación 31
Análisis de Clasificación con SPAD
• RECIP (método ward y optimización por el método de centros móviles)
Elección RECIP (ward)SEMIS (mixto)
Exportación de resultados a Excel
Factores para el ACLElementos terminales (nodos) del árbol de agregación
Parámetros de la presentación de los resultados
Casos de cada grupo
Construcción de tipologías | Análisis de Clasificación 32
Análisis de Clasificación con SPAD
• PARTI-DECLA (partición y descripción clases)
Búsqueda automática de las mejores particiones: cuántas (3) entre qué mínimo (3) y máximo (10)
Decisión del usuario del nº de particiones
Parámetros de presentación de resultados:-Casos de cada grupo-Coordenadas de las particiones
-”Parangones”: casos representativos de cada partición
-Crea fichero Excel
Parámetros de las particiones: consolidación y casos ilustrativos
Caracterización de las particiones
Construcción de tipologías | Análisis de Clasificación 33
• ESCLA (guardar factores y clases)
Análisis de Clasificación con SPAD
Particiones
Parámetros de resultados y trabajo
Nombre y carpeta del archivo de datos
Factores
Se traspasan las variables (se etiquetan) y se validan
Se traspasan las variables (se etiquetan) y se validan
Construcción de tipologías | Análisis de Clasificación 34
Análisis de Clasificación con SPAD
• Resultados RECIP (clasificación jerárquica)
Construcción de tipologías | Análisis de Clasificación 35
Análisis de Clasificación con SPAD
• Resultados RECIP (clasificación jerárquica)
Descripción de los 50 elementos terminales (nodos).
Coordenadas facoriales
Valores test de significación de cada nodo sobre cada factor retenido(> 2)
Construcción de tipologías | Análisis de Clasificación 36
Análisis de Clasificación con SPAD
• Resultados RECIP (clasificación jerárquica)
Descripción de los 50 elementos terminales (nodos) de la jerarquía
Número de nodo e índice de nivel del nodo
Rango de los dos nodos o grupos que se unen
Efectivos y peso
Rango del primer y último nodo terminal comprendido en el nodo estudiado
Construcción de tipologías | Análisis de Clasificación 37
Análisis de Clasificación con SPAD
• Resultados RECIP Editor jerárquico del dendrograma
Construcción de tipologías | Análisis de Clasificación 38
Análisis de Clasificación con SPAD
• Resultados PARTI
Clasificación en 3 grupos
Nº de casos y rango de los nodos terminales de cada grupo o clase
Mejores particiones
Construcción de tipologías | Análisis de Clasificación 39
Análisis de Clasificación con SPAD
• Resultados PARTISignificación y coordenadas de cada grupo antes de la consolidación
Distancia al centro, al individuo medio
Proceso de consolidación alrededor del centro de cada grupo (método de centros móviles), evolución de la mejora de la inercia intergrupos (explicada)
Descomposición de la inercia antes y después de la consolidación en cada clase o grupo:
Inercia total = Inercia intra + Inercia entre
Significación y coordenadas de cada grupo después de la consolidación
Construcción de tipologías | Análisis de Clasificación 40
Análisis de Clasificación con SPAD
• Resultados PARTI
”Parangones”: casos representativos (ideales) de cada partición. Los más próximos al centro de cada grupo
Construcción de tipologías | Análisis de Clasificación 41
Análisis de Clasificación con SPAD
• Resultados DECLA.
Categorías características por orden de importancia según el valor test
+−
Lo que son
Lo que no son
Construcción de tipologías | Análisis de Clasificación 42
Análisis de Clasificación con SPAD
• Resultados gráficos
Casos activos
Variables activas categóricas
Casos ilustrativos
Variables ilustrativas categóricas
Variables ilustrativas continuas
Particiones
Selección de las variables del gráfico
Editor de gráficos factoriales
Construcción de tipologías | Análisis de Clasificación 43
Análisis de Clasificación con SPAD
Construcción de tipologías | Análisis de Clasificación 44
Análisis de Clasificación con SPAD
Construcción de tipologías | Análisis de Clasificación 45
Análisis de Clasificación con SPSS
Construcción de tipologías | Análisis de Clasificación 46
Análisis de Clasificación con SPSS
Variables que actúan de criterios clasificatorios: originales o variables factoriales
Para clasificar casos o variables
Para clasificar casos o variables
Permite eliminar las tablas o los gráficos de los resultados.
De interés en particular cuando el número de casos
es elevado
Permite eliminar las tablas o los gráficos de los resultados.
De interés en particular cuando el número de casos
es elevado
Construcción de tipologías | Análisis de Clasificación 47
Análisis de Clasificación con SPSS
Pedir sólo si el nº de casos es
reducido
Pedir sólo si el nº de casos es
reducido
Pedir sólo si el nº de casos es
reducido
Pedir sólo si el nº de casos es
reducido
Guarda las variables clasificatorias.
Depende de cada análisis, un nº
concreto, o entre 2 y un nº superior que
puede ser 3, 4, 5, 6, 10, o incluso mayor
si se desea
Guarda las variables clasificatorias.
Depende de cada análisis, un nº
concreto, o entre 2 y un nº superior que
puede ser 3, 4, 5, 6, 10, o incluso mayor
si se desea
Con variables factoriales no es necesario, sí con
variables originales
directamente
Con variables factoriales no es necesario, sí con
variables originales
directamente
Tabla con el historial y los coeficientes
Tabla con el historial y los coeficientes
Tabla con el grupo en el
que se clasifica cada
caso
Tabla con el grupo en el
que se clasifica cada
caso
Top Related