Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTIC … · En medicina, permite clasificar seres vivos con...
Transcript of Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTIC … · En medicina, permite clasificar seres vivos con...
11
ANÁLISIS CLUSTERS
C U R S O
TÉCNICAS MULTIVARIANTES
Prof. Dr. Ángel Luís LUCENDO MONEDERO
ANÁLISIS CLUSTERS
C U R S O
TTÉÉCNICAS CNICAS MULTIVARIANTESMULTIVARIANTES
Prof. Dr. Ángel Luís LUCENDO MONEDERO
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
http://www.geografia.us.es/
22
Medidas de DispersiónMedidas de Dispersión
Medidas Tendencia CentralMedidas Tendencia Central Análisis de CorrespondenciasAnálisis de Correspondencias
Análisis FactorialAnálisis Factorial
ESTADÍSTICADESCRIPTIVAESTADESTADÍÍSTICASTICADESCRIPTIVADESCRIPTIVA
ESTADÍSTICA AVANZADA
ESTADESTADÍÍSTICA STICA AVANZADAAVANZADA
Medidas de DistribuciónMedidas de Distribución ANÁLISIS CLUSTER(Tema 2)
ANANÁÁLISIS CLUSTERLISIS CLUSTER(Tema 2)(Tema 2)
Clasificación general de las técnicas estadísticas:ClasificaciClasificacióón general de las tn general de las téécnicas estadcnicas estadíísticas:sticas:
Tema 2. INTRODUCCIÓN AL ANÁLISIS CLUSTERTema 2. INTRODUCCITema 2. INTRODUCCIÓÓN AL ANN AL ANÁÁLISIS CLUSTERLISIS CLUSTER
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
2.1 Consideraciones generales.2.1 Consideraciones generales.
33
Se basa en el concepto de clasificación:Se basa en el concepto de clasificación:
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
En general, es el “proceso o acto de asignar un nuevo caso u observación en su lugar correspondiente dentro de un conjunto de categorías establecido”.
En general, es el “proceso o acto de asignar un nuevo caso u observación en su lugar correspondiente dentro de un conjunto de categorías establecido”.
2.1 Consideraciones generales.2.1 Consideraciones generales.
En estadística, es “un conjunto de técnicas que se utilizan para clasificar los objetos o casos en grupos relativamente homogéneos llamados clusters”.
En estadística, es “un conjunto de técnicas que se utilizan para clasificar los objetos o casos en grupos relativamente homogéneos llamados clusters”.
En matemática, “dado un conjunto d m objetos individuales cada uno de los cuales viene descrito por un conjunto de n características o variables, trata de deducir una división útil en un número de clases que deben ser determinadas a priori”.
En matemática, “dado un conjunto d m objetos individuales cada uno de los cuales viene descrito por un conjunto de n características o variables, trata de deducir una división útil en un número de clases que deben ser determinadas a priori”.
44
Una herramienta muy útil: el análisis cluster se puede utilizar para:Una herramienta muy útil: el análisis cluster se puede utilizar para:
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
En la taxonomía, para agrupar especies naturales (animales o plantas).
En marketing, facilita la clasificación de consumidores tipo dentro del conjunto de la población.
En medicina, permite clasificar seres vivos con los mismos síntomas y características patológicas.
Se emplea en técnicas de reconocimiento de patrones o perfiles (clientes de bancos, de seguros, poblaciones de riesgo, enfermedades, etc.).
Para formar grupos de pixels de imágenes digitalizadas enviadas por un satélite con el fin de identificar las características de los terrenos.
En la taxonomía, para agrupar especies naturales (animales o plantas).
En marketing, facilita la clasificación de consumidores tipo dentro del conjunto de la población.
En medicina, permite clasificar seres vivos con los mismos síntomas y características patológicas.
Se emplea en técnicas de reconocimiento de patrones o perfiles (clientes de bancos, de seguros, poblaciones de riesgo, enfermedades, etc.).
Para formar grupos de pixels de imágenes digitalizadas enviadas por un satélite con el fin de identificar las características de los terrenos.
55
Es un tipo de técnicas estadísticas de análisis multivariante
Permite un mejor entendimiento del fenómeno objeto de estudio
Es un tipo de técnicas estadísticas de análisis multivariante
Permite un mejor entendimiento del fenmejor entendimiento del fenóómeno meno objeto de estudioobjeto de estudio
OBJETIVOS del análisis multivariante:
Proporcionar métodos que otras técnicas estadísticas son incapazes de conseguir.
Ayudar al analista o investigador a tomar decisiones óptimas.
OBJETIVOS del análisis multivariante:
Proporcionar mProporcionar méétodostodos que otras técnicas estadísticas son incapazes de conseguir.
Ayudar al analista o investigador a tomar decisiones decisiones óóptimas.ptimas.
2.2 Análisis cluster, análisis multivariante.2.2 Análisis cluster, análisis multivariante.
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
66
a) AC es el nombre genérico de una amplia variedad de procedimientos que pueden ser usados para crear una clasificación.
b) AC es un procedimiento estadístico multivariante que comienza con un conjunto de datos conteniendo información (variables) sobre una población (o una muestra) e intenta reorganizarlos en grupos o conglomerados relativamente homogéneos a los que se denomina clusters.
c) Es una técnica de clasificación de datos, cuyo principal objetivo es formar e identificar un número pequeño y óptimo de grupos de individuos homogéneos respecto a un conjunto de características (variables) que pueden ser cuantitativas o cualitativas.
a) AC es el nombre genérico de una amplia variedad de procedimientos que pueden ser usados para crear una clasificación.
b) AC es un procedimiento estadístico multivariante que comienza con un conjunto de datos conteniendo información (variables) sobre una población (o una muestra) e intenta reorganizarlos en grupos o conglomerados relativamente homogéneos a los que se denomina clusters.
c) Es una técnica de clasificación de datos, cuyo principal objetivo es formar e identificar un número pequeño y óptimo de grupos de individuos homogéneos respecto a un conjunto de características (variables) que pueden ser cuantitativas o cualitativas.
2.3 Análisis Cluster: definiciones.2.3 Análisis Cluster: definiciones.
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
77
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
La similitud (símilaridad) es una medida de semejanza entre los casos que van a ser agrupados.
El procedimiento del AC = medir la similitud en términos de distancias.
Los individuos más parecidos = características similares = más cercanos = un mismo grupo/cluster.
La similitud (símilaridad) es una medida de semejanza entre los casos que van a ser agrupados.
El procedimiento del AC = medir la similitud en términos de distancias.
Los individuos más parecidos = características similares = más cercanos = un mismo grupo/cluster.
2.4 Selección de la medida de Similitud o Distancia.2.4 Selección de la medida de Similitud o Distancia.
Métodos usados en la medición de la similitud:
2.4.1 Medidas de correlación (variables)2.4.2 Medidas de distancia (casos)2.4.3 Medidas de asociación (casos)
Métodos usados en la medición de la similitud:
2.4.1 Medidas de correlación (variables)2.4.2 Medidas de distancia (casos)2.4.3 Medidas de asociación (casos)
(datos cuantitativos)
(datos cualitativos)
88
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
¡¡¡¡ FUNDAMENTAL!!!!
El resultado final del AC depende radicalmente de la medida de ASOCIACIÓN/SIMILITUD/DISTANCIA utilizada.
¿PORQUÉ?
La medidas de distancia son sensibles a lasdiferencias de escalas entre las variables
•No todas las variables tienen el mismo peso en el resultado final.
•Especialmente las variables con una gran dispersión (valores grandes de sus desviaciones típicas) tienen más impacto.
¡¡¡¡ FUNDAMENTAL!!!!
El resultado final del AC depende radicalmente de la medida de ASOCIACIÓN/SIMILITUD/DISTANCIA utilizada.
¿PORQUÉ?
La medidas de distancia son sensibles a lasdiferencias de escalas entre las variables
•No todas las variables tienen el mismo peso en el resultado final.
•Especialmente las variables con una gran dispersión (valores grandes de sus desviaciones típicas) tienen más impacto.
99
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
Transformación o Estandarización de datos.Transformación o Estandarización de datos.
Eliminar los perjuicios de las diferencias en las escalas de los distintos atributos (variables).
Puede afectar al resultado del análisis
Eliminar los perjuicios de las diferencias en las escalas de los distintos atributos (variables).
Puede afectar al resultado del análisis
Puntuaciones Z: Es la forma más común.Consiste es la conversión de cada variable en puntuaciones típicas.
Puntuaciones Z: Es la forma más común.Consiste es la conversión de cada variable en puntuaciones típicas.
Factorización: Puede resultar interesante realizar el AC con factores en lugar de con variables.
Factorización: Puede resultar interesante realizar el AC con factores en lugar de con variables.
1010
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
Para clasificar variables.
a) Coeficiente de congruencia (CRS): Es conveniente utilizarlo con variables tipo razón.No se ve afectado por cambios de escala.Es el coseno del ángulo que forman los vectores entre los casos.
b) Coeficiente de correlación (RRS):No se ve afectado por cambios de escala.Si los objetos r y s son variables, mide el grado de asociación lineal existente entre ambas (r2).
Para clasificar variables.
a) Coeficiente de congruencia (CRS): Es conveniente utilizarlo con variables tipo razón.No se ve afectado por cambios de escala.Es el coseno del ángulo que forman los vectores entre los casos.
b) Coeficiente de correlación (RRS):No se ve afectado por cambios de escala.Si los objetos r y s son variables, mide el grado de asociación lineal existente entre ambas (r2).
2.4.1 Medidas de Correlación2.4.1 Medidas de Correlación
1111
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
a) Medidas para variables cuantitativas
No son invariantes a cambios de escala => estandarizar los datos.
No tienen en cuenta las relaciones existentes entre las variables.
a) Medidas para variables cuantitativas
No son invariantes a cambios de escala => estandarizar los datos.
No tienen en cuenta las relaciones existentes entre las variables.
1) Distancia euclídea y distancia euclídea al cuadrado1) Distancia euclídea y distancia euclídea al cuadrado2) Distancia métrica de Chebychev2) Distancia métrica de Chebychev3) Distancia de Manhattan (en SPSS, City-Block) 3) Distancia de Manhattan (en SPSS, City-Block) 4) Distancia de Mahalanobis4) Distancia de Mahalanobis
2.4.2 Medidas de distancia.2.4.2 Medidas de distancia.
b) Medidas para datos binarios
1)Distancia euclídea al cuadrado
∑=
−=t
kjkikij XXd
1
2)(
1212
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
1. CONGLOMERADOS JERÁRQUICOS (ESTRUCTURA PROGRESIVA EN ARBOL)
JERÁRQUICOS AGLOMERATIVOSDistancia mínima (single linkage)Distancia máxima (complete linkage)Distancia entre centros (centroide)Distancia mediana (median)Distancia promedio Método de Ward
JERÁRQUICOS DIVISIVOS
2. CONGLOMERADOS NO JERÁRQUICOS (K-MEDIAS)
OPTIMIZACIÓN
1. CONGLOMERADOS JERÁRQUICOS (ESTRUCTURA PROGRESIVA EN ARBOL)
JERÁRQUICOS AGLOMERATIVOSDistancia mínima (single linkage)Distancia máxima (complete linkage)Distancia entre centros (centroide)Distancia mediana (median)Distancia promedio Método de Ward
JERÁRQUICOS DIVISIVOS
2. CONGLOMERADOS NO JERÁRQUICOS (K-MEDIAS)
OPTIMIZACIÓN
2.5 Clasificación de la técnicas clusters o Procedimientos de Agrupación.
2.5 Clasificación de la técnicas clusters o Procedimientos de Agrupación.
1313
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
1414
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
Objetivo = permitir tomar una decisión sobre cuál es el número idóneo de conglomerados
Estructura jerárquica en forma de árbol.
Cada caso forma parte de un cluster u otro en función de las distancias que existen entre ellos.
Variables brutas (originales) o transformaciones de estandarización.
Objetivo = permitir tomar una decisión sobre cuál es el número idóneo de conglomerados
Estructura jerárquica en forma de árbol.
Cada caso forma parte de un cluster u otro en función de las distancias que existen entre ellos.
Variables brutas (originales) o transformaciones de estandarización.
2.5.1 Procedimientos Jerárquicos. Conceptos2.5.1 Procedimientos Jerárquicos. Conceptos
1515
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
2.5.1 Procedimientos Jerárquicos. Métodos2.5.1 Procedimientos Jerárquicos. MMéétodostodos
i. Aglomerativos.
Los métodos aglomerativos comienzan con nclusters de un caso cada uno. En cada paso del algoritmo se recalculan las distancias entre los grupos existentes y se unen los 2 casos o grupos más similares (más próximo). El algoritmo acaba con 1 cluster conteniendo todos los elementos.
ii. Divisivos.
Los métodos divisivos comienzan con 1 cluster que engloba a todos los elementos. En cada paso del algoritmo se divide el caso o grupo más heterogéneo (más lejano). El algoritmo acaba con n clusters de un elemento cada uno.
i. Aglomerativos.
Los métodos aglomerativos comienzan con nclusters de un caso cada uno. En cada paso del algoritmo se recalculan las distancias entre los grupos existentes y se unen los 2 casos o grupos más similares (más próximo). El algoritmo acaba con 1 cluster conteniendo todos los elementos.
ii. Divisivos.
Los métodos divisivos comienzan con 1 cluster que engloba a todos los elementos. En cada paso del algoritmo se divide el caso o grupo más heterogéneo (más lejano). El algoritmo acaba con n clusters de un elemento cada uno.
Los Métodos Jerárquicos pueden ser de dos tipos:Los Métodos Jerárquicos pueden ser de dos tipos:
1616
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
2.5.1 Procedimientos Jerárquicos. Métodos2.5.1 Procedimientos Jerárquicos. MMéétodostodos
Método jerárquico aglomerativo:
Elemento 1
Elemento 2
Elemento 3
Elemento 4
Elemento 5
Método jerárquico divisivo:
Elemento 1
Elemento 2
Elemento 3
Elemento 4
Elemento 5
Método jerárquico aglomerativo:
Elemento 1
Elemento 2
Elemento 3
Elemento 4
Elemento 5
Método jerárquico divisivo:
Elemento 1
Elemento 2
Elemento 3
Elemento 4
Elemento 5
1717
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
El método de enlace sencillo (single linkage)
Distancia mínima o la regla del vecino más próximo. Se identifica la distancia más próxima entre dos casos, un caso y un conglomerado o dos conglomerados. Los clusters se unen considerando la menor de las distancias existentes entre los miembros más cercanos de distintos grupos.
El método de enlace sencillo (single linkage)
Distancia mínima o la regla del vecino más próximo. Se identifica la distancia más próxima entre dos casos, un caso y un conglomerado o dos conglomerados. Los clusters se unen considerando la menor de las distancias existentes entre los miembros más cercanos de distintos grupos.
El método de enlace completo (complete linkage)
Distancia máxima o la regla del vecino más lejano. Se identifica la distancia más lejana entre dos casos, un caso y un conglomerado o dos conglomerados. Los grupos se unen considerando la menor de las distancias existentes entre los miembros más lejanos de distintos grupos.
El método de enlace completo (complete linkage)
Distancia máxima o la regla del vecino más lejano. Se identifica la distancia más lejana entre dos casos, un caso y un conglomerado o dos conglomerados. Los grupos se unen considerando la menor de las distancias existentes entre los miembros más lejanos de distintos grupos.
2.5.1 Procedimientos Jerárquicos. Métodos2.5.1 Procedimientos Jerárquicos. Métodos
1818
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
El método de Ward
Se basa en la varianza intragrupos de la estructura formada.
El procedimiento:
1. En cada grupo se calculan las medias de todas las variables.
2. Se calcula la distancia euclidiana al cuadrado de cada caso con respecto a las medias anteriores.
3. Se suman todas esas distancias para cada caso. 4. En cada etapa se combinarán los dos conglomerados
con el menor incremento en la suma total de los cuadrados de las distancias dentro de los conglomerados.
El método de Ward
Se basa en la varianza intragrupos de la estructura formada.
El procedimiento:
1. En cada grupo se calculan las medias de todas las variables.
2. Se calcula la distancia euclidiana al cuadrado de cada caso con respecto a las medias anteriores.
3. Se suman todas esas distancias para cada caso. 4. En cada etapa se combinarán los dos conglomerados
con el menor incremento en la suma total de los cuadrados de las distancias dentro de los conglomerados.
2.5.1 Procedimientos Jerárquicos. Métodos2.5.1 Procedimientos Jerárquicos. Métodos
1919
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
El método del Centroide
Distancia media entre los centroides de dos grupos.
Dos cluster próximos tienen centroides semejantes.
Cada vez que se agrupan los objetos, se calcula un centroide nuevo.
El método del Centroide
Distancia media entre los centroides de dos grupos.
Dos cluster próximos tienen centroides semejantes.
Cada vez que se agrupan los objetos, se calcula un centroide nuevo.
DE LOS MÉTODOS JERÁRQUICOS, LOS DE ENLACE (linkaje) Y EL DE WARD HAN DEMOSTRADO UN MEJOR DESEMPEÑO QUE LOS OTROS.
DE LOS MÉTODOS JERÁRQUICOS, LOS DE ENLACE (linkaje) Y EL DE WARD HAN DEMOSTRADO UN MEJOR DESEMPEÑO QUE LOS OTROS.
2.5.1 Procedimientos Jerárquicos. Métodos2.5.1 Procedimientos Jerárquicos. Métodos
2020
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
2.5.2 Procedimientos No Jerárquicos. Conceptos2.5.2 Procedimientos No Jerárquicos. Conceptos
Se conoce como de K Medias.
Es un procedimiento de optimizante o partitivo.
Consiste en formar un número (K) prefijado de grupos homogéneos, excluyentes x las distancias existentes entre casos y/o variables.
Técnica de agregación alrededor de centros de gravedad móviles: los casos se agrupan en cada etapa cambiando el centro de gravedad1 de los grupos.
Se conoce como de K Medias.
Es un procedimiento de optimizante o partitivo.
Consiste en formar un número (K) prefijado de grupos homogéneos, excluyentes x las distancias existentes entre casos y/o variables.
Técnica de agregación alrededor de centros de gravedad móviles: los casos se agrupan en cada etapa cambiando el centro de gravedad1 de los grupos.
1) Punto de un cluster en el que la suma de las distancias euclídeas al cuadrado de cada individuo con dicho centro es mínima.
1) Punto de un cluster en el que la suma de las distancias euclídeas al cuadrado de cada individuo con dicho centro es mínima.
2121
Es necesario fijar de antemano el número de grupos (K):
Seleccionando a priori el número de centros (K).
Cuando no se tiene ninguna idea del número de grupos, escogiendo un número aleatorio de centros.
• En este caso, esta técnica puede usarse con carácter exploratorio.
Es necesario fijar de antemano el número de grupos (K):
Seleccionando a priori el número de centros (K).
Cuando no se tiene ninguna idea del número de grupos, escogiendo un número aleatorio de centros.
• En este caso, esta técnica puede usarse con carácter exploratorio.
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
2.5.2 Procedimientos No Jerárquicos. Conceptos2.5.2 Procedimientos No Jerárquicos. Conceptos
2222
El método del Umbral Secuencial
Se selecciona un centro de grupo y a partir de él se agrupan todos los casos dentro de un umbral (valor de distancia que se especifica previamente).
El método del Umbral Paralelo
Similar al anterior excepto en que se seleccionan varios centros de grupo simultáneamente y se agrupan los casos dentro el umbral del centro más próximo.
El método de división para la Optimización
Difiere de los otros dos procedimientos en que los casos pueden reasignarse a otros grupos en posteriores etapas de análisis.
El método del Umbral Secuencial
Se selecciona un centro de grupo y a partir de él se agrupan todos los casos dentro de un umbral (valor de distancia que se especifica previamente).
El método del Umbral Paralelo
Similar al anterior excepto en que se seleccionan varios centros de grupo simultáneamente y se agrupan los casos dentro el umbral del centro más próximo.
El método de división para la Optimización
Difiere de los otros dos procedimientos en que los casos pueden reasignarse a otros grupos en posteriores etapas de análisis.
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
2.5.2 Procedimientos No Jerárquicos. Métodos2.5.2 Procedimientos No Jerárquicos. Métodos
2323
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
2.7 Procedimiento del AC con SPSS.2.7 Procedimiento del AC con SPSS.
2.7.2 Análisis de Conglomerados Jerárquicos.2.7.2 Análisis de Conglomerados Jerárquicos.
2.7.3 Análisis de k Medias (No Jerárquico).2.7.3 Análisis de k Medias (No Jerárquico).
2.7.1 Formulación del Problema.2.7.1 Formulación del Problema.
2424
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
Procedimiento del Análisis de Conglomerados
2525
i. Selección de la población
ii. Selección de variables (1)
i. Selección de la población
ii. Selección de variables (1)(1)
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
2.7.1 Formulación del Problema y Diseño de la Investigación.2.7.1 Formulación del Problema y Diseño de la Investigación.
iii. Transformación¡¡Atención!! Si las variables no tienen las mismas unidades de medida.
iii. Transformación¡¡Atención!! Si las variables no tienen las mismas unidades de medida.
No incluir ni elegir variables indiscrimina-damente
No incluir ni elegir variables indiscrimina-damente
(1)(1)
2626
a) Escoger la medida de la distancia.a) Escoger la medida de la distancia.
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
2.7.2 Análisis de Conglomerados Jerárquicos (SPSS).2.7.2 Análisis de Conglomerados Jerárquicos (SPSS).
Establecer una medida de similaridad entre cada par de casos según el tipo de datos que sean (2) (intervalo, frecuencia, binario) (3) :
Establecer una medida de similaridad entre cada par de casos según el tipo de datos que sean (2)(2) (intervalo, frecuencia, binario) (3)(3) :
(2)(2)(3)(3)CASOS:
medidas de distancia (datos cuantitativos)
Medidas de asociación(datos cualitativos)
VARIABLES:Medidas de proximidad
CASOS:medidas de distancia (datos cuantitativos)
Medidas de asociación(datos cualitativos)
VARIABLES:Medidas de proximidad
Si fuera necesario, se procede a la transformación de los datos (4). Si fuera necesario, se procede a la transformación de los datos (4)(4).
(4)(4)
2727
b) Escoger el método de agrupamiento.b) Escoger el método de agrupamiento.
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
No existe un criterio estadístico
Cada AC variará su solución según el método escogido.
Dependerá de la propia estructura de los datos.
Los métodos de agrupamientos recomendados son:
Vecino más lejano.
Método de Ward.
No existe un criterio estadístico
Cada AC variará su solución según el método escogido.
Dependerá de la propia estructura de los datos.
Los métodos de agrupamientos recomendados son:
Vecino más lejano.
Método de Ward.
2828
c) Conocer el Historial de Aglomeración:c) Conocer el Historial de Aglomeración:
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
Este gráfico muestra información sobre:a) las etapas en las que se van uniendo los casos (5)b) el par de casos que se unen en cada etapa y a la distancia
que se ha unido (6); c) las etapas previas y posteriores en la que aparecen los
casos implicados (7).
Este gráfico muestra información sobre:a) las etapas en las que se van uniendo los casos (5)(5)b) el par de casos que se unen en cada etapa y a la distancia
que se ha unido (6)(6); c) las etapas previas y posteriores en la que aparecen los
casos implicados (7)(7).
(5)(5)
(6)(6) (7)(7)
2929
d) Conocer las distancias entre pares de individuos:d) Conocer las distancias entre pares de individuos:
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
Matriz de Distancias (4): muestra la distancias que hay entre cada par de casos. Matriz de Distancias (4)(4): muestra la distancias que hay entre cada par de casos.
(4)(4)
Matriz de distancias distancia euclídea al cuadrado
Caso 1 2 3 4 51 1,0933 1,0147 2,6317 1,11642 1,0933 0,4825 4,0386 1,99403 1,0147 0,4825 1,8699 2,74964 2,6317 4,0386 1,8699 6,34945 1,1164 1,9940 2,7496 6,34946 2,7736 1,2262 3,1072 9,2487 1,68917 0,8044 2,5238 3,2590 6,0174 0,4242
El tipo de matriz obtenida de distancias dependerá de la medida y del método seleccionados.El tipo de matriz obtenida de distancias dependerá de la medida y del método seleccionados.
3030
• Dendograma
• Es un gráfico que muestra las etapas de fusión y las distancias de unión.
• Los conglomerados se representan mediante trazos horizontales (9) y las etapas de fusión o clusters mediante trazos verticales (10).
• Dendograma
• Es un gráfico que muestra las etapas de fusión y las distancias de unión.
• Los conglomerados se representan mediante trazos horizontales (9)(9) y las etapas de fusión o clusters mediante trazos verticales (10)(10).
e) Determinar el número óptimo de grupos o clusters (I):e) Determinar el número óptimo de grupos o clusters (I):
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
No existen criterios determinar el número óptimo de grupos, DENDOGRAMA
A medida que se van formando grupos, éstos son menos homogéneos (8).
No existen criterios determinar el número óptimo de grupos, DENDOGRAMA
A medida que se van formando grupos, éstos son menos homogéneos (8)(8).
(8)(8)
(9)(9)
(10)(10)
3131
Con La primera opción se pueden identificar dos grupos considerando la distancia 1000 (en la variable Height) (línea naranja).
En la segunda opción se consideraría cuatro clusterspartiendo del “corte” en una distancia 250 (en la variable Height) (línea negra).
Con La primera opción se pueden identificar dos grupos considerando la distancia 1000 (en la variable Height) (línea naranja).
En la segunda opción se consideraría cuatro clusterspartiendo del “corte” en una distancia 250 (en la variable Height) (línea negra).
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
EJEMPLO: dos opciones:EJEMPLO: dos opciones:
3232
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
Permiten observar el cluster en el que estaría cada caso (luego de haber establecido una distancia y un método de agrupamiento) escogiendo el número de grupos previamente (una única solución o un rango de ellas) (11).
Permiten observar el cluster en el que estaría cada caso (luego de haber establecido una distancia y un método de agrupamiento) escogiendo el número de grupos previamente (una única solución o un rango de ellas) (11).
Para determinar el número óptimo de grupos:
TABLA DEL CONGLOMERADO DE PERTENENCIA.
Listado de todos los casos analizados indicando el conglomerado al que han sido asignados
Para determinar el número óptimo de grupos:
TABLA DEL CONGLOMERADO DE PERTENENCIA.
Listado de todos los casos analizados indicando el conglomerado al que han sido asignados
(11)(11)
e) Determinar el número óptimo de grupos o clusters (II):e) Determinar el número óptimo de grupos o clusters (II):
3333
Elegir una partición inicial de grupos y después intercambiar los miembros de esos clusters para obtener una partición mejor.
Elegir una partición inicial de grupos y después intercambiar los miembros de esos clusters para obtener una partición mejor.
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
2.7.3 Análisis de k Medias (No Jerárquico) (SPSS).2.7.3 Análisis de k Medias (No Jerárquico) (SPSS).
RECOMENDACIONES:
a) Los datos deben ser cuantitativos.
b) Seleccione las variables estandarizadas.
c) Escoja el método Iterar y clasificar para obtener la máxima eficacia.
RECOMENDACIONES:
a) Los datos deben ser cuantitativos.
b) Seleccione las variables estandarizadas.
c) Escoja el método Iterar y clasificar para obtener la máxima eficacia.
3434
d) Elegir el número de conglomerados finales:d) Elegir el número de conglomerados finales:
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
Si no se conocen el número (k) de grupos realizar diferentes diagramas de dispersiónSi no se conocen el número (k) de grupos realizar diferentes diagramas de dispersión
3535
Centros iniciales de los conglomerados
,00238 2,03132 -,94096 -,24790
-1,25993 ,54797 1,29312 -,85493
-,19647 ,51473 ,84916 -2,18482
REGR factor score1 for analysis 3REGR factor score2 for analysis 3REGR factor score3 for analysis 3
1 2 3 4Conglomerado
Centros iniciales de los conglomerados
,00238 2,03132 -,94096 -,24790
-1,25993 ,54797 1,29312 -,85493
-,19647 ,51473 ,84916 -2,18482
REGR factor score1 for analysis 3REGR factor score2 for analysis 3REGR factor score3 for analysis 3
1 2 3 4Conglomerado
Centros de los conglomerados finales
-,29025 1,53397 -,79825 -,24790
-1,09801 ,44972 ,97445 -,85493
,41929 ,02320 ,10951 -2,18482
REGR factor score1 for analysis 3REGR factor score2 for analysis 3REGR factor score3 for analysis 3
1 2 3 4Conglomerado
Centros de los conglomerados finales
-,29025 1,53397 -,79825 -,24790
-1,09801 ,44972 ,97445 -,85493
,41929 ,02320 ,10951 -2,18482
REGR factor score1 for analysis 3REGR factor score2 for analysis 3REGR factor score3 for analysis 3
1 2 3 4Conglomerado
e) Resultados = Tabla de centros de conglomerados.
Determina las principales características de cada grupo (11).
e) Resultados = Tabla de centros de conglomerados.
Determina las principales características de cada grupo (11).
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
(11)(11)
3636
f) Resultados = Número de casos que tienen cada cluster.f) Resultados = Número de casos que tienen cada cluster.
Número de casos en cada conglomerado
4,0003,0004,0001,000
12,0003,000
1234
Conglomerado
VálidosPerdidos
Número de casos en cada conglomerado
4,0003,0004,0001,000
12,0003,000
1234
Conglomerado
VálidosPerdidos
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
La tabla que nos informa sobre el número de casosasignados a cada cluster o grupo (12).
Es habitual que algunos grupos contengan pocos casos e incluso un solo individuo (casos atípicos).
La tabla que nos informa sobre el número de casosasignados a cada cluster o grupo (1212).
Es habitual que algunos grupos contengan pocos casos e incluso un solo individuo (casos atípicos).
(12)(12)
3737
g) Guardar la información del conglomerado de pertenencia:g) Guardar la información del conglomerado de pertenencia:
1) El procedimiento de ANÁLISIS DE K MEDIAS siempre mide la distancia euclídea entre los casos.
1) El procedimiento de ANÁLISIS DE K MEDIAS siempre mide la distancia euclídea entre los casos.
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
Se almacena como nuevas variables en el fichero de datos (*.sav).
Dichas variables son:
El Conglomerado de pertenencia. Esta nueva variable indica el conglomerado final.
La Distancia desde centro del conglomerado. Esta nueva variable indica la distancia euclídea1
entre cada caso y su centro de clasificación.
Se almacena como nuevas variables en el fichero de datos (*.sav).
Dichas variables son:
El Conglomerado de pertenencia. Esta nueva variable indica el conglomerado final.
La Distancia desde centro del conglomerado. Esta nueva variable indica la distancia euclídea1
entre cada caso y su centro de clasificación.
3838
OBJETIVO:• Elaborar una clasificación y caracterizar el espacio socioeconómico
europeo en base unos indicadores.• Valorar la intensidad de las problemas regionales (la mayoría de los
estudios son realizados bajo una visión unidimensional de los indicadores).
Los indicadores considerados son: • tasa de actividad total (TACTO), • tasa de actividad de las mujeres (TMU), • relación entre activos e inactivos (GRD), • tasa de desempleo total (TDT), • tasa de desempleo para las mujeres (TDM) y
para los hombres (TDV),• ocupación en agricultura (OAGR), • ocupación en industria (OIND), • ocupación en servicios (OSER), y • PIB por habitante (PIB/H P).
OBJETIVOOBJETIVO::•• Elaborar una clasificaciElaborar una clasificacióón y caracterizar el espacio socioeconn y caracterizar el espacio socioeconóómico mico
europeo en base unos indicadores.europeo en base unos indicadores.•• Valorar la intensidad de las problemas regionales (la mayorValorar la intensidad de las problemas regionales (la mayoríía de los a de los
estudios son realizados bajo una visiestudios son realizados bajo una visióón n unidimensionalunidimensional de los de los indicadores).indicadores).
Los Los indicadoresindicadores considerados son: considerados son: •• tasa de actividad total (TACTO), tasa de actividad total (TACTO), •• tasa de actividad de las mujeres (TMU), tasa de actividad de las mujeres (TMU), •• relacirelacióón entre activos e inactivos (GRD), n entre activos e inactivos (GRD), •• tasa de desempleo total (TDT), tasa de desempleo total (TDT), •• tasa de desempleo para las mujeres (TDM) ytasa de desempleo para las mujeres (TDM) y
para los hombres (TDV),para los hombres (TDV),•• ocupaciocupacióón en agricultura (OAGR), n en agricultura (OAGR), •• ocupaciocupacióón en industria (OIND), n en industria (OIND), •• ocupaciocupacióón en servicios (OSER), y n en servicios (OSER), y •• PIB por habitante (PIB/H P). PIB por habitante (PIB/H P).
DEFINICIÓN DE UNA TIPOLOGÍA DE REGIONES EUROPEASDEFINICIDEFINICIÓÓN DE UNA TIPOLOGN DE UNA TIPOLOGÍÍA DE REGIONES EUROPEASA DE REGIONES EUROPEAS
¡¡MUCHAS VARIABLES!!¡¡MUCHAS
VARIABLES!!
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
Una herramienta muy útil: en Geografía Regional:Una herramienta muy útil: en Geografía Regional:
3939
METODOLOGÍA:
• El método más adecuado para detectar proximidades y diferencias en bienestar entre regiones europeas: analizar simultáneamente un conjunto de indicadores demográficos, de mercado de trabajo y PIB por habitante.
• Mediate el Análisis Cluster: se parte del conjunto de datos coninformación relevante de esos indicadores regionales e intentan reorganizarlos en grupos homogéneos.
Las variables finalmente incorporadas en el modelo, ordenadas de mayor a menor contribución a la discriminación entre los seis grupos:
• 1. Tasa de desempleo de las mujeres.• 2. PIB/habitante en paridad de poder de compra.• 3. Ocupación agraria.• 4. Grado de dependencia.• 5. Ocupación industrial.
METODOLOGMETODOLOGÍÍAA::
•• El mEl méétodo mtodo máás s adecuado para detectar para detectar proximidades proximidades yy diferenciasdiferencias en en bienestar entre regiones europeas: analizar bienestar entre regiones europeas: analizar simultáneamente un un conjunto de indicadores demogrconjunto de indicadores demográáficos, de mercado de trabajo y PIB por ficos, de mercado de trabajo y PIB por habitante.habitante.
•• Mediate el Mediate el Análisis Cluster: se parte del conjunto de datos con: se parte del conjunto de datos coninformación relevante de esos indicadores regionales e intentan de esos indicadores regionales e intentan reorganizarlos en grupos homogreorganizarlos en grupos homogééneos.neos.
Las variables Las variables finalmente incorporadas en el incorporadas en el modelo, ordenadas de mayor a , ordenadas de mayor a menor contribucimenor contribucióón a la discriminacin a la discriminacióón entre los seis grupos:n entre los seis grupos:
•• 1. Tasa de desempleo de las mujeres.1. Tasa de desempleo de las mujeres.•• 2. PIB/habitante en paridad de poder de compra.2. PIB/habitante en paridad de poder de compra.•• 3. Ocupaci3. Ocupacióón agraria.n agraria.•• 4. Grado de dependencia.4. Grado de dependencia.•• 5. Ocupaci5. Ocupacióón industrial.n industrial.
UNA TIPOLOGÍA DE REGIONES EUROPEAS...UNA TIPOLOGUNA TIPOLOGÍÍA DE REGIONES EUROPEAS...A DE REGIONES EUROPEAS...
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””
4040
CONCLUSIONES• FACTORES EXPLICATIVOS.
Alto poder diferenciador de las variables “tasa de desempleo de la mujer” y de “capacidad adquisitiva (PIB/habitante)” en la valoración (aportación) de las desigualdades regionales (factor 1º).
• INTERPRETACIÓN: este indicador presenta una alta capacidad discriminatoria entre espacios (regiones) comunitarios lo que parece poner de relieve.
Las variables “estructura de la producción” “grado de dependencia”(tasa de actividad) las que mejor explican las diferencias regionales en la Unión Europea (factor2ª).
• IDENTIFICACIÓN DE GRUPOS.Tales diferencias dan lugar a seis grupos de regiones, cuyas características más relevantes son:
• Grupo 1: regiones de desarrollo medio, con importantes problemas en el mercado de trabajo. Son las regiones más desarrolladas de ...
• Grupo 2: ...
CONCLUSIONESCONCLUSIONES•• FACTORES EXPLICATIVOSFACTORES EXPLICATIVOS..
Alto Alto poder diferenciador de las variables de las variables ““tasa de desempleo de la tasa de desempleo de la mujermujer”” y de y de ““capacidad adquisitiva (PIB/habitante)capacidad adquisitiva (PIB/habitante)”” en la en la valoracivaloracióón (n (aportaciaportacióónn) de las desigualdades regionales (factor 1) de las desigualdades regionales (factor 1ºº).).
•• INTERPRETACIINTERPRETACIÓÓN: este indicador presenta una alta capacidad N: este indicador presenta una alta capacidad discriminatoria entre espacios (regiones) comunitarios lo que padiscriminatoria entre espacios (regiones) comunitarios lo que parece rece poner de relieve.poner de relieve.
Las variables Las variables ““estructura de la producciestructura de la produccióónn”” ““grado de dependenciagrado de dependencia””(tasa de actividad) (tasa de actividad) las que mejor explican las diferencias regionales en la Unien la Unióón Europea (factor2n Europea (factor2ªª). ).
•• IDENTIFICACIIDENTIFICACIÓÓN DE GRUPOS.N DE GRUPOS.Tales diferencias dan lugar a Tales diferencias dan lugar a seis grupos de regiones, cuyas , cuyas caractercaracteríísticas msticas máás relevantes son:s relevantes son:
•• Grupo 1: regiones de desarrollo medio, con importantes problemasGrupo 1: regiones de desarrollo medio, con importantes problemas en en el mercado de trabajo. Son las regiones mel mercado de trabajo. Son las regiones máás desarrolladas de ... s desarrolladas de ...
•• Grupo 2: ...Grupo 2: ...
UNA TIPOLOGÍA DE REGIONES EUROPEAS...UNA TIPOLOGUNA TIPOLOGÍÍA DE REGIONES EUROPEAS...A DE REGIONES EUROPEAS...
Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Módulo I “MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL”Máster en Ordenación y Gestión del Desarrollo Territorial y LocalMáster en Ordenación y Gestión del Desarrollo Territorial y Local
CURSO “TÉCNICAS MULTIVARIANTES”CURSO CURSO ““TTÉÉCNICAS MULTIVARIANTESCNICAS MULTIVARIANTES””