Analisis de Cluster

4
El Análisis multivariado es un conjunto de técnicas y métodos estadísticos y matematicos para analizar simultáneamente la relación existente entre variables correlacionadas. (1). Los tipos de estudios se clasifican según el tipo de variable a analizar. Según el Objetivo del estudio existen métodos de reducción en los que se encuentran: el análisis de componentes principales, el análisis factorial, correspondencia, escalamiento optimo, homogeneidad, análisis de conjunto, en el que se crean variables ficticias que describen la información real. Si el objetivo es la agrupación se utiliza análisis de cluster, análisis discriminante, arboles de decisiones. Si el objetivo es la relación o predicción se utiliza la regresión lineal o no lineal, regresión logística, análisis de varianza simple y múltiple, análisis de series temporales. Y cuando se requiere de establecer la dependencia de variables independientes, se cuenta con los métodos de interdependencia como las técnicas multivariadas descriptivas y analíticas (2) (3). La clasificación descrita por Uriel y Aldás 2005 en el artículo de referencia es la mas apropiada para enlazar el objetivo del presente trabajo con el tipo de análisis a utilizar. Se dividen en dos grupos: Las técnicas explicativas o de dependencia y técnicas descriptivas o de interdependencia con el fin de evidenciar la relación entre las variables o grupos de variables, según su clasificación de variables dependientes o independientes (1). En las técnicas explicativas o de dependencia se requiere demostrar si el conjunto de variables independientes afecta a las dependientes y de qué forma. Para encontrar el tipo de estudio se debe definir el número de relaciones. Si existen varias relaciones se utilizan ecuaciones estructurales, si existe una relación se debe determinar el número de variables dependientes y si son métricas o no métricas. En el caso en que se presente más de una variable dependiente no métrica se utilizan la correlación canónica. En las métricas se utilizan: Manova o la correlación canónica. Ecuaciones estructurales Ecuaciones que se emplean en el análisis de varias relaciones. El objeto es el estudio del conjunto de las relaciones que anteceden representadas por sistemas de ecuaciones simultaneas, se mide el error a partir de otras variables observables. conformado por el análisis factorial confirmatorio y los modelos de estructuras de covarianza.

description

revisión de análisis clùster

Transcript of Analisis de Cluster

Page 1: Analisis de Cluster

El Análisis multivariado es un conjunto de técnicas y métodos estadísticos y matematicos para analizar simultáneamente la relación existente entre variables correlacionadas. (1).

Los tipos de estudios se clasifican según el tipo de variable a analizar. Según el Objetivo del estudio existen métodos de reducción en los que se encuentran: el análisis de componentes principales, el análisis factorial, correspondencia, escalamiento optimo, homogeneidad, análisis de conjunto, en el que se crean variables ficticias que describen la información real. Si el objetivo es la agrupación se utiliza análisis de cluster, análisis discriminante, arboles de decisiones. Si el objetivo es la relación o predicción se utiliza la regresión lineal o no lineal, regresión logística, análisis de varianza simple y múltiple, análisis de series temporales. Y cuando se requiere de establecer la dependencia de variables independientes, se cuenta con los métodos de interdependencia como las técnicas multivariadas descriptivas y analíticas (2) (3).

La clasificación descrita por Uriel y Aldás 2005 en el artículo de referencia es la mas apropiada para enlazar el objetivo del presente trabajo con el tipo de análisis a utilizar. Se dividen en dos grupos: Las técnicas explicativas o de dependencia y técnicas descriptivas o de interdependencia con el fin de evidenciar la relación entre las variables o grupos de variables, según su clasificación de variables dependientes o independientes (1).

En las técnicas explicativas o de dependencia se requiere demostrar si el conjunto de variables independientes afecta a las dependientes y de qué forma. Para encontrar el tipo de estudio se debe definir el número de relaciones. Si existen varias relaciones se utilizan ecuaciones estructurales, si existe una relación se debe determinar el número de variables dependientes y si son métricas o no métricas. En el caso en que se presente más de una variable dependiente no métrica se utilizan la correlación canónica. En las métricas se utilizan: Manova o la correlación canónica.

Ecuaciones estructurales

Ecuaciones que se emplean en el análisis de varias relaciones. El objeto es el estudio del conjunto de las relaciones que anteceden representadas por sistemas de ecuaciones simultaneas, se mide el error a partir de otras variables observables. conformado por el análisis factorial confirmatorio y los modelos de estructuras de covarianza.

Correlacion canonica

Manova

Analisis multivariante de la varianza.

Con solo una variable dependiente según si es no métrica se utiliza análisis discriminante o regresión de variable dependiente limitada, si es métrica es útil la regresión lineal múltiple. El tipo de análisis se determina por la definición del tipo de variable, si está en escala métrica o no métrica, el número de variables dependientes (1).

Análisis discriminante

Regresión de variable dependiente limitada

Regresión lineal multiple

Page 2: Analisis de Cluster

Las técnicas descriptivas o de interdependencia están determinadas por las variables independientes, para reconocer su correlación. Se requiere definir la relación que se busca: entre variables, entre casos o entre objetos. Si la relación se establece entre variables y se especifican como métricas, en este caso se utilizan análisis de correspondencias, si se define como métrica se utilizan los análisis de componentes principales y el análisis factorial. En la relación entre casos se requiere el análisis de conglomerados, tema clave en esta investigación. La relación entre objetos se analiza por escalonamiento multidimensional (1).

Análisis de correspondencias

Análisis de componenes principales

Análisis factorial

Escalonamiento multidimensional

Análisis de conglomerados

Tecnica estadística de clasificacion de datos, a partir de casos, situando los casos en grupos homogéneos, con diferencias entre grupos. Para esta clasificaiocn se requierer definir la distancia entre casos(asociación) logrando los grupos más homogéneos y diferentes entre grupos. La diferencia con el análisis factorial se establece en qué es lo que se agrupa: en el análisis factorial agrupa variables cuantitativas. En el análisis de cluster agrupa casos y determina si existerelacion causal o no entre los grupos y las variables (2).

Se requiere previamente establecer los grupos objetivamente en función de los datos. Se debe seleccionar las variables relevantes, la distancia entre individuos y los criterios de agrupación de acuerdo al objetivo del estudio.

La proximidad de los grupos se puede definir por la distancia y la similitud, en la similitud entre mayor el número más similares, los más utilizados son la correlación de Pearson y los coeficientes de Spearman y Kendall (2). En este caso se utilizara el método de algoritmo de las K-medias que tiene como punto de partida la varianza residual, este valor mínimo determina la configuración de nuevos grupos con sus medias, el proceso se repite hasta que la varianza no pueda disminuir, o se alcance el número de transferencias o que el valor sea menor que el fijado para la varianza. Este método de medición se utiliza para grupos no jerárquicos, característica de los datos de la investigación (2).

La determinación de grupos no solo depende del método de medición, sino de los objetivos del estudio, por lo que grupos muy específicos de pocos datos, y pequeños distorsionarían los resultados, por lo que se debe considerar inicialmente el número establecido de grupos.

Algoritmo de K-medias

Método iterativo de agrupación que determina la formación de grupos determinados por la distancia entre los individuos o conjunto de variables, con unos centros multivariantes de los conglomerados, que al analizar agrupa los datos a un closter de acuerdo con el centroide, actualizándose permanentemente en el cálculo del centroide. En el caso de no conocer el número de grupos se debe realizar el proceso en repetidas ocasiones hasta encontrar el número de grupos que de valor a la investigación (4). Cada individuo pertenece solo a un grupo, el objetivo final es tener grupos homogéneos en lo posible, para cumplir el criterio de optimalidad se debe minimizar la media ponderada de las varianza dentro de cada grupo para todas las variables (5). Los centroides se

Page 3: Analisis de Cluster

seleccionan al azar para evitar sesgos. Posterior se describen dos pasos del procedimiento. El paso de asignación en la que cada dato pasa a pertenecer a un cluster con su centroide mas próximo. Posteror en el paso de centralización se asigna nuevos centroides a cluster modificados. Se alcanza el punto de convergencias cuando al asignar no hay cambio se detiene el algoritmo. También se define un número finito de iteraciones. El resultado de las agrupaciones dependerá de los centroides iniciales, por lo que no se garantiza lograr la solución óptima (5).

Bibliografíax

1. Closas AH, Arriola EA, Kuc CI, Amarilla MR, Jovanovich EC. Análisis multivariante, conceptos y aplicaciones en Psicología Educativa y Psicometría. Enfoques. 2013; XXV(1).

2. López CP. Tecnicas de analisis Multivariante de Datos, aplicaciones con SPSS. 2nd ed. Capella I, editor. Madrid: Pearson Educación S.A.; 2004.

3. Cuadras CM. Nuevos métodos de análisis multivariante. Primera edición ed. Madrid: CMC Editions; 2014.

4. Varela Mallou J, Rial Boubeta A, Picón Prado. Analisis de Conglomerados. In Compostela UdSd. Analisis Multivariante. Santiago de Compostela; 2015.

5. Justel A. Tecnicas de analisis multivariantes para agrupación. [Online]. [cited 2015. Available from: www.uam.es/personal_pdi/ciencias/ajustel/docencia/ad/AD10_11_Cluster.pdf.

x