Post on 24-Apr-2015
El Colegio de la Frontera Norte Maestría en Desarrollo Regional (2010-2012)
Técnicas de Análisis Regional Tema II. Análisis Multivariado aplicado a la Economía Regional
Análisis Factorial
1
INTRODUCCIÓN
El análisis factorial es una técnica que nos permite identificar un número relativamente pequeño de
factores que pueden ser utilizados para representar la relación existente entre un conjunto de
variables intercorrelacionadas.
El modelo matemático que subyace a esta técnica, en donde aparece cada variable como una
combinación lineal de una serie de factores.
La técnica del análisis factorial:
ikikiii UFAFAFAX ++++= ...2211
donde,
F son los factores comunes a todas las variables,
U es el factor único referido a la parte de la variable i que no puede ser explicada por los
factores comunes,
Ai son los coeficientes de cada uno de los factores.
Los factores únicos se asume que están incorrelacionados con el resto de factores únicos y con los
factores comunes.
El análisis factorial nos puede permitir reflejar el conjunto de variables con el menor número de
factores posible y que a su vez éstos tengan una interpretación clara y un sentido preciso.
Aunque en la práctica el análisis factorial y el método de componentes principales se utilizan
indistintamente y dan resultados similares, en el análisis de componentes principales el objetivo
consiste en encontrar una serie de componentes que expliquen el máximo de varianza total de las
variables originales, sin embargo, el objetivo del análisis factorial es encontrar una serie de factores
que expliquen el máximo de varianza común de las variables originales.
El Colegio de la Frontera Norte Maestría en Desarrollo Regional (2010-2012)
Técnicas de Análisis Regional Tema II. Análisis Multivariado aplicado a la Economía Regional
Análisis Factorial
2
DESCRIPTIVOS Y MATRIZ DE CORRELACIONES
Para comprobar el grado de asociación de las variables se utilizan los métodos:
a) Determinante de la matriz de correlaciones. Si el determinante tiene a cero, entonces una o
más variables pueden ser expresadas como un combinación lineal de las otras.
b) Prueba de esfericidad de Barlett’s. Esta prueba se utiliza para verificar si la matriz de
correlaciones es una matriz identidad (I), es decir, existe ausencia de correlación significativa
entre las variables.
c) El índice Kaiser‐Meyer‐Olkin (KMO). Compara los coeficientes de correlación de Pearson con
los coeficientes de correlación parcial entre variables. Valores bajos del índice KMO
desaconsejan el uso de esta técnica.
KMO < 0.50 son considerados inaceptables o muy malos
0.50 < KMO ≤ 0.60 son considerados malos
0.60 < KMO ≤ 0.70 son considerados mediocres o regulares
0.70 < KMO ≤ 0.80 son considerados aceptables
0.80 < KMO ≤ 0.90 son considerados buenos
0.90 < KMO ≤ 1.00 son considerados excelentes
d) Correlación Anti‐imagen.‐ Es el negativo del coeficiente de correlación parcial entre dos
variables; deberá haber pocos coeficientes altos.
e) Medida de Adecuación de la Muestra (MSA).‐ Valores bajos de este índice desaconsejan
también el uso de esta técnica.
EXTRACCIÓN DE FACTORES
Componentes principales (PC)
El método de componentes principales consiste básicamente en llevar a cabo una combinación
lineal de todas las variables de modo que el primer componente principal sea una combinación que
explique la mayor proporción de varianza en la muestra, el segundo la segunda mayor y que a su vez
esté incorrelacionado con el primero, y así sucesivamente hasta tantos componentes como variables.
El Colegio de la Frontera Norte Maestría en Desarrollo Regional (2010-2012)
Técnicas de Análisis Regional Tema II. Análisis Multivariado aplicado a la Economía Regional
Análisis Factorial
3
Si utilizamos tantos componentes principales como variables, cada variable puede ser explicada
por ella misma y por toda la variabilidad de cada variable, que expresada en unidades de desviación
estandarizadas es igual a la unidad, explicada a su vez por los factores comunes.
Comunalidades
Estadísticos iniciales.‐ Total de varianza explicada.
Gráfica de sedimentación.‐ Número de factores y eigenvalores.
Matriz factorial.‐ Matriz de componentes.
Matriz de correlaciones reproducidas y residuales.‐ Correlaciones reproducidas.
La proporción de variabilidad de cada variable explicada por los factores del modelo es lo que
se conoce con el nombre de comunalidad de la variable. Su valor oscila entre 0 y 1 y la parte de
la varianza no explicada por el modelo factorial, esto es, 1‐comunalidad, es lo que se conoce
con el nombre de factor único o unicidad.
La diferencia entre los coeficientes de correlación estimados y los coeficientes de correlación
observados es lo que se conoce como residuales.
Formalización matemática de Componentes Principales
Cuando se tiene un conjunto de p variables, X1, X2, X3 ,…, Xp, que están interrelacionadas; es común
que se busque la reducción de variables. A través de éste método se permite la reconstrucción de las
variables originales, en base a combinaciones lineales llamadas Componentes Principales, que son de
tipo:
C1 = a11⋅X1 + a12⋅X2 + a13⋅X3 + … + a1p⋅Xp
C2 = a21⋅X1 + a22⋅X2 + a23⋅X3 + … + a2p⋅Xp
C3 = a31⋅X1 + a32⋅X2 + a33⋅X3 + … + a3p⋅Xp
: : : : :
Cp = ap1⋅X1 + ap2⋅X2 + ap3⋅X3 + … + app⋅Xp
Los componentes principales son no correlacionados entre si (ortogonales), y cada uno tiene su
correspondiente varianza.
El Colegio de la Frontera Norte Maestría en Desarrollo Regional (2010-2012)
Técnicas de Análisis Regional Tema II. Análisis Multivariado aplicado a la Economía Regional
Análisis Factorial
4
La solución para determinar la matriz de coeficientes se obtiene de la siguiente manera: Sea A
una matriz cuadrada simétrica, λ es un vector de las varianzas de los componentes y u la matriz de
coeficientes, entonces tenemos que:
uA = uλ
igualando a cero: uA ‐ uλ = 0
factorizando: (A ‐ λI)u = 0
esto nos lleva a: ⏐A ‐ λI⏐ = 0 (ecuación característica),
de la cual se obtiene la solución del vector de raíces características λ (eigenvalores) y de la
matriz de vectores característicos u (eigenvectores); obtenidos a partir de la matriz A.
Para resolver la ecuación característica para un conjunto de p variables interrelacionadas, se puede
usar la matriz de varianzas y covarianzas Σ; que es una matriz cuadrada simétrica, en donde la diagonal
principal son las varianzas obtenidas para las p variables, y fuera de la diagonal están las covarianzas de
cada par de variables. Esta matriz se representa por:
Σ =
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
σ σ σ σσ σ σ σσ σ σ σ
σ σ σ σ
12
12 13 1
21 22
23 2
31 32 32
3
1 2 32
..
..
..: : : . :
..
p
p
p
p p p p
Otra opción para la solución a la ecuación característica se puede obtener a partir de la matriz
de correlaciones ρ, que es a la matriz de varianzas y covarianzas para las p variables estandarizadas.
Esta también es una matriz cuadrada, donde la diagonal principal son las varianzas (todas iguales a
uno) y fuera de la diagonal son las correlaciones de cada par de variables. Esta matriz se representa
por:
El Colegio de la Frontera Norte Maestría en Desarrollo Regional (2010-2012)
Técnicas de Análisis Regional Tema II. Análisis Multivariado aplicado a la Economía Regional
Análisis Factorial
5
ρ
ρ ρ ρρ ρ ρρ ρ ρ
ρ ρ ρ
=
⎡
⎣
⎢⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥⎥
11
1
1
12 13 1
21 23 2
31 32 3
1 2 3
..
..
..: : : . :
..
p
p
p
p p p
ROTACIÓN
La finalidad de la rotación es ayudar a interpretar. Existen varios procedimientos ortogonales:
VARIMAX, EQUAMEX y QUARTIMAX, no oblicuos o no ortogonales: PROMAX y DIRECT OBLIMIN. De los
procedimientos ortogonales, el más utilizado es el VARIMAX, y trata de minimizar el número de
variables que hay con pesos o saturaciones elevadas en cada factor. Todos ellos tratan de obtener una
matriz factorial que se aproxime al principio de estructura simple.
Matriz de pesos factoriales rotada.‐ Matriz de componentes rotada.
Gráfica tridimensional de la solución rotada VARIMAX y componentes principales. Los valores
de cada variable en las coordenadas corresponden a los pesos factoriales de las mismas en los
ejes de cada factor.
PUNTUACIONES FACTORIALES
Matriz de coeficientes de puntuaciones factoriales.
Las puntuaciones factoriales tendrán media 0 y desviación estándar que en componentes
principales será igual a la unidad en todos los casos.