Clase 5 – Análisis exploratorio de datos espaciales (Indicadores)
Marcos W. D. de Freitas{[email protected]}
-‐CursodeAnálisisdeDatosEspaciales
Análisis Exploratorio de Datos Espaciales
• Objetivo: búsqueda de pautas en la distribución espacial de polígonos o puntos con variables cuantitativas (numéricas)
• Responder cuestiones acerca de los datos y su distribución espacial:
• Cuestión inicial:
Como se distribuí una variable de interese en el espacio? – Uso de mapas coropléticos
• Cuestiones estadísticas:• Cual es la distribución de mi variable de estudio? – Uso de
histograma• Cuales son las estadísticas básicas de esa variable (mínimo,
máximo, promedio, desviación estándar,…)? – Uso de Diagrama de Cajas
• Cual es el grado de correlación de esa variable con otra variable? – Uso de Diagrama de dispersión
Análisis Exploratorio de Datos Espaciales
• Cuestiones de estadística espacial:• De forma general, mis datos presentan estructuras de
dependencia espacial? O sea, hay agrupamientos (regímenes espaciales, hot-spots, cold-spots) o mis datos presentan una pauta de distribución aleatoria?• Uso de Indicadores Globales de Asociación Espacial
(Moran’s I e otros)
• Se existe, entonces de forma general, dependencia espacial en mis datos, cuales son los objetos (segmentos censales, barrios, departamentos, unidades de suelos,…) que pueden ser considerados como hot-spots o cold-spots de forma significante?• Indicadores Locales de Asociación Espacial (LISA Maps)
Técnicas de Análisis Exploratorio
• Indicadores Globales de Autocorrelación– suposición: estacionariedad (función de la “distancia”).– Ej: índice de Moran (Moran’s I), variograma,
correlograma
• Indicadores Locales de Asociación Espacial– Resaltan las situaciones atípicas (“outliers” ). – Ej: Mapa de LISA
Matriz de Proximidad Espacial
• Contenido– Matriz (n x n) W , cuyos
elementos wij representan una medida de proximidad entre Oi e Oj
• Criterios:-wij =1, se Oi toca Oj
wij = 1, se dist(Oi, Oj) < h
wij = lij/li, donde lij es el tamaño de la
frontera entre Oi e Oj e li es el
perímetro de Oi
AB
C
DE
A B C D E
A 0 1 0 1 0
B 1 0 1 1 1
C 0 1 0 0 1
D 1 1 0 0 1
E 0 1 1 1 0
6
A B C
D E F
Row-standardized matrices de proximidad
espacial
A B C D E FRow Sum
A 0 1 0 1 0 0 2B 1 0 1 0 1 0 3C 0 1 0 0 0 1 2D 1 0 0 0 1 0 2E 0 1 0 1 0 1 3F 0 0 1 0 1 0 2
Número total de vecinos--unos tienen más que otros
A B C D E FRow Sum
A 0.0 0.5 0.0 0.5 0.0 0.0 1B 0.3 0.0 0.3 0.0 0.3 0.0 1C 0.0 0.5 0.0 0.0 0.0 0.5 1D 0.5 0.0 0.0 0.0 0.5 0.0 1E 0.0 0.3 0.0 0.3 0.0 0.3 1F 0.0 0.0 0.5 0.0 0.5 0.0 1
Row standardized--normalmente utilizado
Divide cada número por la suma de líneas
Matriz de Proximidad EspacialCreando pesos espaciales en GeoDa
• Cuatro tipos de vecindad:
• Vecindad: Queen y Rook
• Distancia euclidiana
• K-Nearest Neighbors (vecinos más próximos)
Matriz de Proximidad EspacialRook Contiguity
• Vecindad “rook”: incluye todos los polígonos que dividen una frontera (arco) con el polígono que se quiere definir los pesos de vecindad
Matriz de Proximidad EspacialQueen Contiguity
• Vecindad “queen”: incluye todos los polígonos que tocan el polígono que se quiere definir los pesos de vecindad
Matriz de Proximidad EspacialQueen x Rook Contiguity
• Vecindad “queen” x “rook”
rook queen
Mensurando Contigüidad: Debemos incluir la contigüidad de segunda orden?
rook queen
1ªorden
2ª
orden
Secundo vecino
más próximo
Vecino próximo
Matriz de Proximidad EspacialDistancia Euclidiana
• Considera como vecinos, todos los polígonos con centróides con distancia menor quela distancia máxima definida por el usuario
Matriz de Proximidad EspacialVecinos más próximos
• K-nearest neighbors: Considera como vecinos el número de vecinos más próximos definidos por el usuario.
• ]
wij = 1, se dist(Oi, Oj) < h
wij = lij/li, donde lij es el tamaño de la frontera entre Oi e Oj e li es el perímetro de Oi
Indicadores Globales de Autocorrelación Espacial
• Objetivo: Explorar la dependencia espacial
• Autocorrelación espacial.– Mide cuanto el valor observado de un atributo en
una región es independiente de los valores de la misma variable en las localizaciones vecinas.
• Indicadores Globales– Moran, Geary
• Indicadores Locales– Local Moran, Local Geary
• forma genérica:
Forma genérica de los índices
onde:
ijw : medida de proximidad entre objetos i e j
ija :expresión que representa la asociaciónentre los atributos del objeto i con los demás objetos de su vecindad.
n
jijiji aw w aij ij
j
n
i
nlocal global
xxxxji z zi j
Moran (covariancia)
2ji
xx 2ji zz Geary (variancia)
jij
xxoux z ou z zj i j
G ou G* (promédio móbil)
n
jijiji aw w aij ij
j
n
i
n
Forma genérica de los índices
Cuando aij es de forma:
Indice Global de Moran
donde:
– n corresponde al número de áreas,
– yi es el valor del atributo considerado en la área i,
– representa el valor promedio del atributo en la región de estudio,
– wij son los pesos atribuidos conforme la conexión entre las áreas i e j.
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
y
• Cual es el significado del índice global de Moran ( I ) ?
• Como interpretar la ecuación arriba ?
• Cual es su significancia o validad estadística ? Como evaluar ?
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
Indice Global de Moran
• Es análogo al coeficiente de correlación convencional, porque tiene en su numerador un termo que es producto del momento.
• Como un coeficiente de correlación, los valores de I también varían de -1 a +1, cuantificando el grado de autocorrelación espacial existente.
-1 autocorrelación espacial negativa o inversa. 0 significa aleatoriedad +1 significa autocorrelación espacial positiva o directa.
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
Indice Global de Moran
• Consideremos el ejemplo que sigue:
5,5 0
4
1 651 62 41 61 51 62 0 22222
2
n
yyVa riâ n cia
n
ii
1
164
5241520
yMédia
1063,75,502 PadrãoDesvio
A B
C D524
1520
A B C D
A 0 1 1 0
B 1 0 1 1
C 1 1 0 1
D 0 1 1 0
Matriz de Proximidad
Indice Global de Moran
• La ecuación de I puede ser simplificada [N(=0 e =1)] e alteramos W, de forma que la suma de los elementos de cada línea sea igual a 1.
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
n
ii
n
i
n
jjiij
z
zzw
I
1
1 1
2
yyz i
i
A B C D
A 0 1 1 0
B 1 0 1 1
C 1 1 0 1
D 0 1 1 0
A B C D
A 0 1/2 1/2 0
B 1/3 0 1/3 1/3
C 1/3 1/3 0 1/3
D 0 1/2 1/2 0
Indice Global de Moran
n
ii
n
i
n
jjiij
z
zzw
I
1
1 1
2
A B C D
A 0 1/2 1/2 0
B 1/3 0 1/3 1/3
C 1/3 1/3 0 1/3
D 0 1/2 1/2 0
A B
C D524
1520
yyz i
i
zA = 0,5628
zC = 1,1257
zD = -1,5479
zB = -0,1407
1063,7
0,16
y
08712,01088,000,0
5808,000527,02111,0
0725,00527,000264,0
03167,00396,00
3959,27424,12177,08711,0
7424,12672,11583,06335,0
2177,01583,00197,00792,0
8711,06335,00792,03167,0
*
02
1
2
10
3
10
3
1
3
13
1
3
10
3
1
02
1
2
10
9143,01 11 1
n
i
n
jij
n
i
n
jjiij Mzzw 4
1
2
n
iiz 288,0
4
9143,0
I
wij zi zj Mij* =
Indice Global de Moran
Significancia del Índice de Moran
Evaluación de la significancia del índice de Moran (I).
Para estimar la significancia de I, será preciso asociar a ese una distribución estadística, para tanto, dos abordajes son posibles:
• Teste de pseudo-significancia (experimento aleatorio).
• Distribución aproximada (hipótesis de normalidad).
• La validad estadística del índice de Moran (I) en el teste de pseudo-significancia.
• Se el índice I efectivamente medido corresponder a un “extremo” de la distribución simulada, entonces trata-se de evento con significancia estadística.
Distribuiçãosimulada
extr
emo
extr
emo
Indice Global de Moran
I de Moran: Validade Estatística
• Para un número suficiente de sub-regiones el índice I tiene una distribución de muestral que es aproximadamente normal, dada por:
donde: n = número de regiones,
)1(
1)(
nIE
22
221
22
)1)(1(
2)1()1(
o
o
Snn
SSnnSnn
jiparawS ijo jiparawwS ijij 2
1
jiparawwS ijij 2
2 0
Normal Padrão
1,96-1,96
95%
)(IEI
IN
Índice Moran Normalizado
Aleatorio o Agrupado?% de Ascendencia Asiática
Moran’s I = 0.002% de Universitarios Moran’s I = 0.92
QueenMoran’s I = 0.92
RookMoran’s I = 0.92
Distancia (2000m)Moran’s I = 0.81
K-NearestMoran’s I = 0.91
Indicadores Locales de Asociación Espacial (LISA)
• Como hemos visto, el estimador de autocorrelación espacial, Moran (I), fornece un valor único como medida da asociación espacial.
• Por otro lado, muchas veces es necesario examinar pautas en una escala más detallada.
• En ese caso, es necesario utilizar indicadores locales de asociación espacial que puedan ser asociados a diferentes localizaciones de una variable distribuida espacialmente.
• La utilización de eses indicadores en conjunto con los indicadores globales, refinan nuestro conocimiento acerca los procesos que originan la dependencia espacial.
• Índices locales (LISA):– Permiten evaluar diferentes regímenes
espaciales existentes en la área de estudio.– Miden la asociación espacial entre una
observación i y su vecindad.– Requisitos (Anselin)
• La suma de los índices locales debe ser proporcional al índice global.
• Indicar la significancia de la asociación espacial para cada observación.
Indicadores Locales de Asociación Espacial (LISA)
• Los indicadores locales de asociación espacial, producen un valor específico para cada objeto.
• Eso permite la identificación de:– “Clusters”: objetos con valores de atributos semejantes,– “Outliers”: objetos anómalos,– La presencia de más de un régimen espacial.
• Hay que atender a dos objetivos:
– Permitir la identificación de pautas de asociación
espacial significativos;
– Ser una descomposición del índice global de asociación
espacial.
Indicadores Locales de Asociación Espacial (LISA)
Diagrama de Dispersión de Moran
Ese diagrama relata espacialmente el relacionamiento entre los valores del vector de desviaciones Z ( ) y los valores de los promedios locales WZ, indicando diferentes regímenes espaciales presentes en los datos.
zzi
I é equivalente a tg 0
0 z
WZ
Reta de regressão de WZ em Z
Q3Q3Q2Q2
Q1Q1Q4Q4
ZZ
WZZI
t
t
Nesta formulação, I equivale aocoeficiente de regressão linear, ou
seja a inclinação da reta de regressão.
0
0 z
WZ
Q3Q3Q2Q2
Q1Q1Q4Q4
Q1 (val. [+], prom. [+]) y Q2 (val. [-], prom. [-])
Indican puntos de asociación espacial positiva, en sentido que una localización posee vecinos con valores semejantes.
Q3 (val. [+], prom. [-]) e Q4 (val. [-], prom. [+])
Indican puntos de asociación espacial negativa, en sentido que una localización posee vecinos con valores distintos.
Nota:- los puntos localizados en Q3 y Q4 pueden ser vistos como extremos, tanto por estar lejos de la reta de regres- sión lineal como por indicar regiones que no siguen el mis-mo proceso de dependencia espacial de las otras observa-cioness. Eses puntos marcan regiones de transición entre regímenes espaciales distintos.
Diagrama de Dispersión de Moran
El Diagrama de Dispersión de Moran puede ser presentado en forma de un mapa coroplético bidimensional, en el cual cada polígono es presentado indicando su cuadrante en el diagrama de dispersión.
0
0 z
WZ
Q3 = HLQ3 = HLQ2= LLQ2= LL
Q1= HHQ1= HHQ4 = LHQ4 = LH
São Paulo
Atributo consideradopercentagem de idosos
Indicadores Locales de Asociación Espacial (LISA Maps)
Índice local de Moran• Formulação:
I Iii
n
I
w z z
z
n
i
ij i jj
n
jj
n
1
2
1
Iz wz
mii i
2
II
n
ii
n
• Indicadores locales Ii de Moran (Anselin, 1996)
• Indicadores locales Gi e Gi * (Getis e Ord, 1992)
• O indicador local de Moran Ii es así definido: Ii > 0 “clusters” de valores similares (altos o bajos).
Ii < 0 “clusters” de valores distintos (Ex: una localización
con valores altos rodeada por una vecindad de
valores bajos).
• Normalizando las variables el indicadores reducido a:
n
yy
yywyy
I n
ii
n
jjiji
i
1
1
2
n
jjijii zwzI
1
Indicadores Locales de Asociación Espacial (LISA Maps)
• De forma similar a los indicadores globales, la significancia del índice local de Moran (Ii) debe ser evaluado, utilizando hipótesis de normalidad o simulación de distribución por permutación aleatoria en los valores de los atributos (Anselin, 1995).
• Una vez determinada la significancia estadística de Moran (Ii) es muy útil generar un mapa indicando las regiones que presentan correlación local significativamente diferente del restante de los datos.
• Ese mapa es denominado por Anselin (1995) de “LISA MAP”.
• En la generación del LISA MAP, los índices locales Ii son clasificados como:
– no significantes
– con significancia de 95% (1,96), 99% (2,54) e 99,9% (3,2).
Indicadores Locales de Asociación Espacial (LISA Maps)
• Los indicadores locales Gi e Gi * (Getis e Ord, 1992):
donde:– wij valor en la matriz de proximidad para región i con la región j en
función de la distancia.– xi e xj son los valores de los atributos considerados en las áreas i e j.
– d es distancia entre puntos
– n el número de áreas (polígonos)
• OBS.: la estadística Gi, incluí en el numerador la suma de todos los valores de todos vecinos dentro de una distância d del punto considerado. Gi
* difiere de Gi por incluir la localización visitada.
ij
x
xdw
dG n
ij
n
jiij
i
,)(
1
1
ij
x
xdw
dG n
ij
n
jiij
i
,)(*
1
1
Indicadores Locales de Asociación Espacial (LISA Maps)
• “Regiones” de exclusión/inclusión social em São Paulo
não signif.
95% sign.
99% sign.
Indicadores Locales de Asociación Espacial (LISA Maps)
• “Regiones” de exclusión/inclusión educacional en Montevideo?
Indicadores Locales de Asociación Espacial (Moran’s I
LISA Maps)
• “Regiones” de exclusión/inclusión educacional en Montevideo?
Indicadores Locales de Asociación Espacial (G Local I
LISA Maps)
Top Related