Clase 5 – Análisis exploratorio de datos espaciales (Indicadores) Marcos W. D. de Freitas...

Post on 25-Jan-2016

226 views 0 download

Transcript of Clase 5 – Análisis exploratorio de datos espaciales (Indicadores) Marcos W. D. de Freitas...

Clase 5 – Análisis exploratorio de datos espaciales (Indicadores)

Marcos W. D. de Freitas{marcoswfreitas@gmail.com}

-­‐­­Curso­de­Análisis­de­Datos­Espaciales

Análisis Exploratorio de Datos Espaciales

• Objetivo: búsqueda de pautas en la distribución espacial de polígonos o puntos con variables cuantitativas (numéricas)

• Responder cuestiones acerca de los datos y su distribución espacial:

• Cuestión inicial:

Como se distribuí una variable de interese en el espacio? – Uso de mapas coropléticos

• Cuestiones estadísticas:• Cual es la distribución de mi variable de estudio? – Uso de

histograma• Cuales son las estadísticas básicas de esa variable (mínimo,

máximo, promedio, desviación estándar,…)? – Uso de Diagrama de Cajas

• Cual es el grado de correlación de esa variable con otra variable? – Uso de Diagrama de dispersión

Análisis Exploratorio de Datos Espaciales

• Cuestiones de estadística espacial:• De forma general, mis datos presentan estructuras de

dependencia espacial? O sea, hay agrupamientos (regímenes espaciales, hot-spots, cold-spots) o mis datos presentan una pauta de distribución aleatoria?• Uso de Indicadores Globales de Asociación Espacial

(Moran’s I e otros)

• Se existe, entonces de forma general, dependencia espacial en mis datos, cuales son los objetos (segmentos censales, barrios, departamentos, unidades de suelos,…) que pueden ser considerados como hot-spots o cold-spots de forma significante?• Indicadores Locales de Asociación Espacial (LISA Maps)

Técnicas de Análisis Exploratorio

• Indicadores Globales de Autocorrelación– suposición: estacionariedad (función de la “distancia”).– Ej: índice de Moran (Moran’s I), variograma,

correlograma

• Indicadores Locales de Asociación Espacial– Resaltan las situaciones atípicas (“outliers” ). – Ej: Mapa de LISA

Matriz de Proximidad Espacial

• Contenido– Matriz (n x n) W , cuyos

elementos wij representan una medida de proximidad entre Oi e Oj

• Criterios:-wij =1, se Oi toca Oj

wij = 1, se dist(Oi, Oj) < h

wij = lij/li, donde lij es el tamaño de la

frontera entre Oi e Oj e li es el

perímetro de Oi

AB

C

DE

A B C D E

A 0 1 0 1 0

B 1 0 1 1 1

C 0 1 0 0 1

D 1 1 0 0 1

E 0 1 1 1 0

6

A B C

D E F

Row-standardized matrices de proximidad

espacial

­ A B C D E FRow Sum

A 0 1 0 1 0 0 2B 1 0 1 0 1 0 3C 0 1 0 0 0 1 2D 1 0 0 0 1 0 2E 0 1 0 1 0 1 3F 0 0 1 0 1 0 2

Número total de vecinos--unos tienen más que otros

­ A B C D E FRow Sum

A 0.0 0.5 0.0 0.5 0.0 0.0 1B 0.3 0.0 0.3 0.0 0.3 0.0 1C 0.0 0.5 0.0 0.0 0.0 0.5 1D 0.5 0.0 0.0 0.0 0.5 0.0 1E 0.0 0.3 0.0 0.3 0.0 0.3 1F 0.0 0.0 0.5 0.0 0.5 0.0 1

Row standardized--normalmente utilizado

Divide cada número por la suma de líneas

Matriz de Proximidad EspacialCreando pesos espaciales en GeoDa

• Cuatro tipos de vecindad:

• Vecindad: Queen y Rook

• Distancia euclidiana

• K-Nearest Neighbors (vecinos más próximos)

Matriz de Proximidad EspacialRook Contiguity

• Vecindad “rook”: incluye todos los polígonos que dividen una frontera (arco) con el polígono que se quiere definir los pesos de vecindad

Matriz de Proximidad EspacialQueen Contiguity

• Vecindad “queen”: incluye todos los polígonos que tocan el polígono que se quiere definir los pesos de vecindad

Matriz de Proximidad EspacialQueen x Rook Contiguity

• Vecindad “queen” x “rook”

rook queen

Mensurando Contigüidad: Debemos incluir la contigüidad de segunda orden?

rook queen

1ªorden

orden

Secundo vecino

más próximo

Vecino próximo

Matriz de Proximidad EspacialDistancia Euclidiana

• Considera como vecinos, todos los polígonos con centróides con distancia menor quela distancia máxima definida por el usuario

Matriz de Proximidad EspacialVecinos más próximos

• K-nearest neighbors: Considera como vecinos el número de vecinos más próximos definidos por el usuario.

• ]

wij = 1, se dist(Oi, Oj) < h

wij = lij/li, donde lij es el tamaño de la frontera entre Oi e Oj e li es el perímetro de Oi

Indicadores Globales de Autocorrelación Espacial

• Objetivo: Explorar la dependencia espacial

• Autocorrelación espacial.– Mide cuanto el valor observado de un atributo en

una región es independiente de los valores de la misma variable en las localizaciones vecinas.

• Indicadores Globales– Moran, Geary

• Indicadores Locales– Local Moran, Local Geary

• forma genérica:

Forma genérica de los índices

onde:

ijw : medida de proximidad entre objetos i e j

ija :expresión que representa la asociaciónentre los atributos del objeto i con los demás objetos de su vecindad.

n

jijiji aw w aij ij

j

n

i

nlocal global

xxxxji z zi j

Moran (covariancia)

2ji

xx 2ji zz Geary (variancia)

jij

xxoux z ou z zj i j

G ou G* (promédio móbil)

n

jijiji aw w aij ij

j

n

i

n

Forma genérica de los índices

Cuando aij es de forma:

Indice Global de Moran

donde:

– n corresponde al número de áreas,

– yi es el valor del atributo considerado en la área i,

– representa el valor promedio del atributo en la región de estudio,

– wij son los pesos atribuidos conforme la conexión entre las áreas i e j.

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

y

• Cual es el significado del índice global de Moran ( I ) ?

• Como interpretar la ecuación arriba ?

• Cual es su significancia o validad estadística ? Como evaluar ?

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

Indice Global de Moran

• Es análogo al coeficiente de correlación convencional, porque tiene en su numerador un termo que es producto del momento.

• Como un coeficiente de correlación, los valores de I también varían de -1 a +1, cuantificando el grado de autocorrelación espacial existente.

-1 autocorrelación espacial negativa o inversa. 0 significa aleatoriedad +1 significa autocorrelación espacial positiva o directa.

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

Indice Global de Moran

• Consideremos el ejemplo que sigue:

5,5 0

4

1 651 62 41 61 51 62 0 22222

2

n

yyVa riâ n cia

n

ii

1

164

5241520

yMédia

1063,75,502 PadrãoDesvio

A B

C D524

1520

A B C D

A 0 1 1 0

B 1 0 1 1

C 1 1 0 1

D 0 1 1 0

Matriz de Proximidad

Indice Global de Moran

• La ecuación de I puede ser simplificada [N(=0 e =1)] e alteramos W, de forma que la suma de los elementos de cada línea sea igual a 1.

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

n

ii

n

i

n

jjiij

z

zzw

I

1

1 1

2

yyz i

i

A B C D

A 0 1 1 0

B 1 0 1 1

C 1 1 0 1

D 0 1 1 0

A B C D

A 0 1/2 1/2 0

B 1/3 0 1/3 1/3

C 1/3 1/3 0 1/3

D 0 1/2 1/2 0

Indice Global de Moran

n

ii

n

i

n

jjiij

z

zzw

I

1

1 1

2

A B C D

A 0 1/2 1/2 0

B 1/3 0 1/3 1/3

C 1/3 1/3 0 1/3

D 0 1/2 1/2 0

A B

C D524

1520

yyz i

i

zA = 0,5628

zC = 1,1257

zD = -1,5479

zB = -0,1407

1063,7

0,16

y

08712,01088,000,0

5808,000527,02111,0

0725,00527,000264,0

03167,00396,00

3959,27424,12177,08711,0

7424,12672,11583,06335,0

2177,01583,00197,00792,0

8711,06335,00792,03167,0

*

02

1

2

10

3

10

3

1

3

13

1

3

10

3

1

02

1

2

10

9143,01 11 1

n

i

n

jij

n

i

n

jjiij Mzzw 4

1

2

n

iiz 288,0

4

9143,0

I

wij zi zj Mij* =

Indice Global de Moran

Significancia del Índice de Moran

Evaluación de la significancia del índice de Moran (I).

Para estimar la significancia de I, será preciso asociar a ese una distribución estadística, para tanto, dos abordajes son posibles:

• Teste de pseudo-significancia (experimento aleatorio).

• Distribución aproximada (hipótesis de normalidad).

• La validad estadística del índice de Moran (I) en el teste de pseudo-significancia.

• Se el índice I efectivamente medido corresponder a un “extremo” de la distribución simulada, entonces trata-se de evento con significancia estadística.

Distribuiçãosimulada

extr

emo

extr

emo

Indice Global de Moran

I de Moran: Validade Estatística

• Para un número suficiente de sub-regiones el índice I tiene una distribución de muestral que es aproximadamente normal, dada por:

donde: n = número de regiones,

)1(

1)(

nIE

22

221

22

)1)(1(

2)1()1(

o

o

Snn

SSnnSnn

jiparawS ijo jiparawwS ijij 2

1

jiparawwS ijij 2

2 0

Normal Padrão

1,96-1,96

95%

)(IEI

IN

Índice Moran Normalizado

Aleatorio o Agrupado?% de Ascendencia Asiática

Moran’s I = 0.002% de Universitarios Moran’s I = 0.92

QueenMoran’s I = 0.92

RookMoran’s I = 0.92

Distancia (2000m)Moran’s I = 0.81

K-NearestMoran’s I = 0.91

Indicadores Locales de Asociación Espacial (LISA)

• Como hemos visto, el estimador de autocorrelación espacial, Moran (I), fornece un valor único como medida da asociación espacial.

• Por otro lado, muchas veces es necesario examinar pautas en una escala más detallada.

• En ese caso, es necesario utilizar indicadores locales de asociación espacial que puedan ser asociados a diferentes localizaciones de una variable distribuida espacialmente.

• La utilización de eses indicadores en conjunto con los indicadores globales, refinan nuestro conocimiento acerca los procesos que originan la dependencia espacial.

• Índices locales (LISA):– Permiten evaluar diferentes regímenes

espaciales existentes en la área de estudio.– Miden la asociación espacial entre una

observación i y su vecindad.– Requisitos (Anselin)

• La suma de los índices locales debe ser proporcional al índice global.

• Indicar la significancia de la asociación espacial para cada observación.

Indicadores Locales de Asociación Espacial (LISA)

• Los indicadores locales de asociación espacial, producen un valor específico para cada objeto.

• Eso permite la identificación de:– “Clusters”: objetos con valores de atributos semejantes,– “Outliers”: objetos anómalos,– La presencia de más de un régimen espacial.

• Hay que atender a dos objetivos:

– Permitir la identificación de pautas de asociación

espacial significativos;

– Ser una descomposición del índice global de asociación

espacial.

Indicadores Locales de Asociación Espacial (LISA)

Diagrama de Dispersión de Moran

Ese diagrama relata espacialmente el relacionamiento entre los valores del vector de desviaciones Z ( ) y los valores de los promedios locales WZ, indicando diferentes regímenes espaciales presentes en los datos.

zzi

I é equivalente a tg 0

0 z

WZ

Reta de regressão de WZ em Z

Q3Q3Q2Q2

Q1Q1Q4Q4

ZZ

WZZI

t

t

Nesta formulação, I equivale aocoeficiente de regressão linear, ou

seja a inclinação da reta de regressão.

0

0 z

WZ

Q3Q3Q2Q2

Q1Q1Q4Q4

Q1 (val. [+], prom. [+]) y Q2 (val. [-], prom. [-])

Indican puntos de asociación espacial positiva, en sentido que una localización posee vecinos con valores semejantes.

Q3 (val. [+], prom. [-]) e Q4 (val. [-], prom. [+])

Indican puntos de asociación espacial negativa, en sentido que una localización posee vecinos con valores distintos.

Nota:- los puntos localizados en Q3 y Q4 pueden ser vistos como extremos, tanto por estar lejos de la reta de regres- sión lineal como por indicar regiones que no siguen el mis-mo proceso de dependencia espacial de las otras observa-cioness. Eses puntos marcan regiones de transición entre regímenes espaciales distintos.

Diagrama de Dispersión de Moran

El Diagrama de Dispersión de Moran puede ser presentado en forma de un mapa coroplético bidimensional, en el cual cada polígono es presentado indicando su cuadrante en el diagrama de dispersión.

0

0 z

WZ

Q3 = HLQ3 = HLQ2= LLQ2= LL

Q1= HHQ1= HHQ4 = LHQ4 = LH

São Paulo

Atributo consideradopercentagem de idosos

Indicadores Locales de Asociación Espacial (LISA Maps)

Índice local de Moran• Formulação:

I Iii

n

I

w z z

z

n

i

ij i jj

n

jj

n

1

2

1

Iz wz

mii i

2

II

n

ii

n

• Indicadores locales Ii de Moran (Anselin, 1996)

• Indicadores locales Gi e Gi * (Getis e Ord, 1992)

• O indicador local de Moran Ii es así definido: Ii > 0 “clusters” de valores similares (altos o bajos).

Ii < 0 “clusters” de valores distintos (Ex: una localización

con valores altos rodeada por una vecindad de

valores bajos).

• Normalizando las variables el indicadores reducido a:

n

yy

yywyy

I n

ii

n

jjiji

i

1

1

2

n

jjijii zwzI

1

Indicadores Locales de Asociación Espacial (LISA Maps)

• De forma similar a los indicadores globales, la significancia del índice local de Moran (Ii) debe ser evaluado, utilizando hipótesis de normalidad o simulación de distribución por permutación aleatoria en los valores de los atributos (Anselin, 1995).

• Una vez determinada la significancia estadística de Moran (Ii) es muy útil generar un mapa indicando las regiones que presentan correlación local significativamente diferente del restante de los datos.

• Ese mapa es denominado por Anselin (1995) de “LISA MAP”.

• En la generación del LISA MAP, los índices locales Ii son clasificados como:

– no significantes

– con significancia de 95% (1,96), 99% (2,54) e 99,9% (3,2).

Indicadores Locales de Asociación Espacial (LISA Maps)

• Los indicadores locales Gi e Gi * (Getis e Ord, 1992):

donde:– wij valor en la matriz de proximidad para región i con la región j en

función de la distancia.– xi e xj son los valores de los atributos considerados en las áreas i e j.

– d es distancia entre puntos

– n el número de áreas (polígonos)

• OBS.: la estadística Gi, incluí en el numerador la suma de todos los valores de todos vecinos dentro de una distância d del punto considerado. Gi

* difiere de Gi por incluir la localización visitada.

ij

x

xdw

dG n

ij

n

jiij

i

,)(

1

1

ij

x

xdw

dG n

ij

n

jiij

i

,)(*

1

1

Indicadores Locales de Asociación Espacial (LISA Maps)

• “Regiones” de exclusión/inclusión social em São Paulo

não signif.

95% sign.

99% sign.

Indicadores Locales de Asociación Espacial (LISA Maps)

• “Regiones” de exclusión/inclusión educacional en Montevideo?

Indicadores Locales de Asociación Espacial (Moran’s I

LISA Maps)

• “Regiones” de exclusión/inclusión educacional en Montevideo?

Indicadores Locales de Asociación Espacial (G Local I

LISA Maps)