Clase 5 – Análisis exploratorio de datos espaciales (Indicadores)

Slides:



Advertisements
Presentaciones similares
ANALISIS PARAMÉTRICOS
Advertisements

Tema 6: Regresión lineal.
Tema.9.Predicción y estimación. Concepto. Cálculo de la ecuación de regresión lineal. Modelo general lineal. Evaluación del modelo. Diagnóstico del modelo.
Estadística Unidad III
Modelos de Variable Dependiente Binaria -Logit y Probit-
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
1.- Definiciones. 2.- Fórmulas. 3.- Esquema. 4.- Ejercicios.
Estadística: -Correlación y regresión
KRIGING.
GEOESTADISTICA MULTIVARIADA
MODELO DE REGRESIÓN MÚLTIPLE
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC)
Clustering (Agrupamiento)
Regresión y correlación
HERRAMIENTAS PARA EL CONTROL ESTADÍSTICO DE CALIDAD.
COEFICIENTE DE CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON
Regresión Lineal Simple
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
Tema 2: Métodos de ajuste
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Análisis de Correlación y de Regresión lineal simple
MEDIDAS DE CORRELACIÓN
Facultad: Turismo Y Hotelería
Distribuciones bidimensionales. Tablas de contingencia
Clases 4 Pruebas de Hipótesis
ANÁLISIS DE CONGLOMERADOS
ANALISIS DE DATOS CATEGORICOS
Pronósticos, Series de Tiempo y Regresión
Vectores Aleatorios 1 Distribución conjunta de un vector aleatorio
Distribuciones derivadas del muestreo
Curso de Geoestadística 2. Análisis Exploratorio Ramón Giraldo H. PhD Estadística Profesor Departamento de Estadística Universidad Nacional de Colombia.
Unidad V: Estimación de
IV JORNADAS DE SIG LIBRE
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
ESTADÍSTICAS DESCRIPTIVA
GRÁFICOS ESTADÍSTICOS
Coeficiente de Variación
Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica.
Métodos de calibración: regresión y correlación
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Raúl Monroy (de las notas de Jane Hilston)
Titular: Agustín Salvia
Estadística bidimensional
Variables estadísticas bidimensionales
ANÁLISIS MULTIVARIANTE
Estadística Aplicada a la Gestión Empresarial
coeficientes de correlación de
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Métodos Cuantitativos
Análisis de los Datos Cuantitativos
Aplicaciones Estadísticas a las Finanzas Clase 1
ESTIMACIÓN DE PARÁMETROS
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
VARIANZA, COVARIANZA, DESVIACION ESTANDAR Y BETA
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Variables estadísticas bidimensionales
Técnicas numéricas para el procesamiento de datos reales Antonio Turiel Instituto de Ciencias del Mar de Barcelona.
Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.
Aplicaciones Estadísticas a las Finanzas Clase 1
Tema 2: Estadística bidimensional
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
Programación multicriterio: Métodos multicriterio discretos
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
Estadística y probabilidad aplicada a los negocios
Medidas de tendencia central
ANALISIS DE VARIANZA.
Transcripción de la presentación:

Clase 5 – Análisis exploratorio de datos espaciales (Indicadores) -­‐  Curso de Análisis de Datos Espaciales Clase 5 – Análisis exploratorio de datos espaciales (Indicadores) Marcos W. D. de Freitas {marcoswfreitas@gmail.com}

Análisis Exploratorio de Datos Espaciales Objetivo: búsqueda de pautas en la distribución espacial de polígonos o puntos con variables cuantitativas (numéricas) Responder cuestiones acerca de los datos y su distribución espacial: Cuestión inicial: Como se distribuí una variable de interese en el espacio? – Uso de mapas coropléticos Cuestiones estadísticas: Cual es la distribución de mi variable de estudio? – Uso de histograma Cuales son las estadísticas básicas de esa variable (mínimo, máximo, promedio, desviación estándar,…)? – Uso de Diagrama de Cajas Cual es el grado de correlación de esa variable con otra variable? – Uso de Diagrama de dispersión

Análisis Exploratorio de Datos Espaciales Cuestiones de estadística espacial: De forma general, mis datos presentan estructuras de dependencia espacial? O sea, hay agrupamientos (regímenes espaciales, hot-spots, cold-spots) o mis datos presentan una pauta de distribución aleatoria? Uso de Indicadores Globales de Asociación Espacial (Moran’s I e otros) Se existe, entonces de forma general, dependencia espacial en mis datos, cuales son los objetos (segmentos censales, barrios, departamentos, unidades de suelos,…) que pueden ser considerados como hot-spots o cold-spots de forma significante? Indicadores Locales de Asociación Espacial (LISA Maps)

Técnicas de Análisis Exploratorio Indicadores Globales de Autocorrelación suposición: estacionariedad (función de la “distancia”). Ej: índice de Moran (Moran’s I), variograma, correlograma Indicadores Locales de Asociación Espacial Resaltan las situaciones atípicas (“outliers” ). Ej: Mapa de LISA

Matriz de Proximidad Espacial Contenido Matriz (n x n) W , cuyos elementos wij representan una medida de proximidad entre Oi e Oj Criterios:- wij =1, se Oi toca Oj wij = 1, se dist(Oi, Oj) < h wij = lij/li, donde lij es el tamaño de la frontera entre Oi e Oj e li es el perímetro de Oi A B C D E A B C D E A 0 1 0 1 0 B 1 0 1 1 1 C 0 1 0 0 1 D 1 1 0 0 1 E 0 1 1 1 0

Row-standardized matrices de proximidad espacial B C D E F Divide cada número por la suma de líneas Número total de vecinos --unos tienen más que otros Row standardized --normalmente utilizado   A B C D E F Row Sum 1 2 3   A B C D E F Row Sum 0.0 0.5 1 0.3

Matriz de Proximidad Espacial Creando pesos espaciales en GeoDa Cuatro tipos de vecindad: Vecindad: Queen y Rook Distancia euclidiana K-Nearest Neighbors (vecinos más próximos)

Matriz de Proximidad Espacial Rook Contiguity Vecindad “rook”: incluye todos los polígonos que dividen una frontera (arco) con el polígono que se quiere definir los pesos de vecindad

Matriz de Proximidad Espacial Queen Contiguity Vecindad “queen”: incluye todos los polígonos que tocan el polígono que se quiere definir los pesos de vecindad

Matriz de Proximidad Espacial Queen x Rook Contiguity Vecindad “queen” x “rook” rook queen

Secundo vecino más próximo Mensurando Contigüidad: Debemos incluir la contigüidad de segunda orden? 1ª orden Vecino próximo rook queen 2ª orden Secundo vecino más próximo

Matriz de Proximidad Espacial Distancia Euclidiana Considera como vecinos, todos los polígonos con centróides con distancia menor quela distancia máxima definida por el usuario

Matriz de Proximidad Espacial Vecinos más próximos K-nearest neighbors: Considera como vecinos el número de vecinos más próximos definidos por el usuario. ] wij = 1, se dist(Oi, Oj) < h wij = lij/li, donde lij es el tamaño de la frontera entre Oi e Oj e li es el perímetro de Oi

Indicadores Globales de Autocorrelación Espacial Objetivo: Explorar la dependencia espacial Autocorrelación espacial. Mide cuanto el valor observado de un atributo en una región es independiente de los valores de la misma variable en las localizaciones vecinas. Indicadores Globales Moran, Geary Indicadores Locales Local Moran, Local Geary

Forma genérica de los índices global local    n j ij i a w    w a ij j n i onde: ij w : medida de proximidad entre objetos i e j a :expresión que representa la asociación entre los atributos del objeto i con los demás objetos de su vecindad. ij

Forma genérica de los índices      w a   w a i ij ij ij ij j i j Cuando aij es de forma:     x  x x  z z Moran (covariancia) x i j i j     x  x 2 z  z 2 Geary (variancia) i j i j     x ou x  x z ou z  z G ou G* (promédio móbil) j i j j i j

Indice Global de Moran donde: n corresponde al número de áreas, yi es el valor del atributo considerado en la área i, representa el valor promedio del atributo en la región de estudio, wij son los pesos atribuidos conforme la conexión entre las áreas i e j.

Indice Global de Moran Cual es el significado del índice global de Moran ( I ) ? Como interpretar la ecuación arriba ? Cual es su significancia o validad estadística ? Como evaluar ?

Indice Global de Moran Es análogo al coeficiente de correlación convencional, porque tiene en su numerador un termo que es producto del momento. Como un coeficiente de correlación, los valores de I también varían de -1 a +1, cuantificando el grado de autocorrelación espacial existente. -1 autocorrelación espacial negativa o inversa. 0 significa aleatoriedad +1 significa autocorrelación espacial positiva o directa.

Indice Global de Moran Consideremos el ejemplo que sigue: A B C D A Matriz de Proximidad A B C D 5 24 15 20 A B C D A 0 1 1 0 B 1 0 1 1 C 1 1 0 1 D 0 1 1 0

Indice Global de Moran La ecuación de I puede ser simplificada [N(=0 e =1)] e alteramos W, de forma que la suma de los elementos de cada línea sea igual a 1. A B C D A 0 1 1 0 B 1 0 1 1 C 1 1 0 1 D 0 1 1 0 A B C D A 0 1/2 1/2 0 B 1/3 0 1/3 1/3 C 1/3 1/3 0 1/3 D 0 1/2 1/2 0

Indice Global de Moran zA = 0,5628 zC = 1,1257 zD = -1,5479 zB = -0,1407 A B C D A 0 1/2 1/2 0 B 1/3 0 1/3 1/3 C 1/3 1/3 0 1/3 D 0 1/2 1/2 0 A B C D 5 24 15 20 wij zi zj Mij * =

Significancia del Índice de Moran Evaluación de la significancia del índice de Moran (I). Para estimar la significancia de I, será preciso asociar a ese una distribución estadística, para tanto, dos abordajes son posibles: Teste de pseudo-significancia (experimento aleatorio). Distribución aproximada (hipótesis de normalidad).

Indice Global de Moran La validad estadística del índice de Moran (I) en el teste de pseudo- significancia. Se el índice I efectivamente medido corresponder a un “extremo” de la distribución simulada, entonces trata-se de evento con significancia estadística. Distribuição simulada extremo extremo

I de Moran: Validade Estatística Para un número suficiente de sub-regiones el índice I tiene una distribución de muestral que es aproximadamente normal, dada por: donde: n = número de regiones, Índice Moran Normalizado Normal Padrão 95% -1,96 1,96

% de Ascendencia Asiática Aleatorio o Agrupado? % de Ascendencia Asiática Moran’s I = 0.002 % de Universitarios Moran’s I = 0.92

Queen Moran’s I = 0.92

Rook Moran’s I = 0.92

Distancia (2000m) Moran’s I = 0.81

K-Nearest Moran’s I = 0.91

Indicadores Locales de Asociación Espacial (LISA) Como hemos visto, el estimador de autocorrelación espacial, Moran (I), fornece un valor único como medida da asociación espacial. Por otro lado, muchas veces es necesario examinar pautas en una escala más detallada. En ese caso, es necesario utilizar indicadores locales de asociación espacial que puedan ser asociados a diferentes localizaciones de una variable distribuida espacialmente. La utilización de eses indicadores en conjunto con los indicadores globales, refinan nuestro conocimiento acerca los procesos que originan la dependencia espacial.

Indicadores Locales de Asociación Espacial (LISA) Índices locales (LISA): Permiten evaluar diferentes regímenes espaciales existentes en la área de estudio. Miden la asociación espacial entre una observación i y su vecindad. Requisitos (Anselin) La suma de los índices locales debe ser proporcional al índice global. Indicar la significancia de la asociación espacial para cada observación.

Indicadores Locales de Asociación Espacial (LISA) Los indicadores locales de asociación espacial, producen un valor específico para cada objeto. Eso permite la identificación de: “Clusters”: objetos con valores de atributos semejantes, “Outliers”: objetos anómalos, La presencia de más de un régimen espacial. Hay que atender a dos objetivos: Permitir la identificación de pautas de asociación espacial significativos; Ser una descomposición del índice global de asociación espacial.

Diagrama de Dispersión de Moran Ese diagrama relata espacialmente el relacionamiento entre los valores del vector de desviaciones Z ( ) y los valores de los promedios locales WZ, indicando diferentes regímenes espaciales presentes en los datos. WZ Q4 Q1 Reta de regressão de WZ em Z  I é equivalente a tg  Nesta formulação, I equivale ao coeficiente de regressão linear, ou seja a inclinação da reta de regressão. Q2 Q3 z

Diagrama de Dispersión de Moran Q1 (val. [+], prom. [+]) y Q2 (val. [-], prom. [-]) Indican puntos de asociación espacial positiva, en sentido que una localización posee vecinos con valores semejantes. z WZ  Q3 Q2 Q1 Q4 Q3 (val. [+], prom. [-]) e Q4 (val. [-], prom. [+]) Indican puntos de asociación espacial negativa, en sentido que una localización posee vecinos con valores distintos. Nota:- los puntos localizados en Q3 y Q4 pueden ser vistos como extremos, tanto por estar lejos de la reta de regres- sión lineal como por indicar regiones que no siguen el mis-mo proceso de dependencia espacial de las otras observa- cioness. Eses puntos marcan regiones de transición entre regímenes espaciales distintos.

Indicadores Locales de Asociación Espacial (LISA Maps) El Diagrama de Dispersión de Moran puede ser presentado en forma de un mapa coroplético bidimensional, en el cual cada polígono es presentado indicando su cuadrante en el diagrama de dispersión. São Paulo WZ Q4 = LH Q1= HH  Q2= LL Q3 = HL Atributo considerado percentagem de idosos z

Índice local de Moran Formulação:

Indicadores Locales de Asociación Espacial (LISA Maps) Indicadores locales Ii de Moran (Anselin, 1996) Indicadores locales Gi e Gi * (Getis e Ord, 1992) O indicador local de Moran Ii es así definido: Ii > 0 “clusters” de valores similares (altos o bajos). Ii < 0 “clusters” de valores distintos (Ex: una localización con valores altos rodeada por una vecindad de valores bajos). Normalizando las variables el indicadores reducido a:

Indicadores Locales de Asociación Espacial (LISA Maps) De forma similar a los indicadores globales, la significancia del índice local de Moran (Ii) debe ser evaluado, utilizando hipótesis de normalidad o simulación de distribución por permutación aleatoria en los valores de los atributos (Anselin, 1995). Una vez determinada la significancia estadística de Moran (Ii) es muy útil generar un mapa indicando las regiones que presentan correlación local significativamente diferente del restante de los datos. Ese mapa es denominado por Anselin (1995) de “LISA MAP”. En la generación del LISA MAP, los índices locales Ii son clasificados como: no significantes con significancia de 95% (1,96), 99% (2,54) e 99,9% (3,2).

Indicadores Locales de Asociación Espacial (LISA Maps) Los indicadores locales Gi e Gi * (Getis e Ord, 1992): donde: wij valor en la matriz de proximidad para región i con la región j en función de la distancia. xi e xj son los valores de los atributos considerados en las áreas i e j. d es distancia entre puntos n el número de áreas (polígonos) OBS.: la estadística Gi, incluí en el numerador la suma de todos los valores de todos vecinos dentro de una distância d del punto considerado. Gi * difiere de Gi por incluir la localización visitada.

Indicadores Locales de Asociación Espacial (LISA Maps) 95% sign. 99% sign. não signif. “Regiones” de exclusión/inclusión social em São Paulo

Indicadores Locales de Asociación Espacial (Moran’s I LISA Maps) “Regiones” de exclusión/inclusión educacional en Montevideo?

Indicadores Locales de Asociación Espacial (G Local I LISA Maps) “Regiones” de exclusión/inclusión educacional en Montevideo?