02 - Estudio Exploratorio de Datos: Univariable y Multivariable

Slides:



Advertisements
Presentaciones similares
Resumen y descripci ó n de datos num é ricos Estad í stica Capítulo 3.2.
Advertisements

BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
Presentado por Karina Yuliet Preciado Mosquera Estadística II.
Rodrigo Ferrer Urbina Universidad de Tarapacá.  Una distribución (empírica) son todos los valores que aparecen en la medición realizada (todas las observaciones).
Capítulo 1.4: Distribución de frecuencias unidimensionales Introducción Descripción numérica Representación gráfica.
TEMA 1: TEMA 1: INTRODUCCIÓN A LA ESTADÍSTICA Por: Denise Muñoz Belmonte Claudia Morales Cerezuela.
T – Student teoria de las muestras pequeñas Paola Andrea Palacio Montero Estadística.
Bioestadística Escala Cuantitativa.. Trabajadores en una fábrica. RegistroSexoEdad (años)Talla (m)Peso (kg) 1Fem Masc Masc
INACS / PG1 Curso Estadística y Diseño de Análisis de Experimentos Dr. Porfirio Gutiérrez González Correo:
TEMA 3. ESTADÍSTICA BIDIMENSIONAL. INDICE 1.- Relación estadística: correlación 2.- Diagramas de dispersión o nube de puntos 3.- Tablas de frecuencia.
Estadística inferencial. ¿Qué es? La Estadística inferencial o Inferencia estadística estudia cómo sacar conclusiones generales para toda la población.
TEMA 2: PARÁMETROS ESTADÍSTICOS. INDICE 1. Parámetros estadísticos: 1.1 Definición 1.2 Medidas de Centralización: Medias, moda y Mediana 1.3 Medidas de.
ESTADÍSTICAS DESCRIPTIVAS REPRESENTACIONES GRÁFICAS Psic. Gerardo A. Valderrama M:
PPTCES046MT22-A16V1 Clase Medidas de tendencia central y posición MT-22.
Tema 2. Parámetros estadísticos. Indice 1. Parámetros estadísticos. Tipos: 1.1 Medidas de centralización(medias y moda) 1.2 Medidas de posición(mediana,
Estadística Aplicada y Diseño de Experimentos Clase 1 continuación.
Carrera de Administración Área Recursos Humanos Diseñó: Arturo Corona PeguerosEne-abr 17 Medidas de Medidas de Tendencia Central Tendencia Central Medidas.
CUANTILES UNIDAD TRABAJEMOS CON MEDIDAS DE POSICIÓN CONTENIDO: MEDIDAS DE POSICIÓN, CUARTILES, DECILES Y PERCENTILES OBJETIVO DE UNIDAD: Aplicar medidas.
Funciones y gráficas ITZEL ALEJANDRA LOZOYARODRIGUEZ
Tipos de gráficos Diferentes conjuntos de datos son particularmente aptos para ciertos tipos de gráficos. A continuación hay una vista general de los tipos.
Epidemiología y estadística descriptivas e indicadores
ESTADISTICA DESCRIPTIVA, PROF. FRANCISCO HERRERA CATALINO
Tema 6 Cristhian Lopez..
MEP- II.
Normatividad relativa a la calidad
FUNCIONES, PROCESAMIENTO ELEMENTAL DE DATOS
DISTRIBUCION F DE FISHER.
Facultad de Ciencias Sociales
MEDIDAS DE FORMA ASIMETRIA Y CURTOSIS..
TEMA 3: Distribuciones bidimensionales: relación entre dos variables estadísticas. Cristhian Lopez.
El modelo simple de regresión
UNIVERSIDAD DE COSTA RICA Sistema de Estudios de Posgrado
03 - El Modelo Probabilístico en Geoestadística
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
ESTADÍSTICA UNIDIMENSIONAL
ANÁLISIS E INTERPRETACIÓN DE DATOS
DIAGRAMA DE PARETO. NOTAS __________________________________________ 1.
Percentiles –cuartiles y rango intercuartil
Clase 5: Medidas de Variación
ESTADÍSTICA UNIDIMENSIONAL
ASIMETRÍA.
MEDIDAS DE POSICION NO CENTRALES
CORRELACIÓN CAP 8 DE Peña y Romo.
REGRESIÓN LINEAL SIMPLE
GRÁFICOS EN ESTADÍSTICA
DISTRIBUCIÓN MUESTRAL DE UNA MEDIA.
PROBABILIDAD Y ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA
Aplicaciones Estadísticas a las Finanzas
UNIVERSIDAD DE GUAYAQUIL FACULTAD DE CIENCIAS ADMINISTRATIVAS
ESTADÍSTICA BÁSICA.
Cuartiles, deciles, percentiles.
Introducción a la Estadística Descriptiva
ESTADÍSTICA DESCRIPTIVA
DISEÑO Y ANALISIS DE EXPERIMENTOS
GRAFICOS ESTADÍSTICOS
PROBABILIDAD Y ESTADISTICA APLICADA A LOS NEGOCIOS
MEDIDAS DE DISPERSIÓN.
Bioestadística Francisco Javier Barón López Dpto. Medicina Preventiva
UNIVERSIDAD LATINA DE COSTA RICA DISTRIBUCION NORMAL
Elementos Básicos de Probabilidad y Estadística
ESTADISTICA DESCRIPTIVA
CARTA CONTROL DE MEDIAS INDIVIDUALES Y RANGOS MOVILES
MODELOS DE PRONOSTICOS
1 Temario de la asignatura Introducción. Análisis de datos univariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad.
Estadística Descriptiva
ESTADISTICOS Y DISTRIBUCIONES MUESTRALES
ANALISIS DE REGRESION SIMPLE
REGRESION LINEAL SIMPLE
Transcripción de la presentación:

02 - Estudio Exploratorio de Datos: Univariable y Multivariable Despliegue de datos Tablas de frecuencia e histogramas Estadísticas básicas Distribución normal y lognormal Gráfico de dispersión Q-q plot Coeficiente de correlación

Objetivos del Estudio Exploratorio De Datos Desplegar los datos en diferentes formas Entender los datos: poblaciones estadísticas vs. poblaciones geológicas Seleccionar poblaciones geológicas Decisión de estacionaridad Identificar deriva en los datos Asegurar la calidad de los datos Resumir parte de la información contenida en los datos Familiarizarse con los datos y la geología Desagrupar datos para modelamiento geoestadístico

Despliegue de Datos Análisis utilizando plantas y secciones

Despliegue de Datos Visualización en 3-D interpretación

Despliegue de Datos Otras formas de desplegar los datos: Mapas codificados con color Mapas de indicadores (Detección de deriva en la variable media móvil)

Histogramas Histograma: despliegue de frecuencia de ocurrencia de datos en clases Histograma acumulado: despliegue de la frecuencia acumulada bajo un valor de corte (que define una clase)

Histogramas Histogramas ¿Cómo construirlo? Frecuencia Histogramas Computa el número de muestras en cada clase. “Ancho” de clase suele ser constante la altura de cada barra del histograma es proporcional a la frecuencia de la clase Entrega estadísticas de las muestras (no de la población) Escala logarítmica puede ser útil Media y varianza son muy sensibles a valores extremos Mediana y rango intercuartil son medidas más robustas ¿Cómo construirlo? Dependiendo del número de muestras, escoger un número de clases Desplegar el rango importante de los datos (colas no se ven bien) Desplegar estadísticas con un número razonable de decimales

Histogramas Histograma Acumulado Frecuencia Acumulada 1 Histogramas Histograma Acumulado Puede servir para distinguir poblaciones estadísticas Puede utilizarse para comparar la distribución de datos con modelos paramétricos (normal / lognormal) Se utiliza para transformar la distribución de muestras a cualquier otra distribución deseada Puede utilizarse para ver el efecto de compositar a un determinado largo ¿Cuántas muestras vamos a cortar?

Histogramas El histograma de frecuencias acumuladas no requiere definir un ancho de clase; pueden crearse a la resolución de los datos Una valiosa herramienta descriptiva y usada para inferencia Un cuantil es el valor de la variable que corresponde a una frecuencia acumulada dada primer cuartil = cuantil 0.25 segundo cuartil = mediana = cuantil 0.5 tercer cuartil = cuantil 0.75 se puede leer cualquier cuantil del gráfico de frecuencia acumulativa Se puede también leer los intervalos de probabilidad desde el grafico de frecuencia acumulativa

Histogramas

Estadísticas Básicas Medidas de posición: Media Mediana Moda, mínimo y máximo Rango Cuartil inferior y superior Deciles, percentiles y cuantiles: el cuantil p de la distr. es el valor zp tal que p% de los datos está bajo zp

Estadísticas Básicas Medidas de dispersión: Varianza Desviación estándar Rango intercuartil Coeficiente de variación

Estadísticas Básicas Yacimiento tipo pórfido cuprífero CV = 0.7 Yacimiento de cobre de mediana var. CV = 1.5 Yacimiento de oro de alta variabilidad CV = 4.5

Positivo Cercano a 0 Negativo Estadísticas Básicas Medidas de forma: Coeficiente de asimetría (skewness) Positivo Cercano a 0 Negativo

Estadísticas Básicas Coeficiente de aplanamiento (Kurtosis) Da una idea del aplanamiento de la distribución (relación entre altura y ancho de la campana). Su valor es 3 para distribuciones normales (Gaussianas)

Distribución Normal Propiedades: Función de densidad de probabilidad: Completamente definida por su media y varianza Tiene una descripción matemática concisa Favorable para enfoques teóricos de estimación Función de densidad de probabilidad:

Distribución Normal Estandarización: Distribución normal estándar N(0,1) Función de distribución acumulada: corresponde al área bajo la curva

Distribución Normal Función de densidad de probabilidad Distribución de probabilidad acumulada

Distribución Normal Intervalos de confianza 68% 95%

Distribución Normal

Distribución Lognormal Una población es lognormal si los logaritmos de los datos están distribuidos como una normal Propiedades: En Ciencias de la Tierra es común encontrar variables cuya distribución es cercana a una lognormal Relación con la distribución normal la hace fácil de utilizar También es favorable para enfoques teóricos de estimación Función de densidad de probabilidad:

Distribución Lognormal

Gráficos de Probabilidad Q-q plot de una distribución normal o lognormal con la distribución de las muestras

Gráficos de Probabilidad Son útiles para chequear la presencia de dos poblaciones

Gráficos de Probabilidad Son útiles para chequear la presencia de dos poblaciones Debe confirmarse con información geológica

Gráfico de Dispersión Análisis bivariable Pares deben corresponder a la misma ubicación en el espacio (co-localizados)

Correlación El coeficiente de correlación es una medida de la dependencia lineal entre las dos variables Una correlación de XY = 1 implica que X e Y están perfectamente correlacionadas. Independencia entre dos variables implica que el coeficiente de correlación es cero: XY = 0. Sin embargo, la inversa no es siempre cierta. Correlación cero no implica necesariamente independencia entre las dos variables.

Correlación Muy sensible a valores aberrantes El coeficiente de correlación cambia incluso de signo

Correlación Diferentes ejemplos de coeficiente de correlación

Gráficos de dispersión Despliegue bivariable, estimado-verdadero, dos variables, o la misma variable separada por algún vector distancia (h-scatterplot) El coeficiente de correlación lineal varía entre -1 y +1 y es sensible a valores extremos (puntos fuera de la nube principal) El coeficiente de correlación de posición es un complemento útil: si rank >  entonces unos pocos outliers dañan la que en otro caso sería una buena correlación si rank <  entonces unos pocos outliers mejoran la que en otro caso sería una pobre correlación si rank = 1 entonces una transformación no lineal de una variable puede hacer  = 1

Q-q Plot Gráfico Q-Q: para comparar dos distribuciones F1 y F2 cuantil a cuantil. No se utiliza para comparar la relación par a par que hay entre las variables. Escoger una serie de valores de probabilidad pk, k = 1, 2, …, K Graficar q1(pk) versus q2(pk), k = 1, 2, …, K

Q-q Plot Si todos los puntos caen en una línea de 45o, las dos distribuciones son exactamente iguales Si la línea está desplazada de los 45o, las dos distribuciones tienen la misma forma pero diferentes medias Si la inclinación de la línea no es 45o, las dos distribuciones tienen diferentes varianzas Si hay un carácter no lineal en el grafico Q-Q, las distribuciones tienen diferentes formas en el histograma

Q-q Plot Histogramas de ley DDH y ley por RC Muestreo preferencial explica la diferencia. No son muestras “pareadas” por lo que no podemos detectar sesgo en las muestras Frecuencia Frecuencia Frecuencia acumulada Frecuencia Acumulada Ley DDH Ley RC

Q-q Plot Ley DDH Ley RC Leer los cuantiles correspondientes de los gráficos de distribución de frecuencia acumulada en la página anterior. Trazar esos cuantiles en el gráfico