Análisis exploratorio de datos univariados

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

Tema 4: Medidas de posición individual.
Tema. 4. Medidas de posición. Medidas de posición individual, centiles
ESTADÍSTICA DESCRIPTIVA
Unidad de competencia II Estadística descriptiva:
MÉTODOS ESTADÍSTICOS.
Bioestadística Distribución Normal
De la muestra a la población
PRESENTACION I INTRODUCCION A LA HIDROLOGIA PROBABILISTICA
} LISSET BÁRCENAS MONTERROZA
CLASE 1: Recordando algunos conceptos previos de Estadística
FRANCISCO JAVIER RODRÍGUEZ
Medidas de tendencia central y de variabilidad
II U NIDAD. Al trabajar con histogramas y/o polígonos de frecuencias, vimos que la distribución de los datos puede adoptar varias formas. En esta unidad.
Introducción Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que junto a una medida que indique el valor alrededor del cual.
ESTADÍSTICA UNIDIMENSIONAL
Curso de Estadística Básica
Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Revisión de probabilidad.
MEDIDAS DE TENDENCIA CENTRAL
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Estadística Descriptiva continuación
DISTRIBUCIÓN NORMAL La mayoría de las variables aleatorias que se presentan en los estudios relacionados con las ciencias sociales, físicas y biológicas,
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Datos: Estadística.
Medidas de Dispersión.
Tema 2: Parámetros Estadísticos
Elaboración de gráficas
ESTADÍSTICAS DESCRIPTIVA
El promedio como variable aleatoria: error estándar e intervalo de confianza para la media de la muestra Mario Briones L. MV, MSc 2005.
Coeficiente de Variación
Fundamentos Matemáticos Medidas de tendencia central
Laboratorio de Estadística administrativa
Medidas de Posición y Centralización Estadística E.S.O.
Universidad Central de Venezuela Facultad de Agronomía Cátedra de Estadística 1.
Inferencia Estadística
MEDIDAS DE VALOR CENTRAL
TABLAS DE FRECUENCIAS Una vez recopilados, tendremos un conjunto de datos que será necesario organizar para extraer información. Lo primero que se hace.
Estadígrafos de posición: Cuartiles Y percentiles
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
INFERENCIA ESTADISTICA
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
ESTADÍSTICA.
¿QUÉ ES LA ESTADÍSTICA? La estadística es una disciplina que diseña los procedimientos para la obtención de los datos, como asimismo proporciona las herramientas.
Límites y Continuidad.
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión
UNIDAD 1.- EVALUACIÓN DE DATOS ANALITICOS
Qué es una Variable Aleatoria??????????
Describir una variable numérica
Page 1 Page 2 Asimetría Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmética).
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
ANALISIS ,GRAFICOS Y MEDIDAS ESTADISTICAS
MÓDULO DE MEDIDAS DE TENDENCIA CENTRAL
Medidas de Dispersión.
Métodos Cuantitativos
SESION 5: MEDIDAS DE FORMA. Hasta el momento nos hemos enfocado en el análisis de datos a partir de los valores centrales y la variabilidad de las observaciones.
ESTADÍSTICA UNIDIMENSIONAL
¿Qué es la Estadística? Originalmente la palabra estadística ha estado asociada al procesamiento de datos, entendiéndose por esto la representación gráfica,
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Características de las distribuciones estadísticas
Objetivo: Recordar elementos presentes en el estudio de la estadística
DEFINICIÓN DE NORMALIDAD MEDIDAS DE DESCRIPCIÓN DE DATOS
10. Estimación puntual e intervalos de confianza Módulo II: Análisis descriptivo univariado Análisis de Datos Aplicado a la Investigación Científica
11. Los percentiles y los valores de normalidad Módulo II: Análisis descriptivo univariado Análisis de Datos Aplicado a la Investigación Científica
Coeficiente de variación
DIPLOMADO DE POSTGRADO
Estadística descriptiva
Estadística descriptiva
Medidas de posición y dispersión IV medio
Estadística y probabilidad aplicada a los negocios
Medidas de tendencia central
Transcripción de la presentación:

Análisis exploratorio de datos univariados Robustez y resistencia Cuantiles (percentiles)‏ Histogramas

Robustez y resistencia Es deseable que un método de análisis de datos sea poco sensible a suposiciones sobre la naturaleza de los datos. P. ej., que los resultados no dependan esencialmente de que los datos sigan una distribución determinada. Un método es robusto cuando sus resultados no dependen esencialmente de la distribución de los datos. Un método es resistente si no es influido considerablemente por unos pocos datos atípicos (“outliers”)‏

Ejemplo: los conjuntos {11 12 13 14 15 16 17 18 19} y {11 12 13 14 15 16 17 18 91} Distintas medidas de “tendencia central”: En ambos casos, el valor central es 15, pero los promedios son 15 y 23 respectivamente.

Estadísticos de orden Sea { x1, x2, ..., xn } una muestra de datos Se ordenan en forma ascendente: { x(1), x(2) , ..., x(n) } son los estadísticos de orden (mismos numeros ordenados en forma creciente)‏ ( cumpliéndose que x(1) ≤ x(2) ≤ …≤ x(n) )‏ Ej: {7 -2 1 7 -3 4 0} {-3 -2 0 1 4 7 7}

Cuantiles de una muestra Ej.: 1) Sea la muestra aleatoria {7 -2 1 7 -3 4 0} ¿Cómo podemos estimar un valor central que, en sentido amplio, deje probabilidad ½ a ambos lados? {-3 -2 0 1 4 7 7} Parece natural tomar un valor que deje la misma cantidad de datos a cada lado, en este caso el 1: {-3 -2 0 1 4 7 7}. Se dice que la mediana de la muestra es 1. q0.5 = 1

Cuantiles… {-3 0 1 4 7 7} Ej. 2) Sea ahora la muestra {7 1 7 -3 4 0} ¿Cuál será la mediana? {-3 0 1 4 7 7} Convencionalmente, se suele tomar el punto medio entre los dos valores centrales, o sea (1 + 4) /2 = 2.5. Pero, si no se tiene más información, podría elegirse cualquier valor en ese intervalo (1,4)‏

Media Mediana q0.50 La media está comprendida entre el mínimo y el máximo de la muestra. La mediana “divide el conjunto de datos en dos subconjuntos ordenados con igual cantidad de datos” . Importante: la mediana permite trabajar con estimaciones de probabilidades

Ejemplo: (con muy pocos datos!!)‏ 2 4 9 11 14 2 4 9 11 7004 (outlier) ?? La media no es robusta ni resistente Se puede estimar que P (X ≥ 9) ~ 0.5 ~ P(X ≤ 9)‏

• • Generalizando, sea p tal que 0 < p < 1. Los p-quantiles (qp) ( o percentiles) son valores que dejan, probabilidad p a su izquierda, y probabilidad 1-p a su derecha. qp • • • • • • • • • • • p 1- p

Los cuantiles más usados… Mediana q0.5 Terciles, q0.33 , q0.66 Cuartiles, q0.25 , q0.75 estan ubicados a mitad de camino entre q0.5 y x(1) y x(n). O sea son las medianas para cada mitad de los datos. Por ejemplo, si n=9, q0.5=x(5), q0.25=x(3) y q0.75=x(7). Si n=11, q0.5=x(6), q0.25=(x(3)+x(4))/2 y q0.75=(x(8)+x(9))/2

Histogramas Precipitación Rivera agosto 1914-1997 Muestran localización, la dispersión, y la simetría, y si los datos son multimodales

Histogramas Precipitación Rivera abril 1914-1997

El Niño y el arroz Roel y Baethgen 2005 Division en cuartiles de las desviaciones en el rendimiento de las cosechas de arroz.

No hay producciones bajas en años Niña, ni altas en años Niño

Años El Niño – La Niña definidos usando TSM en Mayo-Sep

Ejercicio El archivo MJJ_TEMP_INIA.dat contiene la temperatura media durante los trimestres Mayo-Junio promedio de 5 estaciones en Uruguay desde 1970 a 2002. a. Calcular la media y las anomalias de la temperatura. Construya un histograma de las anomalias. b. Ordenar las anomalías de mayor a menor y dividir en cuartiles. El cuartil superior representa los años con temperaturas mayores a lo normal, y el cuartil inferior los años con temperaturas por debajo de lo normal. Los dos cuartiles del medio son los años con temperaturas consideradas normales. c. Considere los años El Niño. Calcule cuantos años corresponden a años de temperatura mayores, menores, y normal respectivamente. Cual es la probabilidad de que en Uruguay las temperaturas sean por encima de lo normal en un año El Niño? d. Cual es la probabilidad que un año con temperaturas por debajo de lo normal sea un año La Niña?