Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Revisión de probabilidad.

Slides:



Advertisements
Presentaciones similares
Programa Académico de Maestría en Educación para Docentes de la Región Callao ESTADISTICA PARA LA INVESTIGACIÓN PSICOPEDAGÓGICA II José Luis Morón Octubre.
Advertisements

Intervalos de Confianza para la Media de la Población
ANÁLISIS ESTADÍSTICO COMPUTARIZADO
Exp. Renán Quispe LLanos
La mediana La mediana es el valor tal que el 50 % de las observaciones son menores y 50 % de ellas son mayores a dicho valor. En otra palabras, la mediana.
Tema 4: Medidas de posición individual.
SIMULACIÓN DE MONTECARLO
Agrupación de datos cuantitativos definiciones básicas y otras explicaciones.
Décima sexta clase, Medidas de Dispersión
Las distribuciones binomial y normal.
Lic. Cristian R. Arroyo López
Lic. Cristian R. Arroyo López
ESTADÍGRAFOS DE DISPERSIÓN
Medidas de centralización para datos no agrupados
Estadística Unidad III
ESTADÍSTICA DESCRIPTIVA
Descripción de los datos: medidas de dispersión
Medidas de Posición Central:
Métodos Cuantitativos Aplicados a Los Negocios.
Ejemplo A continuación aparecen las tasas de retorno de dos fondos de inversión durante los últimos 10 años. 1. ¿Cuál es más riesgoso? 2. ¿En cuál invertiría.
Unidad de competencia II Estadística descriptiva:
Unidad de competencia II Estadística descriptiva:
MÉTODOS ESTADÍSTICOS.
Adaptación por el autor de apuntes de clases dictadas por la Dra. G Castle en la Universidad de Liverpool, enriquecidas con experiencias del propio autor.
Capítulo 4 Otras medidas descriptivas
Capítulo 3 Descripción de datos, medidas de tendencia central
Estadística Administrativa I
Bioestadística Distribución Normal
Generación de Números Seudo-Aleatorios
MEDIDAS DE TENDENCIA CENTRAL A.7.1.
} LISSET BÁRCENAS MONTERROZA
DIRECCIÓN DE ESTADÍSTICAS DE LA PROVINCIA
FRANCISCO JAVIER RODRÍGUEZ
La ley de los grandes números
Curso de Hidrología Caudales Máximos II
Rango y Rango intercuartil
DISTINTOS TIPOS DE FRECUENCIAS
Introducción Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que junto a una medida que indique el valor alrededor del cual.
Probabilidad. Utilizar información extraída de una muestra para elaborar conclusiones respecto de las características de una población, implica un riesgo.
ESTADÍSTICA UNIDIMENSIONAL
Curso de Estadística Básica
Introducción Media y varianza poblacional Sea
Medidas de Dispersión Estadística E.S.O.
Estadística Administrativa I
Curso de Estadística Básica
Bioestadística III. Escala cuantitativa. n Cuando la escala de medición es cuantitativa, y el análisis requiere un solo valor numérico que resuma alguna.
MEDIDAS DE TENDENCIA CENTRAL
Análisis exploratorio de datos univariados
Estadística Descriptiva continuación
Tema 2: Parámetros Estadísticos
Medidas de resumen.
ESTADÍSTICAS DESCRIPTIVA
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Coeficiente de Variación
Fundamentos Matemáticos Medidas de tendencia central
Page 1 ESCUELA SUPERIOR POLITECNICA DE CHIMBORAZO FACULTAD DE INFORMATICA Y ELECTRONICA ESCUELA DE DISEÑO GRAFICO ESTADISTICA TEMA: estadista, entendimiento.
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión
LA ESTADÍSTICA PROF.: EDMUNDO C.PARDO H. CARACAS,OCTUBRE DE 2014
Bioestadística Tema 2: Estadísticos Bioestadística. U. Málaga.
Descripción de los datos: medidas de dispersión
Tipos de Variables.- Cualitativas. Describen cualidades de los elementos de la muestra. Nominales. Categorías excluyentes y sin orden. (Ej. Sexo) Ordinales.
Estimación y contraste de hipótesis
MEDIDAS DE TENDENCIA CENTRAL
Estadística descriptiva
Estadística descriptiva
Estadística y probabilidad aplicada a los negocios
Medidas de tendencia central
Estadística y probabilidad
Transcripción de la presentación:

Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Revisión de probabilidad y aplicaciones Análisis exploratorio de datos univariados

Revisión de conceptos sobre probabilidad Utilizamos las probabilidades para cuantificar la incertidumbre Eventos o sucesos, espacio muestral Ω, partición de Ω B Ω A C Diagramas de Venn

Axiomas de probabilidad 1) P(A) ≥ 0 si A є Ω 2) P(Ω) = 1 3) Si A 1, A 2,….A n son disjuntos dos a dos, P(A 1 U A 2 U…..U A n ) = P(A 1 ) + P(A 2 ) +…+ P(A n )

Interpretaciones de la probabilidad Ley de los grandes números (Ley “débil”) Interpretación bayesiana (subjetiva) Es el fundamento para estimar probabilidades a partir de las frecuencias. Frecuencia: “Casos favorables” / “Casos posibles” Interpretación frecuencista

Algunas propiedades: 0 ≤ P(A) ≤ 1 P(A U B) = P(A) + P(B) – P(A ∩ B)

Probabilidad condicional A ∩ B Es la probabilidad de que ocurra un suceso A, dada la ocurrencia de otro suceso B, de probabilidad no nula. Def: P(A | B) = P (A ∩ B) / P(B) con P(B)≠ 0 Ω Es un concepto especialmente importante porque en el clima hay muchas variables interaccionando.

Ejemplos 1) P(llueva mañana | hoy llovió) 3) P(ocurra un evento meteorológico | fue pronosticado) 2) P(TSM promedio en el Pacífico ecuatorial sea > 27,5 ºC mañana | hoy es > 28 ºC) 4) P(en Uruguay llueva por encima de “lo normal” en noviembre | en setiembre la TSM en el Pacífico ecuatorial está 1ºC por encima del promedio)

No confundir relaciones estadísticas con relaciones causa-efecto!!

DATOS ESTACIÓN METEOROLÓGICA CARRASCO Humedad Relativa y Precipitación Diciembre 1997 DIAHR (%)PP (mm)DIAHR (%)PP (mm)

Estimar: a) P( PP > 1 mm) b) P( PP > 1 mm mañana | PP > 1 mm hoy) c) P(HR > 75%) d) P( PP > 1 mm | HR > 75 %) e) P( PP > 1 mm | HR <= 75 %)

Independencia Concepto: Dos sucesos E 1 y E 2 son independientes si la ocurrencia de uno no afecta la ocurrencia del otro. Independencia ↔ P(E 1 ∩E 2 ) = P(E 1 ).P(E 2 ) o P(E 1 |E 2 )=P(E 1 ), o P(E 2 |E 1 )=P(E 2 ) Ej: 1) fenómenos naturales 2) pronósticos

Aplicación: Persistencia (o “memoria”) Es la existencia de dependencia estadística positiva entre valores sucesivos de una misma variable. La persistencia se da en diferentes escalas, dependiendo del fenómeno que se trate. Ej, TSM y presión atmosférica. Está asociada a la probabilidad condicional, y tiene consecuencias estadísticas.

Ley de probabilidad total Ω A Si los eventos E i forman una partición de Ω:

Teorema de Bayes Ω A Sirve para “invertir” probabilidades condicionales, combinando información previa con información nueva

Ejercicio: Estimar P(HR>75 % | PP> 1 mm), usando Bayes y los resultados anteriores. Verificar por cálculo directo.

Datos univariados Análisis exploratorio de datos

Datos climáticos  Observaciones (datos medidos; datos interpolados)  Salidas de modelos numéricos: Simulaciones o pronósticos (posibilidad de variar condiciones iniciales o de borde)

Robustez y resistencia Cuantiles (percentiles) Medidas numéricas de resumen Técnicas gráficas de resumen Análisis exploratorio de datos univariados

Robustez y resistencia Es deseable que un método de análisis de datos sea poco sensible a suposiciones sobre la naturaleza de los datos. P. ej., que los resultados no dependan esencialmente de que los datos sigan una distribución gaussiana. Un método es robusto cuando sus resultados no dependen esencialmente de cuál sea la distribución de los datos. Un método es resistente si no es influido considerablemente por unos pocos datos atípicos (“outliers”)

Ejemplo: dados los conjuntos { } y { } Distintas medidas de “tendencia central”: En ambos casos, el valor central es 15, pero los promedios son 15 y 23 respectivamente.

Estadísticos de orden de una muestra aleatoria Sea { x 1, x 2,..., x n } una muestra aleatoria de datos Se ordenan en forma ascendente: { x (1), x (2),..., x (n) } son los estadísticos de orden ( cumpliéndose que x (1) ≤ x (2) ≤ …≤ x (n) ) Ej: { }  { }

Cuantiles de una muestra aleatoria (percentiles) Ej.: 1) Sea la muestra aleatoria { } ¿Cómo podemos estimar un valor central que, en sentido amplio, deje probabilidad ½ a ambos lados?  { } Parece natural tomar un valor que deje la misma cantidad de datos a cada lado, en este caso el 2: { }. Se dice que la mediana de la muestra es 2. q 0.5 = 2 “percentil 50”

Cuantiles… Ej. 2) Sea ahora la muestra { } ¿Cuál será la mediana?  { } Convencionalmente, se suele tomar el promedio entre los dos valores centrales, o sea (1 + 4) /2 = 2.5. Pero, si no se tiene más información, podría elegirse cualquier valor en ese intervalo (1,4)

Generalizando, sea p tal que 0 < p < 1. Los p-quantiles (q p ) ( o percentiles) son valores que dejan,en cierto sentido, probabilidad p a su izquierda, y probabilidad 1-p a su derecha. p 1- p qpqp P(X ≤ q p ) = p P(X ≥ q p ) = 1 - p

Estimación de los cuantiles En general, los percentiles no son únicos y por lo tanto, no hay una única forma de estimarlos. Una forma posible para una muestra aleatoria de tamaño n es: 1)tomar los estadísticos de orden como los cuantiles (0.5/n), (1.5/n),..., ([n-0.5]/n) respectivamente 2) para los cuantiles con probabilidades entre (0.5/n) y ([n-0.5]/n), se interpola linealmente. 3) los valores mínimo o máximo de la muestra se asignan a los cuantiles para probabilidades fuera de ese rango.

Principales medidas numéricas de resumen de un conjunto de datos 1) Localización: valor de “tendencia central” del conjunto 2) Dispersión: alrededor del valor central 3) Simetría: cómo están distribuidos los datos respecto del valor central 4)…

Localización Media Mediana q 0.50 La mediana “divide el conjunto de datos en dos subconjuntos ordenados con igual cantidad de datos”. Importante: la mediana permite trabajar con estimaciones de probabilidades La media está comprendida entre el mínimo y el máximo de la muestra.

Ejemplo: (con muy pocos datos!!) (outlier) ?? Localización La media no es robusta ni resistente Se puede estimar que P (X ≥ 9) ~ 0.5 ~ P(X ≤ 9)

Los cuantiles más usados… Mediana q 0.5 Cuartiles, q 0.25, q 0.75 Terciles, q 0.33, q 0.66 Quintiles, deciles, q 0.05 q 0.95 Localización

Robustez vs. Eficiencia ¿Por qué se usa más la media que la mediana? Porque en el caso (“muy frecuente”) de una distribución gaussiana es un estimador más eficiente que la mediana: es decir que tiene menos dispersión alrededor del valor a estimar, o de otra forma, con menos valores (una muestra más pequeña) se obtiene la misma dispersión. Además, la media es más fácil de tratar matemáticamente, y es única para una muestra dada.

Matlab VariableComando mediamean cuantilquantile percentilprctile medianamedian

Dispersión Intervalo intercuartil IQR = q q 0.25 (Robusto y resistente) “No usa” el 25% superior e inferior de los datos

Dispersión Desviación estándar muestral (σ 2 = varianza de la población) (Ni robusta ni resistente) Desviación absoluta de la mediana MAD = median |x i – q 0.5 |

Simetría Coeficiente de asimetría de la muestra Ambos son adimensionados γ < 0 γ > 0 Indice de Yule-Kendall

Técnicas gráficas de resumen Boxplots Histogramas Distribuciones de frecuencia acumulada

Boxplots (“barritas”)

Min = 3.20 q 0.25 = q 0.50 = q 0.75 = Max = Boxplots (“barritas”)

Temperatura diaria máxima en Melbourne Se destacan valores extremos inusuales

Histogramas Además de la localización, la dispersión, y la simetría, también muestran si los datos son multimodales

Histogramas Precipitación Rivera agosto mediana=78.5 mm media = 97.9 mm

Histogramas Precipitación Rivera abril mediana=110.5 mm media = mm

Histogramas

Distribuciones empíricas de frecuencia acumulada P (X ≤ x) mediana=110.5 mm P(X≤110.5) = mm

Distribuciones empíricas de frecuencia acumulada

Matlab “Variable”Comando Desviación estándar, varianza std var Intervalo intercuartil iqr Desv. abs. de la mediana mad histogramahist Distr. de frecuencia acumulada ecdf