La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Revisión de probabilidad.

Presentaciones similares


Presentación del tema: "Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Revisión de probabilidad."— Transcripción de la presentación:

1 Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Revisión de probabilidad y aplicaciones Análisis exploratorio de datos univariados

2 Revisión de conceptos sobre probabilidad Utilizamos las probabilidades para cuantificar la incertidumbre Eventos o sucesos, espacio muestral Ω, partición de Ω B Ω A C Diagramas de Venn

3 Axiomas de probabilidad 1) P(A) ≥ 0 si A є Ω 2) P(Ω) = 1 3) Si A 1, A 2,….A n son disjuntos dos a dos, P(A 1 U A 2 U…..U A n ) = P(A 1 ) + P(A 2 ) +…+ P(A n )

4 Interpretaciones de la probabilidad Ley de los grandes números (Ley “débil”) Interpretación bayesiana (subjetiva) Es el fundamento para estimar probabilidades a partir de las frecuencias. Frecuencia: “Casos favorables” / “Casos posibles” Interpretación frecuencista

5 Algunas propiedades: 0 ≤ P(A) ≤ 1 P(A U B) = P(A) + P(B) – P(A ∩ B)

6 Probabilidad condicional A ∩ B Es la probabilidad de que ocurra un suceso A, dada la ocurrencia de otro suceso B, de probabilidad no nula. Def: P(A | B) = P (A ∩ B) / P(B) con P(B)≠ 0 Ω Es un concepto especialmente importante porque en el clima hay muchas variables interaccionando.

7 Ejemplos 1) P(llueva mañana | hoy llovió) 3) P(ocurra un evento meteorológico | fue pronosticado) 2) P(TSM promedio en el Pacífico ecuatorial sea > 27,5 ºC mañana | hoy es > 28 ºC) 4) P(en Uruguay llueva por encima de “lo normal” en noviembre | en setiembre la TSM en el Pacífico ecuatorial está 1ºC por encima del promedio)

8 No confundir relaciones estadísticas con relaciones causa-efecto!!

9 DATOS ESTACIÓN METEOROLÓGICA CARRASCO Humedad Relativa y Precipitación Diciembre 1997 DIAHR (%)PP (mm)DIAHR (%)PP (mm) 171017700 254018750 36123.8819920 452020860 570021740 6670228913.97 78523.11238884.07 865024810 9 025800 10913.0526945.08 11892.03277729.97 1298028670 13978.8929810 148227.9430731.02 15727.1131630 16650

10 Estimar: a) P( PP > 1 mm) b) P( PP > 1 mm mañana | PP > 1 mm hoy) c) P(HR > 75%) d) P( PP > 1 mm | HR > 75 %) e) P( PP > 1 mm | HR <= 75 %)

11 Independencia Concepto: Dos sucesos E 1 y E 2 son independientes si la ocurrencia de uno no afecta la ocurrencia del otro. Independencia ↔ P(E 1 ∩E 2 ) = P(E 1 ).P(E 2 ) o P(E 1 |E 2 )=P(E 1 ), o P(E 2 |E 1 )=P(E 2 ) Ej: 1) fenómenos naturales 2) pronósticos

12 Aplicación: Persistencia (o “memoria”) Es la existencia de dependencia estadística positiva entre valores sucesivos de una misma variable. La persistencia se da en diferentes escalas, dependiendo del fenómeno que se trate. Ej, TSM y presión atmosférica. Está asociada a la probabilidad condicional, y tiene consecuencias estadísticas.

13 Ley de probabilidad total Ω A Si los eventos E i forman una partición de Ω:

14 Teorema de Bayes Ω A Sirve para “invertir” probabilidades condicionales, combinando información previa con información nueva

15 Ejercicio: Estimar P(HR>75 % | PP> 1 mm), usando Bayes y los resultados anteriores. Verificar por cálculo directo.

16 Datos univariados Análisis exploratorio de datos

17 Datos climáticos  Observaciones (datos medidos; datos interpolados)  Salidas de modelos numéricos: Simulaciones o pronósticos (posibilidad de variar condiciones iniciales o de borde)

18 Robustez y resistencia Cuantiles (percentiles) Medidas numéricas de resumen Técnicas gráficas de resumen Análisis exploratorio de datos univariados

19 Robustez y resistencia Es deseable que un método de análisis de datos sea poco sensible a suposiciones sobre la naturaleza de los datos. P. ej., que los resultados no dependan esencialmente de que los datos sigan una distribución gaussiana. Un método es robusto cuando sus resultados no dependen esencialmente de cuál sea la distribución de los datos. Un método es resistente si no es influido considerablemente por unos pocos datos atípicos (“outliers”)

20 Ejemplo: dados los conjuntos {11 12 13 14 15 16 17 18 19} y {11 12 13 14 15 16 17 18 91} Distintas medidas de “tendencia central”: En ambos casos, el valor central es 15, pero los promedios son 15 y 23 respectivamente.

21 Estadísticos de orden de una muestra aleatoria Sea { x 1, x 2,..., x n } una muestra aleatoria de datos Se ordenan en forma ascendente: { x (1), x (2),..., x (n) } son los estadísticos de orden ( cumpliéndose que x (1) ≤ x (2) ≤ …≤ x (n) ) Ej: {7 -2 1 7 -3 4 0}  {-3 -2 0 1 4 7 7}

22 Cuantiles de una muestra aleatoria (percentiles) Ej.: 1) Sea la muestra aleatoria {7 -2 2 7 -3 4 0} ¿Cómo podemos estimar un valor central que, en sentido amplio, deje probabilidad ½ a ambos lados?  {-3 -2 0 2 4 7 7} Parece natural tomar un valor que deje la misma cantidad de datos a cada lado, en este caso el 2: {-3 -2 0 2 4 7 7}. Se dice que la mediana de la muestra es 2. q 0.5 = 2 “percentil 50”

23 Cuantiles… Ej. 2) Sea ahora la muestra {7 1 7 -3 4 0} ¿Cuál será la mediana?  {-3 0 1 4 7 7} Convencionalmente, se suele tomar el promedio entre los dos valores centrales, o sea (1 + 4) /2 = 2.5. Pero, si no se tiene más información, podría elegirse cualquier valor en ese intervalo (1,4)

24 Generalizando, sea p tal que 0 < p < 1. Los p-quantiles (q p ) ( o percentiles) son valores que dejan,en cierto sentido, probabilidad p a su izquierda, y probabilidad 1-p a su derecha. p 1- p qpqp P(X ≤ q p ) = p P(X ≥ q p ) = 1 - p

25 Estimación de los cuantiles En general, los percentiles no son únicos y por lo tanto, no hay una única forma de estimarlos. Una forma posible para una muestra aleatoria de tamaño n es: 1)tomar los estadísticos de orden como los cuantiles (0.5/n), (1.5/n),..., ([n-0.5]/n) respectivamente 2) para los cuantiles con probabilidades entre (0.5/n) y ([n-0.5]/n), se interpola linealmente. 3) los valores mínimo o máximo de la muestra se asignan a los cuantiles para probabilidades fuera de ese rango.

26 Principales medidas numéricas de resumen de un conjunto de datos 1) Localización: valor de “tendencia central” del conjunto 2) Dispersión: alrededor del valor central 3) Simetría: cómo están distribuidos los datos respecto del valor central 4)…

27 Localización Media Mediana q 0.50 La mediana “divide el conjunto de datos en dos subconjuntos ordenados con igual cantidad de datos”. Importante: la mediana permite trabajar con estimaciones de probabilidades La media está comprendida entre el mínimo y el máximo de la muestra.

28 Ejemplo: (con muy pocos datos!!) 2 4 9 11 14 2 4 9 11 7004 (outlier) ?? Localización La media no es robusta ni resistente Se puede estimar que P (X ≥ 9) ~ 0.5 ~ P(X ≤ 9)

29 Los cuantiles más usados… Mediana q 0.5 Cuartiles, q 0.25, q 0.75 Terciles, q 0.33, q 0.66 Quintiles, deciles, q 0.05 q 0.95 Localización

30 Robustez vs. Eficiencia ¿Por qué se usa más la media que la mediana? Porque en el caso (“muy frecuente”) de una distribución gaussiana es un estimador más eficiente que la mediana: es decir que tiene menos dispersión alrededor del valor a estimar, o de otra forma, con menos valores (una muestra más pequeña) se obtiene la misma dispersión. Además, la media es más fácil de tratar matemáticamente, y es única para una muestra dada.

31 Matlab VariableComando mediamean cuantilquantile percentilprctile medianamedian

32 Dispersión Intervalo intercuartil IQR = q 0.75 - q 0.25 (Robusto y resistente) “No usa” el 25% superior e inferior de los datos

33 Dispersión Desviación estándar muestral (σ 2 = varianza de la población) (Ni robusta ni resistente) Desviación absoluta de la mediana MAD = median |x i – q 0.5 |

34 Simetría Coeficiente de asimetría de la muestra Ambos son adimensionados γ < 0 γ > 0 Indice de Yule-Kendall

35 Técnicas gráficas de resumen Boxplots Histogramas Distribuciones de frecuencia acumulada

36 Boxplots (“barritas”)

37 0 10 20 30 40 50 60 70 80 90 100 110 120 130..... Min = 3.20 q 0.25 = 43.645 q 0.50 = 60.345 q 0.75 = 84.96 Max = 124.27 Boxplots (“barritas”)

38 Temperatura diaria máxima en Melbourne Se destacan valores extremos inusuales

39 Histogramas Además de la localización, la dispersión, y la simetría, también muestran si los datos son multimodales

40 Histogramas Precipitación Rivera agosto 1914-1997 mediana=78.5 mm media = 97.9 mm

41 Histogramas Precipitación Rivera abril 1914-1997 mediana=110.5 mm media = 141.7 mm

42 Histogramas

43 Distribuciones empíricas de frecuencia acumulada P (X ≤ x) mediana=110.5 mm P(X≤110.5) = 0.5 110.5 mm

44 Distribuciones empíricas de frecuencia acumulada

45 Matlab “Variable”Comando Desviación estándar, varianza std var Intervalo intercuartil iqr Desv. abs. de la mediana mad histogramahist Distr. de frecuencia acumulada ecdf


Descargar ppt "Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Revisión de probabilidad."

Presentaciones similares


Anuncios Google