La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Estadística para la bioinformática

Presentaciones similares


Presentación del tema: "Estadística para la bioinformática"— Transcripción de la presentación:

1 Estadística para la bioinformática
Ideas generales y estimación de parámetros

2 Referencias Libros Artículos
Ewens & Grant (2001), Statistical methods in Bioinformatics Durbin et al. (1998) Biological sequence analysis Canavos, G. Probabilidad y Estadística Artículos Liu, Z. Bayesian bioinformatics Bernardo Bayesian Statistics / Estadística Bayesiana (en català). 22/09/2018

3 Visión general En bioinformática, como en todo estudio científico, nos interesa: Construcción de modelos: CÁLCULO DE PROBABILIDADES Estimación de parámetros del modelo Inferencia estadística I: ESTIMACIÓN Decisión entre modelos alternativos Inferencia estadística II: CONTRASTES 22/09/2018

4 Datos, modelos e inferencias
22/09/2018

5 Las filosofías de la inferencia estadística

6 Enfoques para la inferencia
Según la perspectiva que se adopte para realizar la inducción  Si la única fuente de información son los datos: Estadística clásica o frecuentista Si se utiliza, para la inferencia, los datos y la información previa: Estadística o inferencia bayesiana Otros … 22/09/2018

7 Muestreo y verosimilitud
Inferencia clasica Muestreo y verosimilitud

8 Estadística y análisis de secuencias biológicas
Una secuencia Dos secuencias: Alineamientos locales o globales Alineamientos óptimos vs hurísticos Múltiples secuencias Alineamientos múltiples Filogenias 22/09/2018

9 Una sola secuencia Modelización del ADN Frecuencia de cada base/AA
En cualquier posición En una zona determinada Modelización de señales Matrices de pesos posicionales Búsqueda de patrones Identificación de genes 22/09/2018

10 Dos secuencias Construcción de alineamientos
Globales vs locales Óptimos vs heurísticos Puntuación de los alineamientos Sistemas de puntuación Matrices PAM, BLOSUM Significación de las puntuaciones 22/09/2018

11 Alineamientos múltiples
Construcción de alineamientos Métodos óptimos / heurísticos Modelos probabilísticos Perfiles  MMO de perfiles Árboles filogenéticos Métodos de construcción Estimación de parámetros 22/09/2018

12 Modelos, parámetros, muestras
Conceptos básicos Modelos, parámetros, muestras

13 Modelos estadísticos Sea
E un experimento aleatorio y  su espacio muestral  un resultado del experimento E X() una observación P una distribución de probabilidad de X Un modelo estadístico es una familia de probabilidades P tal que P 2 P 22/09/2018

14 Tipos de modelos Paramétricos No paramétricos Semiparamétricos
{P 2 F, distribución en Rn} Semiparamétricos 2 componentes {G1, G2 2 F} 22/09/2018

15 Muestreo aleatorio simple
Una muestra aleatoria simple de tamaño n de una población X es un vector aleatorio n-dimensional cuyas componentes son independientes y con la misma distribución que X 22/09/2018

16 Distribución conjunta de una m.a.s
Dada una población X ~f(x;) La distribución conjunta de X es, 22/09/2018

17 Función de verosimilitud
La f.d.d.p. conjunta f(x;) es función de la muestra con q fijo Vista cómo función de q y con la muestra fija recibe el nombre de función de verosimilitud (“Likelihood”) 22/09/2018

18 Interpretación de la verosimilitud
Si X es una v.a. discreta, la función de verosimilitud se puede interpretar como la probabilidad de una muestra dada para cada valor del parámetro 22/09/2018

19 Ejemplo 1: Bernouilli / Binomial
X: # de coincidencias (A) en alinea-mientos de secuencias de longitud n. Observamos A (X=1) o Ac (X=0) Podemos considerar 2 modelos Muestra de tamaño n de una v.a. Y, on: Muestra de tamaño 1 de una v.a. X on 22/09/2018

20 La verosimilitud de cada modelo és:
Ambas verosimilitudes son propor-cionales irrelevante en la práctica 22/09/2018

21 La función de verosimilitud
22/09/2018

22 Algunas log-verosimilitudes
22/09/2018

23 Versosimilitud  Probabilidad
22/09/2018

24 Inferencia y verosimilitud
El enfoque frecuentista basa las inferencias únicamente en los datos En general, aunque no siempre, la inferencia se realiza a través de la función de verosimilitud Para leer más: Likelihood (Edwards) 22/09/2018

25 Estimadores y estimaciones
Estimación Estimadores y estimaciones

26 Estimación estadística
Dado un modelo de probabilidad X» P un objetivo habitual es intentar conocer el valor de  a partir de una m.a.s. Para ello debemos disponer de un estimador del parámetro, es decir alguna función de la muestra cuyos valores se aproximen, en algún sentido a los del parámetro. 22/09/2018

27 Estimadores y Estimaciones
Una m.a.s. X, es un vector aleatorio: X1, X2, …, Xn de un modelo estadístico. Un estimador es una función de la m.a.s. Una observación es una realización (valores concretos) de una m.a.s. x=x1, x2, …, xn. Una estimación es el valor del estimador calculado sobre las observaciones 22/09/2018

28 Métodos de estimación Existen diversos (muchos) métodos para construir estimadores. M. de los momentos Estimadores máximo verosímiles Estimadores bayesianos 22/09/2018

29 Métodos de Estimación (1)
Estimación máximo verosimil (MLE)

30 Estimador de máxima verosimilitud
Observemos los gráficos de  - L(; x) (1) (2) Parece razonable cómo estimador aquel valor de q que haga máxima la verosimilitud Más sencillo basado en el logaritmo (función monótona) de L(; x) Resolución: Analítica: casos sencillos Métodos numéricos: Newton-Raphston, EM 22/09/2018

31 EMV (ej. 1): Binomial / Bernouilli
El EMV de una probabilidad resulta ser la frecuencia relativa 22/09/2018

32 Ejemplo 2: Trinomial Supongamos que se observa A1,A2, o A3.
Muestra de tamaño n : n observaciones d’una “tribernouilli”, Y, Toma valores (1,0,0), (0,1,0), (0,0,1) Con probabilidades p1, p2, (1-p1-p2) Una observación (n1,n2,n3) de una multinomial X~M(n, p1, p2, (1-p1-p2)) 22/09/2018

33 EMV en una distribución trinomial
Dadas n observaciones (vectoriales) la verosimilitud del modelo es: El EMV del vector de probabilidades es el vector de frecuencias relativas 22/09/2018

34 Ejercicio Escribir un programa de ordenador que
Lea un fichero (SEQDATA.FAS) en formato FASTA que contenga una secuencia de ADN/ARN de longitud variable Saque por pantalla una tabla con las frecuencias absolutas y relativas de los distintos nucleótidos encontrados Lea de un fichero (PARAMS.TXT) las probabilidades “teóricas” y calcule la log-verosimilitud de la muestra según un modelo multinomial 22/09/2018

35 Métodos de Estimación (2)
(1): El enfoque Bayesiano

36 El enfoque bayesiano Intenta utilizar toda la información disponible para hacer inferencia Los datos Ideas previas/Información sobre los valores que toma Modeliza la incertidumbre sobre  mediante una distribución de probabilidad  a prior 22/09/2018

37 Modelos Bayesianos Una familia de probabilidades para los datos X~{P, 2 } Distribución de probabilidad (prior) () para  La inferencia se basa en la distribución posterior (|X=x) 22/09/2018

38 Proceso de Analisis Bayesiano
Establecer un modelo probabilístico para todas las “variables” Distribución de los datos, dado el parámetro Distribución prior del parámetro Distribución conjunta de datos y parámetros Resumir las cantidades de interes mediante la distribución posterior Evaluar la adecuación del modelo y sugerir posibles mejorías 22/09/2018

39 Distribuciones iniciales
Distribución de los datos, dado el parámetro: verosimilitud: P(yobs|) Distr. prior del parámetro: () Distr. conjunta datos y parámetros P(yobs , ) = P(yobs|)·() 22/09/2018

40 Distribución posterior
La inferencia Bayesiana se realiza a partir de la distribució posterior P(|yobs) La distribución posterior se obtiene aplicando el Teorema de Bayes para funciones de probabilidad 22/09/2018

41 Teorema de Bayes para funciones de probabilidad
D. marginal de los datos (verosimilitud marginal) D. posterior Constante de normalización 22/09/2018

42 Distribuciones discretas
En distribuciones discretas sustituímos las integrales per sumatorios 22/09/2018

43 Ej. 3: Prior discreta para p (Binomial)
22/09/2018

44 Comparación prior-posterior
22/09/2018

45 (2) Estimación Bayesiana

46 Estimación bayesiana Se basa en la distribución posterior para realizar inferencia Normalmente se utilizan características de dicha distribución Media de p(|yobs)  E(|yobs)() Moda de p(|yobs)  arg max  (p(|yobs) Mediana de p(|yobs) 22/09/2018

47 Cálculo de esperanzas en I. Bayesiana
Enfoque Bayesiano: 2 etapas clave 1. Desarrollo de un modelo que represente el problema adecuadamente 2. Realización de los cálculos necesarios para obtener la D. posterior Distribución marginal, Esperanza de la distribució condicional, etc La dificultad de algunos de éstos cálculos ha sido una barrera en la adopción del enfoque bayesiano en la práctica 22/09/2018

48 Estimación bayesiana de p (sigue ej. 3)
22/09/2018

49 Herramientas para el cálculo
Existen diversos procedimientos para hacer posible el realizar los cálculos Métodos analíticos: Priors conjugadas Métodos basados en la simulación Monte Carlo basado en Cadenas de Markov (MCMC) Muestreo de Gibbs 22/09/2018

50 Priors conjugadas Una familia de distribuciones para  con igual forma funcional que la verosimilitud Su uso  la forma funcional de la posterior es la misma que la de la prior, pero con parámetros distintos Esto permite ver la obtención de la distribución posterior como una simple actualización de los parámetros a la vista de los datos 22/09/2018

51 Distribuciones conjugadas
22/09/2018

52 Ejemplo: Estimación de p (binomial)
Comparamos la estimación de p por Método de máxima verosimilitud Estimación Bayesiana Consideremos de entrada las tres distribuciones iniciales 22/09/2018 16 22

53 Estimador máximo verosímil de p
Hemos visto que la EMV de p es: 22/09/2018

54 Estimación Bayesiana 22/09/2018 22 28

55 Priors Conjugadas La distribución beta es conjugada de la binomial
Dado que las observaciones (la verosimilitud) siguen una distribución binomial sabemos que, si tomamos una distribución prior beta para el parámetro, p entonces la distribución posterior también será una beta. 22/09/2018 18 24

56 Distribución conjunta de la sucesión de tiradas
h es el número de veces que observamos “A” t es el número de veces que observamos “AC” 22/09/2018

57 Verosimilitud marginal: fdp de los datos
22/09/2018 23 29

58 Posterior conjugada: Beta
22/09/2018 25 31

59 Distribució prior:Uniforme = Beta (1,1)
22/09/2018 32

60 D. Posterior: Beta (1+nº de cruces, 1+nº de caras)
22/09/2018 33

61 Estimación Bayesiana: Media de la distribución posterior
La distribución posterior es una Beta  no es preciso ningún cálculo adicional para obtener el estimador de Bayes Si X~Be(a,b) E(X)=a/(a+b) luego: el estimador de Bayes de p és: 22/09/2018

62 Comparación de los 2 estimadores
En 20 tiradas se obtuvieron 8 caras Prior ~U(0,1)=Be(1,1) Si se obtiene 0 caras en 5 tiradas la diferencia habría sido importante 22/09/2018

63 Inferencia bayesiana en Bioinformática
The bayesian method and introduction to Bayesian segmentation Bayesian Inference on Biopolimer models 22/09/2018


Descargar ppt "Estadística para la bioinformática"

Presentaciones similares


Anuncios Google