Estadística para la bioinformática Ideas generales y estimación de parámetros
Referencias Libros Artículos Ewens & Grant (2001), Statistical methods in Bioinformatics Durbin et al. (1998) Biological sequence analysis Canavos, G. Probabilidad y Estadística Artículos Liu, Z. Bayesian bioinformatics Bernardo Bayesian Statistics / Estadística Bayesiana (en català). http://www.uv.es/~bernardo/teaching.html 22/09/2018
Visión general En bioinformática, como en todo estudio científico, nos interesa: Construcción de modelos: CÁLCULO DE PROBABILIDADES Estimación de parámetros del modelo Inferencia estadística I: ESTIMACIÓN Decisión entre modelos alternativos Inferencia estadística II: CONTRASTES 22/09/2018
Datos, modelos e inferencias 22/09/2018
Las filosofías de la inferencia estadística
Enfoques para la inferencia Según la perspectiva que se adopte para realizar la inducción Si la única fuente de información son los datos: Estadística clásica o frecuentista Si se utiliza, para la inferencia, los datos y la información previa: Estadística o inferencia bayesiana Otros … 22/09/2018
Muestreo y verosimilitud Inferencia clasica Muestreo y verosimilitud
Estadística y análisis de secuencias biológicas Una secuencia Dos secuencias: Alineamientos locales o globales Alineamientos óptimos vs hurísticos Múltiples secuencias Alineamientos múltiples Filogenias 22/09/2018
Una sola secuencia Modelización del ADN Frecuencia de cada base/AA En cualquier posición En una zona determinada Modelización de señales Matrices de pesos posicionales Búsqueda de patrones Identificación de genes 22/09/2018
Dos secuencias Construcción de alineamientos Globales vs locales Óptimos vs heurísticos Puntuación de los alineamientos Sistemas de puntuación Matrices PAM, BLOSUM Significación de las puntuaciones 22/09/2018
Alineamientos múltiples Construcción de alineamientos Métodos óptimos / heurísticos Modelos probabilísticos Perfiles MMO de perfiles Árboles filogenéticos Métodos de construcción Estimación de parámetros 22/09/2018
Modelos, parámetros, muestras Conceptos básicos Modelos, parámetros, muestras
Modelos estadísticos Sea E un experimento aleatorio y su espacio muestral un resultado del experimento E X() una observación P una distribución de probabilidad de X Un modelo estadístico es una familia de probabilidades P tal que P 2 P 22/09/2018
Tipos de modelos Paramétricos No paramétricos Semiparamétricos {P 2 F, distribución en Rn} Semiparamétricos 2 componentes {G1, G2 2 F} 22/09/2018
Muestreo aleatorio simple Una muestra aleatoria simple de tamaño n de una población X es un vector aleatorio n-dimensional cuyas componentes son independientes y con la misma distribución que X 22/09/2018
Distribución conjunta de una m.a.s Dada una población X ~f(x;) La distribución conjunta de X es, 22/09/2018
Función de verosimilitud La f.d.d.p. conjunta f(x;) es función de la muestra con q fijo Vista cómo función de q y con la muestra fija recibe el nombre de función de verosimilitud (“Likelihood”) 22/09/2018
Interpretación de la verosimilitud Si X es una v.a. discreta, la función de verosimilitud se puede interpretar como la probabilidad de una muestra dada para cada valor del parámetro 22/09/2018
Ejemplo 1: Bernouilli / Binomial X: # de coincidencias (A) en alinea-mientos de secuencias de longitud n. Observamos A (X=1) o Ac (X=0) Podemos considerar 2 modelos Muestra de tamaño n de una v.a. Y, on: Muestra de tamaño 1 de una v.a. X on 22/09/2018
La verosimilitud de cada modelo és: Ambas verosimilitudes son propor-cionales irrelevante en la práctica 22/09/2018
La función de verosimilitud 22/09/2018
Algunas log-verosimilitudes 22/09/2018
Versosimilitud Probabilidad 22/09/2018
Inferencia y verosimilitud El enfoque frecuentista basa las inferencias únicamente en los datos En general, aunque no siempre, la inferencia se realiza a través de la función de verosimilitud Para leer más: Likelihood (Edwards) 22/09/2018
Estimadores y estimaciones Estimación Estimadores y estimaciones
Estimación estadística Dado un modelo de probabilidad X» P un objetivo habitual es intentar conocer el valor de a partir de una m.a.s. Para ello debemos disponer de un estimador del parámetro, es decir alguna función de la muestra cuyos valores se aproximen, en algún sentido a los del parámetro. 22/09/2018
Estimadores y Estimaciones Una m.a.s. X, es un vector aleatorio: X1, X2, …, Xn de un modelo estadístico. Un estimador es una función de la m.a.s. Una observación es una realización (valores concretos) de una m.a.s. x=x1, x2, …, xn. Una estimación es el valor del estimador calculado sobre las observaciones 22/09/2018
Métodos de estimación Existen diversos (muchos) métodos para construir estimadores. M. de los momentos Estimadores máximo verosímiles Estimadores bayesianos 22/09/2018
Métodos de Estimación (1) Estimación máximo verosimil (MLE)
Estimador de máxima verosimilitud Observemos los gráficos de - L(; x) (1) (2) Parece razonable cómo estimador aquel valor de q que haga máxima la verosimilitud Más sencillo basado en el logaritmo (función monótona) de L(; x) Resolución: Analítica: casos sencillos Métodos numéricos: Newton-Raphston, EM 22/09/2018
EMV (ej. 1): Binomial / Bernouilli El EMV de una probabilidad resulta ser la frecuencia relativa 22/09/2018
Ejemplo 2: Trinomial Supongamos que se observa A1,A2, o A3. Muestra de tamaño n : n observaciones d’una “tribernouilli”, Y, Toma valores (1,0,0), (0,1,0), (0,0,1) Con probabilidades p1, p2, (1-p1-p2) Una observación (n1,n2,n3) de una multinomial X~M(n, p1, p2, (1-p1-p2)) 22/09/2018
EMV en una distribución trinomial Dadas n observaciones (vectoriales) la verosimilitud del modelo es: El EMV del vector de probabilidades es el vector de frecuencias relativas 22/09/2018
Ejercicio Escribir un programa de ordenador que Lea un fichero (SEQDATA.FAS) en formato FASTA que contenga una secuencia de ADN/ARN de longitud variable Saque por pantalla una tabla con las frecuencias absolutas y relativas de los distintos nucleótidos encontrados Lea de un fichero (PARAMS.TXT) las probabilidades “teóricas” y calcule la log-verosimilitud de la muestra según un modelo multinomial 22/09/2018
Métodos de Estimación (2) (1): El enfoque Bayesiano
El enfoque bayesiano Intenta utilizar toda la información disponible para hacer inferencia Los datos Ideas previas/Información sobre los valores que toma Modeliza la incertidumbre sobre mediante una distribución de probabilidad a prior 22/09/2018
Modelos Bayesianos Una familia de probabilidades para los datos X~{P, 2 } Distribución de probabilidad (prior) () para La inferencia se basa en la distribución posterior (|X=x) 22/09/2018
Proceso de Analisis Bayesiano Establecer un modelo probabilístico para todas las “variables” Distribución de los datos, dado el parámetro Distribución prior del parámetro Distribución conjunta de datos y parámetros Resumir las cantidades de interes mediante la distribución posterior Evaluar la adecuación del modelo y sugerir posibles mejorías 22/09/2018
Distribuciones iniciales Distribución de los datos, dado el parámetro: verosimilitud: P(yobs|) Distr. prior del parámetro: () Distr. conjunta datos y parámetros P(yobs , ) = P(yobs|)·() 22/09/2018
Distribución posterior La inferencia Bayesiana se realiza a partir de la distribució posterior P(|yobs) La distribución posterior se obtiene aplicando el Teorema de Bayes para funciones de probabilidad 22/09/2018
Teorema de Bayes para funciones de probabilidad D. marginal de los datos (verosimilitud marginal) D. posterior Constante de normalización 22/09/2018
Distribuciones discretas En distribuciones discretas sustituímos las integrales per sumatorios 22/09/2018
Ej. 3: Prior discreta para p (Binomial) 22/09/2018
Comparación prior-posterior 22/09/2018
(2) Estimación Bayesiana
Estimación bayesiana Se basa en la distribución posterior para realizar inferencia Normalmente se utilizan características de dicha distribución Media de p(|yobs) E(|yobs)() Moda de p(|yobs) arg max (p(|yobs) Mediana de p(|yobs) 22/09/2018
Cálculo de esperanzas en I. Bayesiana Enfoque Bayesiano: 2 etapas clave 1. Desarrollo de un modelo que represente el problema adecuadamente 2. Realización de los cálculos necesarios para obtener la D. posterior Distribución marginal, Esperanza de la distribució condicional, etc La dificultad de algunos de éstos cálculos ha sido una barrera en la adopción del enfoque bayesiano en la práctica 22/09/2018
Estimación bayesiana de p (sigue ej. 3) 22/09/2018
Herramientas para el cálculo Existen diversos procedimientos para hacer posible el realizar los cálculos Métodos analíticos: Priors conjugadas Métodos basados en la simulación Monte Carlo basado en Cadenas de Markov (MCMC) Muestreo de Gibbs 22/09/2018
Priors conjugadas Una familia de distribuciones para con igual forma funcional que la verosimilitud Su uso la forma funcional de la posterior es la misma que la de la prior, pero con parámetros distintos Esto permite ver la obtención de la distribución posterior como una simple actualización de los parámetros a la vista de los datos 22/09/2018
Distribuciones conjugadas 22/09/2018
Ejemplo: Estimación de p (binomial) Comparamos la estimación de p por Método de máxima verosimilitud Estimación Bayesiana Consideremos de entrada las tres distribuciones iniciales 22/09/2018 16 22
Estimador máximo verosímil de p Hemos visto que la EMV de p es: 22/09/2018
Estimación Bayesiana 22/09/2018 22 28
Priors Conjugadas La distribución beta es conjugada de la binomial Dado que las observaciones (la verosimilitud) siguen una distribución binomial sabemos que, si tomamos una distribución prior beta para el parámetro, p entonces la distribución posterior también será una beta. 22/09/2018 18 24
Distribución conjunta de la sucesión de tiradas h es el número de veces que observamos “A” t es el número de veces que observamos “AC” 22/09/2018
Verosimilitud marginal: fdp de los datos 22/09/2018 23 29
Posterior conjugada: Beta 22/09/2018 25 31
Distribució prior:Uniforme = Beta (1,1) 22/09/2018 32
D. Posterior: Beta (1+nº de cruces, 1+nº de caras) 22/09/2018 33
Estimación Bayesiana: Media de la distribución posterior La distribución posterior es una Beta no es preciso ningún cálculo adicional para obtener el estimador de Bayes Si X~Be(a,b) E(X)=a/(a+b) luego: el estimador de Bayes de p és: 22/09/2018
Comparación de los 2 estimadores En 20 tiradas se obtuvieron 8 caras Prior ~U(0,1)=Be(1,1) Si se obtiene 0 caras en 5 tiradas la diferencia habría sido importante 22/09/2018
Inferencia bayesiana en Bioinformática The bayesian method and introduction to Bayesian segmentation Bayesian Inference on Biopolimer models 22/09/2018