Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Estadística para la bioinformática
Ideas generales y estimación de parámetros
2
Referencias Libros Artículos
Ewens & Grant (2001), Statistical methods in Bioinformatics Durbin et al. (1998) Biological sequence analysis Canavos, G. Probabilidad y Estadística Artículos Liu, Z. Bayesian bioinformatics Bernardo Bayesian Statistics / Estadística Bayesiana (en català). 22/09/2018
3
Visión general En bioinformática, como en todo estudio científico, nos interesa: Construcción de modelos: CÁLCULO DE PROBABILIDADES Estimación de parámetros del modelo Inferencia estadística I: ESTIMACIÓN Decisión entre modelos alternativos Inferencia estadística II: CONTRASTES 22/09/2018
4
Datos, modelos e inferencias
22/09/2018
5
Las filosofías de la inferencia estadística
6
Enfoques para la inferencia
Según la perspectiva que se adopte para realizar la inducción Si la única fuente de información son los datos: Estadística clásica o frecuentista Si se utiliza, para la inferencia, los datos y la información previa: Estadística o inferencia bayesiana Otros … 22/09/2018
7
Muestreo y verosimilitud
Inferencia clasica Muestreo y verosimilitud
8
Estadística y análisis de secuencias biológicas
Una secuencia Dos secuencias: Alineamientos locales o globales Alineamientos óptimos vs hurísticos Múltiples secuencias Alineamientos múltiples Filogenias 22/09/2018
9
Una sola secuencia Modelización del ADN Frecuencia de cada base/AA
En cualquier posición En una zona determinada Modelización de señales Matrices de pesos posicionales Búsqueda de patrones Identificación de genes 22/09/2018
10
Dos secuencias Construcción de alineamientos
Globales vs locales Óptimos vs heurísticos Puntuación de los alineamientos Sistemas de puntuación Matrices PAM, BLOSUM Significación de las puntuaciones 22/09/2018
11
Alineamientos múltiples
Construcción de alineamientos Métodos óptimos / heurísticos Modelos probabilísticos Perfiles MMO de perfiles Árboles filogenéticos Métodos de construcción Estimación de parámetros 22/09/2018
12
Modelos, parámetros, muestras
Conceptos básicos Modelos, parámetros, muestras
13
Modelos estadísticos Sea
E un experimento aleatorio y su espacio muestral un resultado del experimento E X() una observación P una distribución de probabilidad de X Un modelo estadístico es una familia de probabilidades P tal que P 2 P 22/09/2018
14
Tipos de modelos Paramétricos No paramétricos Semiparamétricos
{P 2 F, distribución en Rn} Semiparamétricos 2 componentes {G1, G2 2 F} 22/09/2018
15
Muestreo aleatorio simple
Una muestra aleatoria simple de tamaño n de una población X es un vector aleatorio n-dimensional cuyas componentes son independientes y con la misma distribución que X 22/09/2018
16
Distribución conjunta de una m.a.s
Dada una población X ~f(x;) La distribución conjunta de X es, 22/09/2018
17
Función de verosimilitud
La f.d.d.p. conjunta f(x;) es función de la muestra con q fijo Vista cómo función de q y con la muestra fija recibe el nombre de función de verosimilitud (“Likelihood”) 22/09/2018
18
Interpretación de la verosimilitud
Si X es una v.a. discreta, la función de verosimilitud se puede interpretar como la probabilidad de una muestra dada para cada valor del parámetro 22/09/2018
19
Ejemplo 1: Bernouilli / Binomial
X: # de coincidencias (A) en alinea-mientos de secuencias de longitud n. Observamos A (X=1) o Ac (X=0) Podemos considerar 2 modelos Muestra de tamaño n de una v.a. Y, on: Muestra de tamaño 1 de una v.a. X on 22/09/2018
20
La verosimilitud de cada modelo és:
Ambas verosimilitudes son propor-cionales irrelevante en la práctica 22/09/2018
21
La función de verosimilitud
22/09/2018
22
Algunas log-verosimilitudes
22/09/2018
23
Versosimilitud Probabilidad
22/09/2018
24
Inferencia y verosimilitud
El enfoque frecuentista basa las inferencias únicamente en los datos En general, aunque no siempre, la inferencia se realiza a través de la función de verosimilitud Para leer más: Likelihood (Edwards) 22/09/2018
25
Estimadores y estimaciones
Estimación Estimadores y estimaciones
26
Estimación estadística
Dado un modelo de probabilidad X» P un objetivo habitual es intentar conocer el valor de a partir de una m.a.s. Para ello debemos disponer de un estimador del parámetro, es decir alguna función de la muestra cuyos valores se aproximen, en algún sentido a los del parámetro. 22/09/2018
27
Estimadores y Estimaciones
Una m.a.s. X, es un vector aleatorio: X1, X2, …, Xn de un modelo estadístico. Un estimador es una función de la m.a.s. Una observación es una realización (valores concretos) de una m.a.s. x=x1, x2, …, xn. Una estimación es el valor del estimador calculado sobre las observaciones 22/09/2018
28
Métodos de estimación Existen diversos (muchos) métodos para construir estimadores. M. de los momentos Estimadores máximo verosímiles Estimadores bayesianos 22/09/2018
29
Métodos de Estimación (1)
Estimación máximo verosimil (MLE)
30
Estimador de máxima verosimilitud
Observemos los gráficos de - L(; x) (1) (2) Parece razonable cómo estimador aquel valor de q que haga máxima la verosimilitud Más sencillo basado en el logaritmo (función monótona) de L(; x) Resolución: Analítica: casos sencillos Métodos numéricos: Newton-Raphston, EM 22/09/2018
31
EMV (ej. 1): Binomial / Bernouilli
El EMV de una probabilidad resulta ser la frecuencia relativa 22/09/2018
32
Ejemplo 2: Trinomial Supongamos que se observa A1,A2, o A3.
Muestra de tamaño n : n observaciones d’una “tribernouilli”, Y, Toma valores (1,0,0), (0,1,0), (0,0,1) Con probabilidades p1, p2, (1-p1-p2) Una observación (n1,n2,n3) de una multinomial X~M(n, p1, p2, (1-p1-p2)) 22/09/2018
33
EMV en una distribución trinomial
Dadas n observaciones (vectoriales) la verosimilitud del modelo es: El EMV del vector de probabilidades es el vector de frecuencias relativas 22/09/2018
34
Ejercicio Escribir un programa de ordenador que
Lea un fichero (SEQDATA.FAS) en formato FASTA que contenga una secuencia de ADN/ARN de longitud variable Saque por pantalla una tabla con las frecuencias absolutas y relativas de los distintos nucleótidos encontrados Lea de un fichero (PARAMS.TXT) las probabilidades “teóricas” y calcule la log-verosimilitud de la muestra según un modelo multinomial 22/09/2018
35
Métodos de Estimación (2)
(1): El enfoque Bayesiano
36
El enfoque bayesiano Intenta utilizar toda la información disponible para hacer inferencia Los datos Ideas previas/Información sobre los valores que toma Modeliza la incertidumbre sobre mediante una distribución de probabilidad a prior 22/09/2018
37
Modelos Bayesianos Una familia de probabilidades para los datos X~{P, 2 } Distribución de probabilidad (prior) () para La inferencia se basa en la distribución posterior (|X=x) 22/09/2018
38
Proceso de Analisis Bayesiano
Establecer un modelo probabilístico para todas las “variables” Distribución de los datos, dado el parámetro Distribución prior del parámetro Distribución conjunta de datos y parámetros Resumir las cantidades de interes mediante la distribución posterior Evaluar la adecuación del modelo y sugerir posibles mejorías 22/09/2018
39
Distribuciones iniciales
Distribución de los datos, dado el parámetro: verosimilitud: P(yobs|) Distr. prior del parámetro: () Distr. conjunta datos y parámetros P(yobs , ) = P(yobs|)·() 22/09/2018
40
Distribución posterior
La inferencia Bayesiana se realiza a partir de la distribució posterior P(|yobs) La distribución posterior se obtiene aplicando el Teorema de Bayes para funciones de probabilidad 22/09/2018
41
Teorema de Bayes para funciones de probabilidad
D. marginal de los datos (verosimilitud marginal) D. posterior Constante de normalización 22/09/2018
42
Distribuciones discretas
En distribuciones discretas sustituímos las integrales per sumatorios 22/09/2018
43
Ej. 3: Prior discreta para p (Binomial)
22/09/2018
44
Comparación prior-posterior
22/09/2018
45
(2) Estimación Bayesiana
46
Estimación bayesiana Se basa en la distribución posterior para realizar inferencia Normalmente se utilizan características de dicha distribución Media de p(|yobs) E(|yobs)() Moda de p(|yobs) arg max (p(|yobs) Mediana de p(|yobs) 22/09/2018
47
Cálculo de esperanzas en I. Bayesiana
Enfoque Bayesiano: 2 etapas clave 1. Desarrollo de un modelo que represente el problema adecuadamente 2. Realización de los cálculos necesarios para obtener la D. posterior Distribución marginal, Esperanza de la distribució condicional, etc La dificultad de algunos de éstos cálculos ha sido una barrera en la adopción del enfoque bayesiano en la práctica 22/09/2018
48
Estimación bayesiana de p (sigue ej. 3)
22/09/2018
49
Herramientas para el cálculo
Existen diversos procedimientos para hacer posible el realizar los cálculos Métodos analíticos: Priors conjugadas Métodos basados en la simulación Monte Carlo basado en Cadenas de Markov (MCMC) Muestreo de Gibbs 22/09/2018
50
Priors conjugadas Una familia de distribuciones para con igual forma funcional que la verosimilitud Su uso la forma funcional de la posterior es la misma que la de la prior, pero con parámetros distintos Esto permite ver la obtención de la distribución posterior como una simple actualización de los parámetros a la vista de los datos 22/09/2018
51
Distribuciones conjugadas
22/09/2018
52
Ejemplo: Estimación de p (binomial)
Comparamos la estimación de p por Método de máxima verosimilitud Estimación Bayesiana Consideremos de entrada las tres distribuciones iniciales 22/09/2018 16 22
53
Estimador máximo verosímil de p
Hemos visto que la EMV de p es: 22/09/2018
54
Estimación Bayesiana 22/09/2018 22 28
55
Priors Conjugadas La distribución beta es conjugada de la binomial
Dado que las observaciones (la verosimilitud) siguen una distribución binomial sabemos que, si tomamos una distribución prior beta para el parámetro, p entonces la distribución posterior también será una beta. 22/09/2018 18 24
56
Distribución conjunta de la sucesión de tiradas
h es el número de veces que observamos “A” t es el número de veces que observamos “AC” 22/09/2018
57
Verosimilitud marginal: fdp de los datos
22/09/2018 23 29
58
Posterior conjugada: Beta
22/09/2018 25 31
59
Distribució prior:Uniforme = Beta (1,1)
22/09/2018 32
60
D. Posterior: Beta (1+nº de cruces, 1+nº de caras)
22/09/2018 33
61
Estimación Bayesiana: Media de la distribución posterior
La distribución posterior es una Beta no es preciso ningún cálculo adicional para obtener el estimador de Bayes Si X~Be(a,b) E(X)=a/(a+b) luego: el estimador de Bayes de p és: 22/09/2018
62
Comparación de los 2 estimadores
En 20 tiradas se obtuvieron 8 caras Prior ~U(0,1)=Be(1,1) Si se obtiene 0 caras en 5 tiradas la diferencia habría sido importante 22/09/2018
63
Inferencia bayesiana en Bioinformática
The bayesian method and introduction to Bayesian segmentation Bayesian Inference on Biopolimer models 22/09/2018
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.