Estadística para la bioinformática

Slides:



Advertisements
Presentaciones similares
NÚMEROS ALEATORIOS DEPARTAMENTO DE INFORMATICA UNSL-2007.
Advertisements

Danny Rafael Amaya Cotes Marcos Elías López Guerra.
Diagramas de control CONSIDERACIONES BÁSICAS. DIAGRAMAS DE CONTROL  El Control Estadístico de Proceso (Statistical Process Control SPC) es la herramienta.
Carlos A. Andújar Rojas, Ph.D. 1. Razonamiento estadístico  Es el proceso por el que se utiliza la lógica para tratar de describir, explicar, predecir.
Tarea # 1. Una variable es un símbolo que actúa en las funciones, las fórmulas, los algoritmos y las proposiciones de las matemáticas y la estadística.
El análisis de los riesgos determinará cuáles son los factores de riesgo que potencialmente tendrían un mayor efecto sobre nuestro proyecto y, por lo.
MCSP Rocío López Rodríguez.  La necesidad de contar se pierde en la historia de la humanidad.  Por propósitos militares o impositivos, el Estado “cuenta”
ESTADÍSTICA ÍNDICE 1.Introducción.Introducción. 2.Población y muestra.Población y muestra. 3.Variables estadísticas:Variables estadísticas: Cualitativas.
INTEGRANTES EVARISTO MINA ARROYO JULIO CESAR CUERO JOHN EDWIN URBANO MAFLA.
T – Student teoria de las muestras pequeñas Paola Andrea Palacio Montero Estadística.
DISTRIBUCIONES ESTADÍSTICAS Realizado por: Claudia Morales y Denise Muñoz.
Estadística inferencial. ¿Qué es? La Estadística inferencial o Inferencia estadística estudia cómo sacar conclusiones generales para toda la población.
TEMA 2: PARÁMETROS ESTADÍSTICOS. INDICE 1. Parámetros estadísticos: 1.1 Definición 1.2 Medidas de Centralización: Medias, moda y Mediana 1.3 Medidas de.
CÁLCULO 3 Departamento de Ciencias Diferencial Total; Regla de la Cadena.
Tema 2. Parámetros estadísticos. Indice 1. Parámetros estadísticos. Tipos: 1.1 Medidas de centralización(medias y moda) 1.2 Medidas de posición(mediana,
Bioestadística Distribuciones muestrales para variables cuantitativas.
MUESTREO ALEATORIO ESTRATIFICADO
Valor que toma la variable aleatoria
MEDIDAS Y ERRORES.
Tema 6 Cristhian Lopez..
Clase 4: Medidas de Tendencia Central y Medidas de Variación
PRUEBAS DE BONDAD DE AJUSTE estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.
DISTRIBUCIONES EN EL MUESTREO
Funciones o Señales Singulares
FUNCIONES, PROCESAMIENTO ELEMENTAL DE DATOS
DISTRIBUCIÓN DE PROBABILIDAD
El modelo simple de regresión
DOMINIO Y RANGO DE UNA FUNCIÓN.
ANÁLISIS DE RIESGO SIMULACIÓN DE SISTEMAS 2009
MUESTREO ALEATORIO CON REPOSICIÓN
Apuntes de Matemáticas 3º ESO
ESTIMACION DEL TAMAÑO DE LA MUESTRA.
Principales criterios empleados bajo Riesgo
ANÁLISIS E INTERPRETACIÓN DE DATOS
TEMA 6 : DISTRIBUCIONES ESTADÍSTICAS.
Convergencia de variables aleatorias
LA DERIVADA Autor: Victor Manuel Castro González
Descripción e interpretación de la estadística
ESTADÍSTICA UNIDIMENSIONAL
NOTAS TECNICAS 1 METODO DE NEWTON-RAPHSON
ESTADISTICA GENERAL.
REGRESIÓN LINEAL SIMPLE
Funciones Básicas de Excel
Algunas distribuciones de Probabilidad discreta
Distribución normal o de Gauss
INTERVALO DE CONFIANZA
GRÁFICOS EN ESTADÍSTICA
DISTRIBUCIÓN MUESTRAL DE UNA MEDIA.
Datos y Azar I medio Verónica Toro y Daniela Riquelme
Modelación de la Partición Modal
CONTENIDO Teoría del muestreo ¿Cómo seleccionar una muestra?
Aplicaciones Estadísticas a las Finanzas
ESTADÍSTICA BÁSICA.
TEMA 1.- INTRODUCCIÓN A LA INFERENCIA
Área de Matemática.
TEMA 1.- INTRODUCCIÓN A LA INFERENCIA
METODOS PARA ANALISIS DE TALUDES
Estadística Descriptiva
Dr. Carlomagno Araya Alpízar
TEMA 3: MUESTREO Y ESTIMACIÓN
FUNDAMENTOS DE LA TEORÍA DE LA PROBABILIDAD
UD 5: DISTRIBUCIÓN BINOMIAL Y NORMAL
ESTADISTICA DESCRIPTIVA
DISCRIMINACIÓN COMO DECISIÓN DISCRIMINACIÓN COMO IDENTIFICACIÓN (PERSPECTIVA DECISIONAL)
Inferencia Estadística
2/22/2019 SISTEMAS NO LINEALES.
ESTADISTICOS Y DISTRIBUCIONES MUESTRALES
Media Geométrica En matemáticas y estadística, la media geométrica de una cantidad arbitraria de números (por decir n números) es la raíz n-ésima del producto.
El tiempo de vida Todos los seguros de vida dependen fundamentalmente del tiempo de vida del asegurado. Por ello, la medición del riesgo debe comenzar.
REGRESION LINEAL SIMPLE
Transcripción de la presentación:

Estadística para la bioinformática Ideas generales y estimación de parámetros

Referencias Libros Artículos Ewens & Grant (2001), Statistical methods in Bioinformatics Durbin et al. (1998) Biological sequence analysis Canavos, G. Probabilidad y Estadística Artículos Liu, Z. Bayesian bioinformatics Bernardo Bayesian Statistics / Estadística Bayesiana (en català). http://www.uv.es/~bernardo/teaching.html 22/09/2018

Visión general En bioinformática, como en todo estudio científico, nos interesa: Construcción de modelos: CÁLCULO DE PROBABILIDADES Estimación de parámetros del modelo Inferencia estadística I: ESTIMACIÓN Decisión entre modelos alternativos Inferencia estadística II: CONTRASTES 22/09/2018

Datos, modelos e inferencias 22/09/2018

Las filosofías de la inferencia estadística

Enfoques para la inferencia Según la perspectiva que se adopte para realizar la inducción  Si la única fuente de información son los datos: Estadística clásica o frecuentista Si se utiliza, para la inferencia, los datos y la información previa: Estadística o inferencia bayesiana Otros … 22/09/2018

Muestreo y verosimilitud Inferencia clasica Muestreo y verosimilitud

Estadística y análisis de secuencias biológicas Una secuencia Dos secuencias: Alineamientos locales o globales Alineamientos óptimos vs hurísticos Múltiples secuencias Alineamientos múltiples Filogenias 22/09/2018

Una sola secuencia Modelización del ADN Frecuencia de cada base/AA En cualquier posición En una zona determinada Modelización de señales Matrices de pesos posicionales Búsqueda de patrones Identificación de genes 22/09/2018

Dos secuencias Construcción de alineamientos Globales vs locales Óptimos vs heurísticos Puntuación de los alineamientos Sistemas de puntuación Matrices PAM, BLOSUM Significación de las puntuaciones 22/09/2018

Alineamientos múltiples Construcción de alineamientos Métodos óptimos / heurísticos Modelos probabilísticos Perfiles  MMO de perfiles Árboles filogenéticos Métodos de construcción Estimación de parámetros 22/09/2018

Modelos, parámetros, muestras Conceptos básicos Modelos, parámetros, muestras

Modelos estadísticos Sea E un experimento aleatorio y  su espacio muestral  un resultado del experimento E X() una observación P una distribución de probabilidad de X Un modelo estadístico es una familia de probabilidades P tal que P 2 P 22/09/2018

Tipos de modelos Paramétricos No paramétricos Semiparamétricos {P 2 F, distribución en Rn} Semiparamétricos 2 componentes {G1, G2 2 F} 22/09/2018

Muestreo aleatorio simple Una muestra aleatoria simple de tamaño n de una población X es un vector aleatorio n-dimensional cuyas componentes son independientes y con la misma distribución que X 22/09/2018

Distribución conjunta de una m.a.s Dada una población X ~f(x;) La distribución conjunta de X es, 22/09/2018

Función de verosimilitud La f.d.d.p. conjunta f(x;) es función de la muestra con q fijo Vista cómo función de q y con la muestra fija recibe el nombre de función de verosimilitud (“Likelihood”) 22/09/2018

Interpretación de la verosimilitud Si X es una v.a. discreta, la función de verosimilitud se puede interpretar como la probabilidad de una muestra dada para cada valor del parámetro 22/09/2018

Ejemplo 1: Bernouilli / Binomial X: # de coincidencias (A) en alinea-mientos de secuencias de longitud n. Observamos A (X=1) o Ac (X=0) Podemos considerar 2 modelos Muestra de tamaño n de una v.a. Y, on: Muestra de tamaño 1 de una v.a. X on 22/09/2018

La verosimilitud de cada modelo és: Ambas verosimilitudes son propor-cionales irrelevante en la práctica 22/09/2018

La función de verosimilitud 22/09/2018

Algunas log-verosimilitudes 22/09/2018

Versosimilitud  Probabilidad 22/09/2018

Inferencia y verosimilitud El enfoque frecuentista basa las inferencias únicamente en los datos En general, aunque no siempre, la inferencia se realiza a través de la función de verosimilitud Para leer más: Likelihood (Edwards) 22/09/2018

Estimadores y estimaciones Estimación Estimadores y estimaciones

Estimación estadística Dado un modelo de probabilidad X» P un objetivo habitual es intentar conocer el valor de  a partir de una m.a.s. Para ello debemos disponer de un estimador del parámetro, es decir alguna función de la muestra cuyos valores se aproximen, en algún sentido a los del parámetro. 22/09/2018

Estimadores y Estimaciones Una m.a.s. X, es un vector aleatorio: X1, X2, …, Xn de un modelo estadístico. Un estimador es una función de la m.a.s. Una observación es una realización (valores concretos) de una m.a.s. x=x1, x2, …, xn. Una estimación es el valor del estimador calculado sobre las observaciones 22/09/2018

Métodos de estimación Existen diversos (muchos) métodos para construir estimadores. M. de los momentos Estimadores máximo verosímiles Estimadores bayesianos 22/09/2018

Métodos de Estimación (1) Estimación máximo verosimil (MLE)

Estimador de máxima verosimilitud Observemos los gráficos de  - L(; x) (1) (2) Parece razonable cómo estimador aquel valor de q que haga máxima la verosimilitud Más sencillo basado en el logaritmo (función monótona) de L(; x) Resolución: Analítica: casos sencillos Métodos numéricos: Newton-Raphston, EM 22/09/2018

EMV (ej. 1): Binomial / Bernouilli El EMV de una probabilidad resulta ser la frecuencia relativa 22/09/2018

Ejemplo 2: Trinomial Supongamos que se observa A1,A2, o A3. Muestra de tamaño n : n observaciones d’una “tribernouilli”, Y, Toma valores (1,0,0), (0,1,0), (0,0,1) Con probabilidades p1, p2, (1-p1-p2) Una observación (n1,n2,n3) de una multinomial X~M(n, p1, p2, (1-p1-p2)) 22/09/2018

EMV en una distribución trinomial Dadas n observaciones (vectoriales) la verosimilitud del modelo es: El EMV del vector de probabilidades es el vector de frecuencias relativas 22/09/2018

Ejercicio Escribir un programa de ordenador que Lea un fichero (SEQDATA.FAS) en formato FASTA que contenga una secuencia de ADN/ARN de longitud variable Saque por pantalla una tabla con las frecuencias absolutas y relativas de los distintos nucleótidos encontrados Lea de un fichero (PARAMS.TXT) las probabilidades “teóricas” y calcule la log-verosimilitud de la muestra según un modelo multinomial 22/09/2018

Métodos de Estimación (2) (1): El enfoque Bayesiano

El enfoque bayesiano Intenta utilizar toda la información disponible para hacer inferencia Los datos Ideas previas/Información sobre los valores que toma Modeliza la incertidumbre sobre  mediante una distribución de probabilidad  a prior 22/09/2018

Modelos Bayesianos Una familia de probabilidades para los datos X~{P, 2 } Distribución de probabilidad (prior) () para  La inferencia se basa en la distribución posterior (|X=x) 22/09/2018

Proceso de Analisis Bayesiano Establecer un modelo probabilístico para todas las “variables” Distribución de los datos, dado el parámetro Distribución prior del parámetro Distribución conjunta de datos y parámetros Resumir las cantidades de interes mediante la distribución posterior Evaluar la adecuación del modelo y sugerir posibles mejorías 22/09/2018

Distribuciones iniciales Distribución de los datos, dado el parámetro: verosimilitud: P(yobs|) Distr. prior del parámetro: () Distr. conjunta datos y parámetros P(yobs , ) = P(yobs|)·() 22/09/2018

Distribución posterior La inferencia Bayesiana se realiza a partir de la distribució posterior P(|yobs) La distribución posterior se obtiene aplicando el Teorema de Bayes para funciones de probabilidad 22/09/2018

Teorema de Bayes para funciones de probabilidad D. marginal de los datos (verosimilitud marginal) D. posterior Constante de normalización 22/09/2018

Distribuciones discretas En distribuciones discretas sustituímos las integrales per sumatorios 22/09/2018

Ej. 3: Prior discreta para p (Binomial) 22/09/2018

Comparación prior-posterior 22/09/2018

(2) Estimación Bayesiana

Estimación bayesiana Se basa en la distribución posterior para realizar inferencia Normalmente se utilizan características de dicha distribución Media de p(|yobs)  E(|yobs)() Moda de p(|yobs)  arg max  (p(|yobs) Mediana de p(|yobs) 22/09/2018

Cálculo de esperanzas en I. Bayesiana Enfoque Bayesiano: 2 etapas clave 1. Desarrollo de un modelo que represente el problema adecuadamente 2. Realización de los cálculos necesarios para obtener la D. posterior Distribución marginal, Esperanza de la distribució condicional, etc La dificultad de algunos de éstos cálculos ha sido una barrera en la adopción del enfoque bayesiano en la práctica 22/09/2018

Estimación bayesiana de p (sigue ej. 3) 22/09/2018

Herramientas para el cálculo Existen diversos procedimientos para hacer posible el realizar los cálculos Métodos analíticos: Priors conjugadas Métodos basados en la simulación Monte Carlo basado en Cadenas de Markov (MCMC) Muestreo de Gibbs 22/09/2018

Priors conjugadas Una familia de distribuciones para  con igual forma funcional que la verosimilitud Su uso  la forma funcional de la posterior es la misma que la de la prior, pero con parámetros distintos Esto permite ver la obtención de la distribución posterior como una simple actualización de los parámetros a la vista de los datos 22/09/2018

Distribuciones conjugadas 22/09/2018

Ejemplo: Estimación de p (binomial) Comparamos la estimación de p por Método de máxima verosimilitud Estimación Bayesiana Consideremos de entrada las tres distribuciones iniciales 22/09/2018 16 22

Estimador máximo verosímil de p Hemos visto que la EMV de p es: 22/09/2018

Estimación Bayesiana 22/09/2018 22 28

Priors Conjugadas La distribución beta es conjugada de la binomial Dado que las observaciones (la verosimilitud) siguen una distribución binomial sabemos que, si tomamos una distribución prior beta para el parámetro, p entonces la distribución posterior también será una beta. 22/09/2018 18 24

Distribución conjunta de la sucesión de tiradas h es el número de veces que observamos “A” t es el número de veces que observamos “AC” 22/09/2018

Verosimilitud marginal: fdp de los datos 22/09/2018 23 29

Posterior conjugada: Beta 22/09/2018 25 31

Distribució prior:Uniforme = Beta (1,1) 22/09/2018 32

D. Posterior: Beta (1+nº de cruces, 1+nº de caras) 22/09/2018 33

Estimación Bayesiana: Media de la distribución posterior La distribución posterior es una Beta  no es preciso ningún cálculo adicional para obtener el estimador de Bayes Si X~Be(a,b) E(X)=a/(a+b) luego: el estimador de Bayes de p és: 22/09/2018

Comparación de los 2 estimadores En 20 tiradas se obtuvieron 8 caras Prior ~U(0,1)=Be(1,1) Si se obtiene 0 caras en 5 tiradas la diferencia habría sido importante 22/09/2018

Inferencia bayesiana en Bioinformática The bayesian method and introduction to Bayesian segmentation Bayesian Inference on Biopolimer models 22/09/2018