Los HMM son modelos probabilísticos de una secuencia

Slides:



Advertisements
Presentaciones similares
PSI-BLAST.
Advertisements


BLAST.
Taboada, Fernando Gómez Germán
PHP-MYSQL OPERADORES EN PHP
PROYECTO FIN DE CARRERA.  Introducción y Motivación  Fundamentos del Sistema QbH  Diseño e Implementación  Test y Resultados  Conclusiones  Trabajo.
Tema 3 Revisión de diversos métodos robustos aplicados en algunos problemas fotogramétricos.
PROGRAMACION DE ESTRUCTURAS DE DATOS
Teoría de lenguajes y compiladores
Encuentra las 12 diferencias
Regresión y correlación
El sistema de puntuación
Métodos de muestreo.
PROCESAMIENTO DE DATOS DE VIENTO 1º Parte.
La PD no es adecuada para buscar en BD
Tema 2: Métodos de ajuste
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
GRAFOS HUGO ARAYA CARRASCO.
EXPONENTES Y RADICALES
Biograma Introducir datos en una matriz. Elegir método para máximos y mínimos. Calcular los máximos y mínimos observados. Límites.
Universidad de los Andes-CODENSA
Profile HMMs Perfiles de Modelos ocultos de Markov
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
Medidas de expresión para microarrays de Affimetrix.
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Práctica 1: Alineamientos Partimos de un archivo de datos que contiene 5 secuencias de mRNA asociado a la CFTR archivo de prácticas archivo de prácticas.
Sesión 6: Campos de Markov
DEFINICIONES Sea (P) el siguiente problema de programación lineal:
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
Guías Modulares de Estudio Matemáticas IV – Parte B
Para construir un árbol filogenético se necesitan tres ingredientes básicos:
Matrices de Substitución PAM Y BLOSUM
An HMM-Based Threshold Model Approach for Gesture Recognition Hyeon-Kyu Lee and Jin H. Kim IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,
Inferencia Estadística
Comparar secuencias = Obtener información
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Herramientas básicas.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Una introducción a la computación evolutiva
Modelos ocultos de Markov (HMM)
Ex ungue leonis Atribuido a Johann Bernoulli al leer dos soluciones anónimas, y reconociendo en ellas la redacción y genialidad de Isaac Newton Cadenas.
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Matrices de sustitución
Capítulo 1. Conceptos básicos de la Estadística
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
1 Condiciones de extremo Proceso para derivar las condiciones De problema más simple a más complejo Progresión de problemas: Problema sin restricciones.
Las inserciones y deleciones se penalizan con un peso W Se construye una matriz H de n + 1 filas y m + 1 columnas. La secuencia de A se ubica en las filas.
Arboles B (búsqueda externa)
Bases de datos secundarias. Briefings in Bioinformatics 3 (2002):
Alineamiento local: búsqueda de homologías
UCLA – DAC M. Sc. Jorge E. Hernández H.
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Pruebas de hipótesis.
Límites y continuidad Podríamos empezar diciendo que los límites son importantes en el cálculo, pero afirmar tal cosa sería infravalorar largamente su.
Modelos ocultos de Markov (HMM)
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Maracaibo, 26 de Mayo de 2006 Universidad del Zulia Facultad de Ingeniería División de Postgrado Maestría en Computación Aplicada Universidad del Zulia.
Distribuciones de Probabilidad
MUESTREO : Generalidades
INFERENCIA ESTADÍSTICA
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
PROSITE: Guía rápida Dirección URL de PROSITE.
Teoría de la Generalizabilidad
Regresión logística Tema 6c. En la regresión lineal la variable dependiente es continua En regresión logística se utiliza cuando la variable dependiente.
Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia METODOS ALEATORIOS.
Transcripción de la presentación:

Los HMM son modelos probabilísticos de una secuencia

HMM = cadena de Markov + modelo multinomial

Cada posición de la cadena de Markov está en un estado oculto

Aplicaciones biológicas de los HMM Segmentation: Gene and protein sequences may contain distinct regions whose chemical properties differ widely. HMMs can help us to define the exact boundaries of these regions. Multiple alignment: From a MSA, a so-called profile HMM can be defined against which all new sequences can be aligned. These profile HMMs also make it possible to assign protein function quickly, and can be regarded both as a summary of a MSA and as a model for a family of sequences. Prediction of function: HMMs allow us to make probabilistic statements about the function of proteins, or let us assign proteins to families of unknown function. Gene finding: If we wish to find eukaryotic genes or pseudogenes we require the flexibility of HMMs. Aplicaciones biológicas de los HMM

Probabilidades de transición y de emisión

Los parámetros que definen un HMM

Ejemplo 1: el casino de Nuncaganarás Probabilidades de transición Probabilidades de emisión Ejemplo 1: el casino de Nuncaganarás

Conociendo las probabilidades de emisión y de transición se puede determinar la secuencia más probable de motivos ocultos que ha originado la secuencia observada, es decir, qué dado se ha utilizado en cada tirada Los estados ocultos

Nature Biotechnology 22 (2004): 1315-1316

Ejemplo 2: separación de exones e intrones

Los estados ocultos más probables: el algoritmo de Viterbi

La secuencia más probable : el algoritmo de avance

Perfiles HMM

A partir de un AMS se puede obtener un perfil HMM

AMS El problema de las expresiones regulares Expresión regular: [AT]-[CG]-[AC]-[ACTG]*-A-[TG]-[GC] Secuencia consenso Secuencia muy improbable ACAC - - ATC TGCT - - AGG El problema de las expresiones regulares

Los recuadros contienen las probabilidades de emisión de cada estado A partir del AMS se calculan las probabilidades de transición y de emisión del modelo Hay dos estados posibles: estado principal y estado de inserción (enmarcado en rojo) Los recuadros contienen las probabilidades de emisión de cada estado Las flechas indican las probabilidades de transición de un estado a otro Modelo de Markov oculto obtenido a partir del AMS

HMM = Modelo probabilístico El HMM permite calcular la probabilidad de que una secuencia determinada se ajuste al modelo HMM = Modelo probabilístico

HMM = Sistema de puntuación El HMM permite otorgar una puntuación (que, en realidad, es una probabilidad) a cada secuencia, en función de lo bien o mal que se ajustan al modelo La secuencia excepcional es 2000 veces más improbable que la secuencia consenso HMM = Sistema de puntuación

Log odds = logaritmo del cociente de probabilidades La probabilidad no es la mejor forma de reflejar la puntuación porque depende en gran medida de la longitud de la secuencia. Es mejor usar el log odds. Odds = Probabilidad de que la secuencia S se ajuste al HMM Probabilidad de que S se deba al simple azar (null model) Log odds = logaritmo del cociente de probabilidades

Log odds score: los logaritmos se suman (no se multiplican) Las probabilidades de emisión del HMM se convierten en log odds Las probabilidades de transición se convierten en logaritmos Log odds score: los logaritmos se suman (no se multiplican)

Log odds score vs. probabilidades Cuando una secuencia se ajusta al modelo, su log-odds score es elevado. Cuando el modelo neutro (null model) es mejor, el log-odds es negativo. Según el cálculo de probabilidades, la secuencia original nº 2 y la secuencia excepcional tienen una puntuación parecida. Sin embargo, el log odds de la secuencia original del alineamiento es mucho mayor. El log odds tiene mayor poder discriminatorio. Log odds score vs. probabilidades

Los perfiles HMM permiten caracterizar una familia de proteínas

Un perfil HMM se construye a partir de un AMS

Los distintos estados (ocultos) de un perfil HMM Begin End Estados obligatorios que marcan el inicio y el final del modelo (no emiten caracteres) Estados principales (uno por cada columna de la secuencia ancestral). Cada estado tiene unas probabilidades de emisión distintas. Estados de inserción que introducen caracteres en el alineamiento (tiene sus propias probabilidades de emisión ) Estados de eliminación que permiten saltar de una posición del alineamiento a otra (no emiten caracteres) Los distintos estados (ocultos) de un perfil HMM

Transiciones de un estado oculto a otro Secuencia similar a la ancestral (ADGK) Secuencia con dos huecos en el medio Secuencia con un hueco al final Secuencia con dos inserciones en el medio Transiciones de un estado oculto a otro

Cálculo de las probabilidades de emisión y de transición Para construir el perfil HMM hay que determinar las probabilidades de emisión de cada estado y las probabilidades de transición de un estado a otro. Como estos datos no se conocen, hay que estimarlos a partir de un AMS. Lo ideal es partir de un AMS que incluya entre 20 y 100 secuencias homólogas. Cálculo de las probabilidades de emisión y de transición

Alineamiento de 30 secuencias (dominio SH3) Main to delete transition Begin to delete transition Insert to main transition Main to insert transition Main state (1-6) Indel state Main state (7-14) Alineamiento de 30 secuencias (dominio SH3)

Estado principal (posiciones 1-6) Estado principal (posiciones 7-14) Indel state Estado principal (posiciones 7-14) Perfil HMM correspondiente al alineamiento anterior

Para evitar multiplicar por cero (o el logaritmo de cero) se añaden pseudocuentas a las probabilidades de emisión de cada estado principal En el perfil HMM hay muchos aminoácidos que no están representados (Paa=0) Pseudocuentas (1)

Una forma de añadir pseudocuentas es sumar 1 a todos los aminoácidos en todas las columnas También se puede añadir a cada aminoácido un número de pseudocuentas que sea proporcional a su abundancia relativa. También se puede añadir a cada aminoácido un número de pseudocuentas calculado teniendo en cuenta las sustituciones más probables en cada posición de la columna (para ello se utiliza una matriz de sustitución como PAM-50 o BLOSUM-62. Pseudocuentas (2)

Búsquedas en BD con un perfil HMM

Puntuación del alineamiento: Algoritmos de Viterbi y de avance

Distribución de los resultados tras una búsqueda en una BD

1.- Realiza AMS tan buenos o mejores que otros métodos 2.- Para hacer AMS no hay que ordenar las secuencias 3.- Es un método sólidamente basado en la teoría de probabilidad 4.- No hace falta estimar la penalización por indels 5.- Puede incluir información obtenida experimentalmente: * Longitud de la secuencia * Número, longitud y posición de los indels * Las frecuencias de los aminoácidos en cada posición Ventajas de los HMM

Inconvenientes de los HMM (1) 1.- Hay que estimar un número muy elevado de parámetros: * Longitud de la secuencia * Número, longitud y posición de los indels * Las frecuencias de los aminoácidos en cada posición * La probabilidad asociada a cada transición de un estado a otro Por tanto, hace falta: - un número elevado de secuencias (más de 50) para que el modelo “se entrene” y sea capaz de calcularlos - Una estimación inicial de todos esos parámetros (prior conditions) para comenzar el ciclo de iteraciones Cuanto mejor sea la estimación inicial, menor será el número de secuencias necesarias para entrenar el modelo Inconvenientes de los HMM (1)

Inconvenientes de los HMM (2) 2.- Es peligroso estimar la distribución de probabilidades de los aminoácidos (aa) a partir de unas pocas secuencias. Para evitar sacar conclusiones importantes a partir de un escaso número de observaciones, se recurre a las pseudocuentas: se aumenta de forma artificial el número de veces que se observa cada aa en cada columna. Hay varias formas de añadir pseudocuentas: * Añadir uno a todos los aa (implica que todos pueden presentarse con la misma probabilidad) * Añadir a cada aa un número proporcional a la frecuencia observada (se admite que no todos los aa aparecen con la misma frecuencia) * Añadir a cada aa un número de cuentas que refleje la información contenida en una matriz de sustitución (PAM, BLOSUM) Inconvenientes de los HMM (2)

Inconvenientes de los HMM (3) 3.- Es importante que el modelo no sólo refleje las características de las secuencias iniciales, sino también las variaciones que puedan presentar otros miembros de la familia. Si no, será un modelo “superentrenado” que sólo será capaz de reconocer a las secuencias iniciales. Para evitarlo se recurre a un proceso denominado regularización: Se parte de una distribución de aa cuidadosamente diseñada (mezclas Dirichlet), que se va modificando a medida que el modelo “se entrena”. Así se genera un modelo más representativo de la familia de proteínas a la que pertenece el conjunto inicial de secuencias porque admite un grado razonable de variaciones que se puedan presentar en secuencias relacionadas. Inconvenientes de los HMM (3)

Inconvenientes de los HMM (4) 4.- A medida que el modelo se entrena y se va ajustando a las secuencias iniciales, es posible que el proceso quede “atrapado” en una solución que se limita a un alineamiento óptimo local en vez de a uno global. Este problema se puede evitar mediante métodos que inyectan “ruido estadístico” al sistema, como el simulated annealing: En cada ciclo se genera un número de secuencias definido por el usuario y las cuentas (las veces que aparece cada aa en cada posición) se añaden a las de las secuencias iniciales. El ruido generado por este procedimiento disminuye a medida que aumenta el número de ciclos. Inconvenientes de los HMM (4)

Aplicaciones de los HMM

¿Para qué sirven los HMM? 1.- Para predecir la estructura secundaria de proteínas 2.- Para predecir secuencias señal en proteínas 3.- Para hacer alineamientos múltiples de secuencias (AMS) 4.- Para mejorar AMS obtenidos mediante otros métodos 5.- Para analizar secuencias y generar perfiles HMM característicos de una familia de proteínas 6.- Para buscar en las BD más miembros de una familia 7.- Para predecir genes (predice promotores, los lugares de unión al ribosoma, los ORF, regiones codificantes y no codificantes, las fronteras intrón/exón, etc.) ¿Para qué sirven los HMM?

Predicción de genes mediante HMM (la teoría)

Predicción de genes mediante HMM (la realidad)

Predicción de genes eucariotas usando HMM http://genes.mit.edu/GENSCAN.html Predicción de genes eucariotas usando HMM

Predicción de genes

Predicción de genes eucariotas usando HMM http://opal.biology.gatech.edu/eukhmm.cgi Predicción de genes eucariotas usando HMM

Predicción de la estructura secundaria de proteínas http://compbio.soe.ucsc.edu/SAM_T08/T08-query.html Introduce una dirección de E-mail Introduce una secuencia proteica en formato FASTA Predicción de la estructura secundaria de proteínas

Predicción de hélices transmembrana usando HMM http://www.cbs.dtu.dk/services/TMHMM-2.0/ Predicción de hélices transmembrana usando HMM

Predicción de hélices transmembrana usando HMM http://www.enzim.hu/hmmtop/ Predicción de hélices transmembrana usando HMM

Búsquedas en BD basadas en HMM http://hmmer.janelia.org/ Búsquedas en BD basadas en HMM

Software para construir HMM http://compbio.soe.ucsc.edu/sam.html Software para construir HMM

Software para construir HMM http://pgfe.umassmed.edu/meme/metameme-intro.html Software para construir HMM