Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.

Slides:



Advertisements
Presentaciones similares
INSTITUTO TECNOLÓGICO DE MINATITLÁN
Advertisements

Bivariadas y Multivariadas
PROYECTO FIN DE CARRERA.  Introducción y Motivación  Fundamentos del Sistema QbH  Diseño e Implementación  Test y Resultados  Conclusiones  Trabajo.
Instituto tecnológico de Villahermosa
Ingeniería en Ciencias Económicas y Financieras
Ingeniería Matemática
Ingeniería en Ciencias Económicas y Financieras
Tema 2: Números aleatorios. Generación de números
Alineamiento de Secuencias Biológicas
Funciones Como calculadora, Notación f(x), dominio restringido y recorrido o rango.
CONCEPTOS BÁSICOSDE ESTADÍSTICA.
Métodos de Análisis Ingenieril
Sesión 12: Procesos de Decisión de Markov
Tema 2: Métodos de ajuste
Codificación Distribuida
Tema 3: Técnicas de contar
Análisis de supervivencia Tema 5 Itziar Aretxaga.
TRANSFORMACIONES LINEALES PARA REDES NEURALES ARTIFICIALES
Inferencia Estadística
Cadenas de Markov de Tiempo Discreto
Profile HMMs Perfiles de Modelos ocultos de Markov
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Procesos Estocásticos
Modelos Ocultos de Markov
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
Sesión 6: Campos de Markov
Sesión 12: Procesos de Decisión de Markov. Incertidumbre - MDP, L.E. Sucar2 Procesos de Decisión de Markov Procesos de Decisión Secuenciales Procesos.
Teoría de Probabilidad
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
Sesión 5: Modelos Ocultos de Markov
Sesión 5: Modelos Ocultos de Markov
ITERACIÓN DE UN PUNTO FIJO. Un punto fijo de una función g es un número para el cual g(p)=p Los problemas de punto fijo y los de búsqueda de raíces tienen.
Método Alias (Walter 1977) Permite generar de manera eficiente v.a.d. Con soporte finito. Supongamos que se desea generar la v.a.d. X con función de cuantía.
An HMM-Based Threshold Model Approach for Gesture Recognition Hyeon-Kyu Lee and Jin H. Kim IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,
Unidad V: Estimación de
Seguridad y encriptación
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Análisis y Diseño de Algoritmos
Sesión 7: Redes Bayesianas – Inferencia
Modelos ocultos de Markov (HMM)
Ex ungue leonis Atribuido a Johann Bernoulli al leer dos soluciones anónimas, y reconociendo en ellas la redacción y genialidad de Isaac Newton Cadenas.
Unidad V: Estimación de
Matrices de sustitución
Repaso de clase anterior
Sesión 12: Procesos de Decisión de Markov
Sesión 12: Procesos de Decisión de Markov
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
DIAGRAMA DE FLECHAS O RUTA CRITICA
Sesión 6: Campos de Markov. © L.E. Sucar: PGM - CAM2 Campos de Markov Introducción –Modelo de Ising Representación –Tipos de Modelos –Redes de Markov.
Limite de Funciones de Variable Continua
Investigación de Operaciones 2
Cadenas De Markov.
Modelos ocultos de Markov (HMM)
Sesión 6: Redes Bayesianas - Inferencia
Tomando decisiones sobre las unidades de análisis
2.1 DEFINICIONES CARACTERÍSTICAS Y SUPOSICIONES.
Logaritmos.
1 2  La Teoría de la Probabilidad constituye la base o fundamento de la Estadística, ya que las ingerencias que hagamos sobre la población o poblaciones.
MATRICES.
6. Sistemas de ecuaciones diferenciales lineales
Inferencia Estadística Conceptos Previos. Conceptos Previos Población: Es la colección de toda la posible información que caracteriza a un fenómeno aleatorio.
Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
Ecuaciones Diferenciales Ordinarias de Primer Orden. Tema # 1.
Yulieth ariza Villarreal Estadística II. Historia La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fábrica.
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
PLN hmm1 Modelos ocultos de Markov (HMM) Introducción Cálculo de la probabilidad de una observación Algoritmo Forward Algoritmo Backward Algoritmo de Viterbi.
Transcripción de la presentación:

Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda

1. Las Cadenas de Markov 2. El Modelo de Hidden Markov 3. Aplicaciones y Demostraciones de HMM.

Introducción de Markov Chains Un grupo finito de S posibles “estados” (E1,E2,E3...,Es), en unidad de tiempo, t =1,2,3.... Un grupo finito de S posibles “estados” (E1,E2,E3...,Es), en unidad de tiempo, t =1,2,3.... El proceso de cadenas de Markov ocupa uno de estos estados. El proceso de cadenas de Markov ocupa uno de estos estados. E3, t E4, t+1 Para que MC permanezca en un estado o se mueva depende de probabilidades. Para que MC permanezca en un estado o se mueva depende de probabilidades.

Propiedades de Markov Chains Sin memoria Sin memoria E3 E4 E3 E4 t t+1 t t+1 Homogeneidad del tiempo. Homogeneidad del tiempo. Independiente del ”tiempo” Independiente del ”tiempo”

Matrix de Transición S1S1S1S1 S2S2S2S2 S3S3S3S3 S1S1S1S1010 S2S2S2S21/32/30 S3S3S3S31/21/31/6

Matriz de Probabilidad de Transición de Estados (a E1) (a E2) (a E3)... (a Es) (a E1) (a E2) (a E3)... (a Es) (deE1) P11 P12 P13... P1s (deE1) P11 P12 P13... P1s (deE2) P21 P22 P23... P2s (deE2) P21 P22 P23... P2s P= (deEs) Ps1 Ps2 Ps3... Pss (deEs) Ps1 Ps2 Ps3... Pss

Representación de las Cadenas de Markov A B C D AB B A C C D D

¿ Que tal si cada estado no corresponde a un evento (físico) observable? ¿ Que tal si cada estado no corresponde a un evento (físico) observable? ¿ Que tal si el estado produce un evento observable, que es una función probabilistica de éste? ¿ Que tal si el estado produce un evento observable, que es una función probabilistica de éste?

Hidden Markov Models (HMM)

Descripción de las Propiedades HMM es similar a las cadenas de Markov, pero más general y flexible. HMM es similar a las cadenas de Markov, pero más general y flexible. HMM es un modelo de Markov, “discreto en el tiempo” HMM es un modelo de Markov, “discreto en el tiempo” Cuando un estado es visitado por las cadenas de Markov, el estado emite una letra de un alfabeto fijado independiente del tiempo. Cuando un estado es visitado por las cadenas de Markov, el estado emite una letra de un alfabeto fijado independiente del tiempo.

Descripción de las Propiedades Las letras son emitidas vía una distribución de probabilidades, independiente del tiempo, pero usualmente dependiente del estado. Las letras son emitidas vía una distribución de probabilidades, independiente del tiempo, pero usualmente dependiente del estado. Inicial  emisión  transición  emisión  transición .. q 1 O 1 q 2 O 2 q 3

Descripción de las Propiedades Se denota la secuencia de q i ´s por Q y la secuencia total de O i ´s por O. Se denota la secuencia de q i ´s por Q y la secuencia total de O i ´s por O. Se escribe la secuencia observada como: Se escribe la secuencia observada como: O = O 1, O 2,... Se escribe la secuencia de estados como: Se escribe la secuencia de estados como: Q = q 1, q 2,...

Descripción de las Propiedades Frecuentemente conocemos O, pero no conocemos Q (“Hidden”.) Con HMM se pueden responder muchas preguntas de O y de Q. Inicial  emisión  transición  emisión  transición  q1  1 q2  2 q3

Una de estas preguntas es:.... ¿ Dada una secuencia observada O, cuál es la secuencia de estados ocultos Q que tiene la más alta probabilidad de emitir dicha secuencia? ¿ Dada una secuencia observada O, cuál es la secuencia de estados ocultos Q que tiene la más alta probabilidad de emitir dicha secuencia?

S1S1 S2S2 0,8 0,1 0,9 0,2 Considerando la cadena de Markov con dos estados S 1 y S 2, con una distribución inicial uniforme y con una matriz de transición:

1 Suponiendo que la secuencia observada es O =2,2,2 Qué secuencia de estados Q = q 1, q 2, q 3 tiene la más alta probabilidad de emitir O ? S1S1 2 0,5 S2S ,25 0,75 Sea A, un alfabeto, que consta de: A = 1, 2

O = S1S1 S1S1 S1S1 S1S1 S1S1 S2S2 S1S1 S2S2 S1S1 S1S1 S2S2 S2S2 S2S2 S2S2 S2S2 S2S2 S2S2 S1S1 S2S2 S1S1 S2S2 S2S2 S1S1 S1S1 Q = S2, S1, S1 S1S1 2 0,5 S2S2 2 0,75

El cálculo anterior se pudo hacer a “mano”, sin embargo …. El cálculo anterior se pudo hacer a “mano”, sin embargo …. ¿ Qué pasa cuando el alfabeto tiene muchos símbolos (como 20 letras que corresponden a los aminoacidos) ¿ Qué pasa cuando el alfabeto tiene muchos símbolos (como 20 letras que corresponden a los aminoacidos)

Elementos de un HMM Características de Estructura 1) Conjunto de estados. Q={q 1,q 2,q 3..q N } 2) Conjunto de observables,O={O 1, O 2..O N } 3) Matriz de transición de probabilidad de estados Características de los Parámetros 4) Probabilidad de que un observables sea emitido en el estado q j, en el estado q j, 4) Una distribución de estados inicial q2q ,25 0,75

Cálculos Frecuentes en HMMs 1-. Dado: El estado inicial, El estado inicial, La matriz de transición entre estados La matriz de transición entre estados La probabilidades de que un estado S i emita un observable en el tiempo t,  (t,i) La probabilidades de que un estado S i emita un observable en el tiempo t,  (t,i) Calcular la probabilidad de que alguna secuencia de observables O ={O 1 O 2 …O t } aparezca. Calcular la probabilidad de que alguna secuencia de observables O ={O 1 O 2 …O t } aparezca. Solución:Algoritmo Forward o Backward Solución:Algoritmo Forward o Backward S2S ,25 0,75

Algoritmo Forward (o Backward) Inicial  O 1  transición  O 2  transición  O 3 q 1 (cualquiera) q 2 q 2 O 1  transición  O 2  transición  O 3 q 1 q 1 O 1  transición  O 2  transición  O 3 q 3 q 3 Algoritmo Forward -Se da algun estado inical S 1 en t¡=0 y por inducción se calculan ( Backward ) TODAS LAS PROBABILIDADES de que hacia (t=1) se emita O 1, luego TODAS LAS PROBABILIDADES de que hacia (t=2) se emita O 1 O 2, y hacia (t=3) se emita O 1 O 2 O 3, y asi sucesivamente

Cálculos Frecuentes en HMMs 2- Dado O ={O 1 O 2 …O t }, Calcular Q = q 1 q 2 q 3 …q t que haya sido mas probable. Calcular P[Q | O] maximo!! Se calcula un parámetro,  (t,i) que sea la de maxima probabilidad de todas las secuencias que termine en el estado S i en el tiempo t y de tener una secuencia de observables O 1 O 2 …O t. Hay muchas secuencias de estados que den una altas probabilidad de O ={O 1 O 2 …O t } Un algoritmo para encontrar uno de estos valores es: Algoritmo de Viterbi Ejemplo desarrollado

Cálculos Frecuentes en HMMs 3.- Dado la secuencia de observables O ={O 1 O 2 …O t }, Estimar lo parámetros del HMM: 1. El estado inicial, 2. La Matriz de transición de estados P 3. B y , que maximicen 4. La probabilidad de que cada estado S i emita cada observable O ={O 1 O 2 …O t }, Solución :Método de Baum-Welch de Estimación de parámetros Solución :Método de Baum-Welch de Estimación de parámetros

El Algoritmo de Baum-Welch Se asume un número finito de estados y de observables Se asume un número finito de estados y de observables Se dan un estado inicial S i, la matriz de transición p ij,y la probabilidad de emisión de observables b i (k) en algún valor inicial. ( ESTO BAJO CIERTAS PERMISAS DE CADA PROCESO A ESTUDIAR ) Se dan un estado inicial S i, la matriz de transición p ij,y la probabilidad de emisión de observables b i (k) en algún valor inicial. ( ESTO BAJO CIERTAS PERMISAS DE CADA PROCESO A ESTUDIAR ) Utilizando estos parámetros iniciales calculamos “nuevos valores” de S * i, p * ij, b i (k) *. Utilizando estos parámetros iniciales calculamos “nuevos valores” de S * i, p * ij, b i (k) *. Algoritmo muy complicado  basado en un metodos estadístico iterativo

Condición inicial  1er resultado 1er resultado  2do resultado 1er resultado  2do resultado 2do resultado  3er resultado 2do resultado  3er resultado S * i, p * ij, b i (k) *.     Valores Reales. El proceso se detiene cuando la probabilidad ha convergido hacia cierto valor

APLICACIONES

MODELAMIENTO DE FAMILIAS DE PROTEINAS

 Se usa para: Construcción de alineamiento múltiple. Determinar la familia de la secuencia query.

MODELO DE UNA FAMILIA DE PROTEINAS m0m0 m1m1 m2m2 m3m3 m4m4 d1d1 d2d2 d3d3 d4d4 i0i0 i1i1 i2i2 i3i3 i4i4 m5m5 d5d5 d6d6 i5i5 i6i6 i7i7 m6m6 m7m7 d7d7

Modelamiento de familia de proteínas En el modelo de HHMs de familia de la proteína la transición (la flecha) de un estado de emparejamiento a un estado de inserción a sí mismo corresponde a la multa de gap extention. En el modelo de HHMs de familia de la proteína la transición (la flecha) de un estado de emparejamiento a un estado de inserción a sí mismo corresponde a la multa de gap extention. La alineación de la programación dinámica y BLAST son con toda seguridad esenciales, como las alineaciones de pares; pero, para modelar a las familias con grandes de sucesiones, o construcción de las alineaciones de muchas sucesiones, permite con eficacia, y al mismo tiempo aprovecha de datos más grandes para aumentar la flexibilidad. La alineación de la programación dinámica y BLAST son con toda seguridad esenciales, como las alineaciones de pares; pero, para modelar a las familias con grandes de sucesiones, o construcción de las alineaciones de muchas sucesiones, permite con eficacia, y al mismo tiempo aprovecha de datos más grandes para aumentar la flexibilidad.

ALINEAMIENTO MULTIPLE DE SECUENCIAS

Alineamiento Múltiple de Secuencias CAEFPDDH y CDAEFPDDH. CAEFPDDH y CDAEFPDDH. El camino mas favorable utilizando el algoritmo de Viterbi sería: El camino mas favorable utilizando el algoritmo de Viterbi sería: m 0 m 1 m 2 m 3 m 4 d 5 d 6 m 7 m 8 m 9 m 10 C A E F D D H C A E F D D H C D A E F P D D H C D A E F P D D H m 0 m 1 i 1 m 2 m 3 m 4 d 5 m 6 m 7 m 8 m 9 m 10, respectivamente.

Alineamiento Múltiple de Secuencias Este seria el mejor alineamiento: Este seria el mejor alineamiento:C–AEF–DDHCDAEFPDDH Suponemos que tenemos 5 secuencias: Suponemos que tenemos 5 secuencias:CAEFTPAVHCKETTPADHCAETPDDHCAEFDDHCDAEFPDDH

Alineamiento Múltiple de Secuencias Los correspondientes caminos realizados aplicando el algoritmo de Viterbi fueron: Los correspondientes caminos realizados aplicando el algoritmo de Viterbi fueron: m 0 m 1 m 2 m 3 m 4 m 5 m 6 m 7 m 8 m 9 m 10, m 0 m 1 m 2 m 3 d 4 m 5 m 6 m 7 m 8 m 9 m 10, m 0 m 1 m 2 m 3 m 4 d 5 d 6 m 7 m 8 m 9 m 10, m 0 m 1 i 1 m 2 m 3 m 4 d 5 m 6 m 7 m 8 m 9 m 10.

Alineamiento Múltiple de Secuencias Los alineamientos múltiples son: Los alineamientos múltiples son:C–AEFTPAVHC–KETTPADHC–AE–TPDDH C–AEF– –DDH CDAEF–PDDH

Pfam Una proteína tiene uno o mas dominios funcionales, las cuales son porciones que tienen una función esencial, la cual se resiste a la substitución de aminoácidos. Una proteína tiene uno o mas dominios funcionales, las cuales son porciones que tienen una función esencial, la cual se resiste a la substitución de aminoácidos. Proteínas de diferentes familias, su porción altamente homóloga esta en 1 o mas dominios. Proteínas de diferentes familias, su porción altamente homóloga esta en 1 o mas dominios. A partir de una proteína nueva obtenida, queremos anotar su secuencia. A partir de una proteína nueva obtenida, queremos anotar su secuencia.

Pfam Para ello el punto de partida es buscar en BLAST. Para ello el punto de partida es buscar en BLAST. De todas la secuencias reportadas por el BLAST, escogemos la que tenga significante similitud con la secuencia query. De todas la secuencias reportadas por el BLAST, escogemos la que tenga significante similitud con la secuencia query. Pfam determina dominios, similitud de secuencias y otras base de datos de secuencias de otras familias de proteínas. Pfam determina dominios, similitud de secuencias y otras base de datos de secuencias de otras familias de proteínas. El uso de HMMs permite la caracterización efectiva de muchos dominios. El uso de HMMs permite la caracterización efectiva de muchos dominios.

Búsqueda de gen (Gene finding) Secuencias genómicas de muchos millones de bases, tales secuencias consiste en la colección de genes separados por otros no funcionales. Secuencias genómicas de muchos millones de bases, tales secuencias consiste en la colección de genes separados por otros no funcionales. Paso importante: encontrar estos genes en la secuencia. Paso importante: encontrar estos genes en la secuencia. GENSCAN, buscador de genes, el cual es una base sobre una generalización del modelo semioculto de Markov. GENSCAN, buscador de genes, el cual es una base sobre una generalización del modelo semioculto de Markov.

Modelo de Markov Semioculto La probabilidad de las estancias del proceso en este estado para n pasos es p n-1 (1-p). La probabilidad de las estancias del proceso en este estado para n pasos es p n-1 (1-p). En el Modelo Oculto de Markov, supone la probabilidad de transición para cualquier estado sobre si mismo es cero. En el Modelo Oculto de Markov, supone la probabilidad de transición para cualquier estado sobre si mismo es cero.

Estructura de gen

El modelo N TATAN1N1 Cap end N2N2 TIE I E 3´UTRPoly A SEG Et E I