La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.

Presentaciones similares


Presentación del tema: "Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda."— Transcripción de la presentación:

1 Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda

2 1. Las Cadenas de Markov 2. El Modelo de Hidden Markov 3. Aplicaciones y Demostraciones de HMM.

3 Introducción de Markov Chains Un grupo finito de S posibles “estados” (E1,E2,E3...,Es), en unidad de tiempo, t =1,2,3.... Un grupo finito de S posibles “estados” (E1,E2,E3...,Es), en unidad de tiempo, t =1,2,3.... El proceso de cadenas de Markov ocupa uno de estos estados. El proceso de cadenas de Markov ocupa uno de estos estados. E3, t E4, t+1 Para que MC permanezca en un estado o se mueva depende de probabilidades. Para que MC permanezca en un estado o se mueva depende de probabilidades.

4 Propiedades de Markov Chains Sin memoria Sin memoria E3 E4 E3 E4 t t+1 t t+1 Homogeneidad del tiempo. Homogeneidad del tiempo. Independiente del ”tiempo” Independiente del ”tiempo”

5 Matrix de Transición S1S1S1S1 S2S2S2S2 S3S3S3S3 S1S1S1S1010 S2S2S2S21/32/30 S3S3S3S31/21/31/6

6 Matriz de Probabilidad de Transición de Estados (a E1) (a E2) (a E3)... (a Es) (a E1) (a E2) (a E3)... (a Es) (deE1) P11 P12 P13... P1s (deE1) P11 P12 P13... P1s (deE2) P21 P22 P23... P2s (deE2) P21 P22 P23... P2s P=....................... (deEs) Ps1 Ps2 Ps3... Pss (deEs) Ps1 Ps2 Ps3... Pss

7 Representación de las Cadenas de Markov A B C D 0.2 0.3 0.5 0.05 0.95 0.2 0.8 1 0100 0.800.20 0.300.50.2 00.0500.95 AB B A C C D D

8 ¿ Que tal si cada estado no corresponde a un evento (físico) observable? ¿ Que tal si cada estado no corresponde a un evento (físico) observable? ¿ Que tal si el estado produce un evento observable, que es una función probabilistica de éste? ¿ Que tal si el estado produce un evento observable, que es una función probabilistica de éste?

9 Hidden Markov Models (HMM)

10 Descripción de las Propiedades HMM es similar a las cadenas de Markov, pero más general y flexible. HMM es similar a las cadenas de Markov, pero más general y flexible. HMM es un modelo de Markov, “discreto en el tiempo” HMM es un modelo de Markov, “discreto en el tiempo” Cuando un estado es visitado por las cadenas de Markov, el estado emite una letra de un alfabeto fijado independiente del tiempo. Cuando un estado es visitado por las cadenas de Markov, el estado emite una letra de un alfabeto fijado independiente del tiempo.

11 Descripción de las Propiedades Las letras son emitidas vía una distribución de probabilidades, independiente del tiempo, pero usualmente dependiente del estado. Las letras son emitidas vía una distribución de probabilidades, independiente del tiempo, pero usualmente dependiente del estado. Inicial  emisión  transición  emisión  transición .. q 1 O 1 q 2 O 2 q 3

12 Descripción de las Propiedades Se denota la secuencia de q i ´s por Q y la secuencia total de O i ´s por O. Se denota la secuencia de q i ´s por Q y la secuencia total de O i ´s por O. Se escribe la secuencia observada como: Se escribe la secuencia observada como: O = O 1, O 2,... Se escribe la secuencia de estados como: Se escribe la secuencia de estados como: Q = q 1, q 2,...

13 Descripción de las Propiedades Frecuentemente conocemos O, pero no conocemos Q (“Hidden”.) Con HMM se pueden responder muchas preguntas de O y de Q. Inicial  emisión  transición  emisión  transición  q1  1 q2  2 q3

14 Una de estas preguntas es:.... ¿ Dada una secuencia observada O, cuál es la secuencia de estados ocultos Q que tiene la más alta probabilidad de emitir dicha secuencia? ¿ Dada una secuencia observada O, cuál es la secuencia de estados ocultos Q que tiene la más alta probabilidad de emitir dicha secuencia?

15 S1S1 S2S2 0,8 0,1 0,9 0,2 Considerando la cadena de Markov con dos estados S 1 y S 2, con una distribución inicial uniforme y con una matriz de transición:

16 1 Suponiendo que la secuencia observada es O =2,2,2 Qué secuencia de estados Q = q 1, q 2, q 3 tiene la más alta probabilidad de emitir O ? S1S1 2 0,5 S2S2 1 2 0,25 0,75 Sea A, un alfabeto, que consta de: A = 1, 2

17 O = 2 2 2 S1S1 S1S1 S1S1 S1S1 S1S1 S2S2 S1S1 S2S2 S1S1 S1S1 S2S2 S2S2 S2S2 S2S2 S2S2 S2S2 S2S2 S1S1 S2S2 S1S1 S2S2 S2S2 S1S1 S1S1 Q = S2, S1, S1 S1S1 2 0,5 S2S2 2 0,75

18 El cálculo anterior se pudo hacer a “mano”, sin embargo …. El cálculo anterior se pudo hacer a “mano”, sin embargo …. ¿ Qué pasa cuando el alfabeto tiene muchos símbolos (como 20 letras que corresponden a los aminoacidos) ¿ Qué pasa cuando el alfabeto tiene muchos símbolos (como 20 letras que corresponden a los aminoacidos)

19 Elementos de un HMM Características de Estructura 1) Conjunto de estados. Q={q 1,q 2,q 3..q N } 2) Conjunto de observables,O={O 1, O 2..O N } 3) Matriz de transición de probabilidad de estados Características de los Parámetros 4) Probabilidad de que un observables sea emitido en el estado q j, en el estado q j, 4) Una distribución de estados inicial q2q2 1 2 0,25 0,75

20 Cálculos Frecuentes en HMMs 1-. Dado: El estado inicial, El estado inicial, La matriz de transición entre estados La matriz de transición entre estados La probabilidades de que un estado S i emita un observable en el tiempo t,  (t,i) La probabilidades de que un estado S i emita un observable en el tiempo t,  (t,i) Calcular la probabilidad de que alguna secuencia de observables O ={O 1 O 2 …O t } aparezca. Calcular la probabilidad de que alguna secuencia de observables O ={O 1 O 2 …O t } aparezca. Solución:Algoritmo Forward o Backward Solución:Algoritmo Forward o Backward S2S2 1 2 0,25 0,75

21 Algoritmo Forward (o Backward) Inicial  O 1  transición  O 2  transición  O 3 q 1 (cualquiera) q 2 q 2 O 1  transición  O 2  transición  O 3 q 1 q 1 O 1  transición  O 2  transición  O 3 q 3 q 3 Algoritmo Forward -Se da algun estado inical S 1 en t¡=0 y por inducción se calculan ( Backward ) TODAS LAS PROBABILIDADES de que hacia (t=1) se emita O 1, luego TODAS LAS PROBABILIDADES de que hacia (t=2) se emita O 1 O 2, y hacia (t=3) se emita O 1 O 2 O 3, y asi sucesivamente

22 Cálculos Frecuentes en HMMs 2- Dado O ={O 1 O 2 …O t }, Calcular Q = q 1 q 2 q 3 …q t que haya sido mas probable. Calcular P[Q | O] maximo!! Se calcula un parámetro,  (t,i) que sea la de maxima probabilidad de todas las secuencias que termine en el estado S i en el tiempo t y de tener una secuencia de observables O 1 O 2 …O t. Hay muchas secuencias de estados que den una altas probabilidad de O ={O 1 O 2 …O t } Un algoritmo para encontrar uno de estos valores es: Algoritmo de Viterbi Ejemplo desarrollado

23 Cálculos Frecuentes en HMMs 3.- Dado la secuencia de observables O ={O 1 O 2 …O t }, Estimar lo parámetros del HMM: 1. El estado inicial, 2. La Matriz de transición de estados P 3. B y , que maximicen 4. La probabilidad de que cada estado S i emita cada observable O ={O 1 O 2 …O t }, Solución :Método de Baum-Welch de Estimación de parámetros Solución :Método de Baum-Welch de Estimación de parámetros

24 El Algoritmo de Baum-Welch Se asume un número finito de estados y de observables Se asume un número finito de estados y de observables Se dan un estado inicial S i, la matriz de transición p ij,y la probabilidad de emisión de observables b i (k) en algún valor inicial. ( ESTO BAJO CIERTAS PERMISAS DE CADA PROCESO A ESTUDIAR ) Se dan un estado inicial S i, la matriz de transición p ij,y la probabilidad de emisión de observables b i (k) en algún valor inicial. ( ESTO BAJO CIERTAS PERMISAS DE CADA PROCESO A ESTUDIAR ) Utilizando estos parámetros iniciales calculamos “nuevos valores” de S * i, p * ij, b i (k) *. Utilizando estos parámetros iniciales calculamos “nuevos valores” de S * i, p * ij, b i (k) *. Algoritmo muy complicado  basado en un metodos estadístico iterativo

25 Condición inicial  1er resultado 1er resultado  2do resultado 1er resultado  2do resultado 2do resultado  3er resultado 2do resultado  3er resultado S * i, p * ij, b i (k) *.     Valores Reales. El proceso se detiene cuando la probabilidad ha convergido hacia cierto valor

26 APLICACIONES

27 MODELAMIENTO DE FAMILIAS DE PROTEINAS

28  Se usa para: Construcción de alineamiento múltiple. Determinar la familia de la secuencia query.

29 MODELO DE UNA FAMILIA DE PROTEINAS m0m0 m1m1 m2m2 m3m3 m4m4 d1d1 d2d2 d3d3 d4d4 i0i0 i1i1 i2i2 i3i3 i4i4 m5m5 d5d5 d6d6 i5i5 i6i6 i7i7 m6m6 m7m7 d7d7

30 Modelamiento de familia de proteínas En el modelo de HHMs de familia de la proteína la transición (la flecha) de un estado de emparejamiento a un estado de inserción a sí mismo corresponde a la multa de gap extention. En el modelo de HHMs de familia de la proteína la transición (la flecha) de un estado de emparejamiento a un estado de inserción a sí mismo corresponde a la multa de gap extention. La alineación de la programación dinámica y BLAST son con toda seguridad esenciales, como las alineaciones de pares; pero, para modelar a las familias con grandes de sucesiones, o construcción de las alineaciones de muchas sucesiones, permite con eficacia, y al mismo tiempo aprovecha de datos más grandes para aumentar la flexibilidad. La alineación de la programación dinámica y BLAST son con toda seguridad esenciales, como las alineaciones de pares; pero, para modelar a las familias con grandes de sucesiones, o construcción de las alineaciones de muchas sucesiones, permite con eficacia, y al mismo tiempo aprovecha de datos más grandes para aumentar la flexibilidad.

31 ALINEAMIENTO MULTIPLE DE SECUENCIAS

32 Alineamiento Múltiple de Secuencias CAEFPDDH y CDAEFPDDH. CAEFPDDH y CDAEFPDDH. El camino mas favorable utilizando el algoritmo de Viterbi sería: El camino mas favorable utilizando el algoritmo de Viterbi sería: m 0 m 1 m 2 m 3 m 4 d 5 d 6 m 7 m 8 m 9 m 10 C A E F D D H C A E F D D H C D A E F P D D H C D A E F P D D H m 0 m 1 i 1 m 2 m 3 m 4 d 5 m 6 m 7 m 8 m 9 m 10, respectivamente.

33 Alineamiento Múltiple de Secuencias Este seria el mejor alineamiento: Este seria el mejor alineamiento:C–AEF–DDHCDAEFPDDH Suponemos que tenemos 5 secuencias: Suponemos que tenemos 5 secuencias:CAEFTPAVHCKETTPADHCAETPDDHCAEFDDHCDAEFPDDH

34 Alineamiento Múltiple de Secuencias Los correspondientes caminos realizados aplicando el algoritmo de Viterbi fueron: Los correspondientes caminos realizados aplicando el algoritmo de Viterbi fueron: m 0 m 1 m 2 m 3 m 4 m 5 m 6 m 7 m 8 m 9 m 10, m 0 m 1 m 2 m 3 d 4 m 5 m 6 m 7 m 8 m 9 m 10, m 0 m 1 m 2 m 3 m 4 d 5 d 6 m 7 m 8 m 9 m 10, m 0 m 1 i 1 m 2 m 3 m 4 d 5 m 6 m 7 m 8 m 9 m 10.

35 Alineamiento Múltiple de Secuencias Los alineamientos múltiples son: Los alineamientos múltiples son:C–AEFTPAVHC–KETTPADHC–AE–TPDDH C–AEF– –DDH CDAEF–PDDH

36 Pfam Una proteína tiene uno o mas dominios funcionales, las cuales son porciones que tienen una función esencial, la cual se resiste a la substitución de aminoácidos. Una proteína tiene uno o mas dominios funcionales, las cuales son porciones que tienen una función esencial, la cual se resiste a la substitución de aminoácidos. Proteínas de diferentes familias, su porción altamente homóloga esta en 1 o mas dominios. Proteínas de diferentes familias, su porción altamente homóloga esta en 1 o mas dominios. A partir de una proteína nueva obtenida, queremos anotar su secuencia. A partir de una proteína nueva obtenida, queremos anotar su secuencia.

37 Pfam Para ello el punto de partida es buscar en BLAST. Para ello el punto de partida es buscar en BLAST. De todas la secuencias reportadas por el BLAST, escogemos la que tenga significante similitud con la secuencia query. De todas la secuencias reportadas por el BLAST, escogemos la que tenga significante similitud con la secuencia query. Pfam determina dominios, similitud de secuencias y otras base de datos de secuencias de otras familias de proteínas. Pfam determina dominios, similitud de secuencias y otras base de datos de secuencias de otras familias de proteínas. El uso de HMMs permite la caracterización efectiva de muchos dominios. El uso de HMMs permite la caracterización efectiva de muchos dominios.

38 Búsqueda de gen (Gene finding) Secuencias genómicas de muchos millones de bases, tales secuencias consiste en la colección de genes separados por otros no funcionales. Secuencias genómicas de muchos millones de bases, tales secuencias consiste en la colección de genes separados por otros no funcionales. Paso importante: encontrar estos genes en la secuencia. Paso importante: encontrar estos genes en la secuencia. GENSCAN, buscador de genes, el cual es una base sobre una generalización del modelo semioculto de Markov. GENSCAN, buscador de genes, el cual es una base sobre una generalización del modelo semioculto de Markov.

39 Modelo de Markov Semioculto La probabilidad de las estancias del proceso en este estado para n pasos es p n-1 (1-p). La probabilidad de las estancias del proceso en este estado para n pasos es p n-1 (1-p). En el Modelo Oculto de Markov, supone la probabilidad de transición para cualquier estado sobre si mismo es cero. En el Modelo Oculto de Markov, supone la probabilidad de transición para cualquier estado sobre si mismo es cero.

40 Estructura de gen

41 El modelo N TATAN1N1 Cap end N2N2 TIE I E 3´UTRPoly A SEG Et E I


Descargar ppt "Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda."

Presentaciones similares


Anuncios Google