Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porJorge rios Modificado hace 6 años
1
PLN hmm1 Modelos ocultos de Markov (HMM) Introducción Cálculo de la probabilidad de una observación Algoritmo Forward Algoritmo Backward Algoritmo de Viterbi Estimación de los parámetros del modelo: Algoritmo Baum-Welch (Forward-Backward) nota: buena parte del material tomado de David Meir Blei (UCB)
2
PLN hmm2 HMM 1 Se trata de un modelo doblemente estocástico en el que el modelo del lenguaje corresponde a una máquina de estados finitos y el modelo de la comunicación es enteramente local (cada símbolo emitido depende sólo del estado en que se emite o de la transición que se efectúa). Un HMM puede implementarse mediante un FSA probabilístico de forma que las transiciones llevan asociada una probabilidad y la salida (asociada a los nodos) también.
3
PLN hmm3 HMM 2 En un HMM el pasado es independiente del futuro dado el presente. Los modelos simples de n-gram son casos particulares expresables en términos de HMM. Los parámetros del modelo (que debemos estimar) corresponden a las probabilidades de transición y de emisión.
4
PLN hmm4 HMM 3 3 distribuciones de probabilidad: probabilidad inicial: i probabilidad de estar inicialmente en el estado i probabilidad de transición: a ij probabilidad de, estando en el estado i, ir al estado j probabilidad de emisión: b i (k) probabilidad de, estando en el estado i, emitir el símbolo k.
5
PLN hmm5 Ejemplo de modelo oculto de Markov
6
PLN hmm6 Modelo Gráfico (en el sentido probabilístico) Los círculos denotan estados (correspondientes a variables aleatorias) Las flechas indican dependencias estadísticas entre estados HMM 4
7
PLN hmm7 Los círculos superiores denotan estados ocultos que sólo dependen de sus predecesores HMM 5
8
PLN hmm8 HMM 6 Los círculos inferiores denotan estados visibles (observados) Los estados observados sólo dependen de su correspondiente estado oculto.
9
PLN hmm9 HMM 7 {S, K, S : {s 1 …s N } valores de los estados ocultos K : {k 1 …k M } valores de las observaciones SSS KKK S K S K
10
PLN hmm10 {S, K, probabilidades iniciales A = {a ij } probabilidades de transición B = {b ik } probabilidades de emisión A B AAA BB SSS KKK S K S K HMM 8
11
PLN hmm11 Algoritmos para tratar HMM Cálculo de la probabilidad de una observación (dado el modelo) con coste lineal. Cálculo incremental de la probabilidad Fw Encontrar el camino mejor (el más probable) para una observación dada con coste lineal. Entrenamiento (estimación de los parámetros) del modelo a partir de un corpus => maximizar la probabilidad global del corpus. Algoritmo Forward/Backward Cuando hablamos de observación nos referimos a una secuencia de observaciones
12
PLN hmm12 oToT o1o1 otot o t-1 o t+1 Dada una observación y un modelo, calcular la probabilidad de la observación Decodificación 1
13
PLN hmm13 Decodificación 2 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1
14
PLN hmm14 Decodificación 3 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1
15
PLN hmm15 Decodificación 4 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1
16
PLN hmm16 Decodificación 5 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1
17
PLN hmm17 Decodificación 6 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1
18
PLN hmm18 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1 Implementación eficiente usando programación dinámica Idea: Mantener para cada estado i y tiempo t la probabilidad de haber alcanzado el estado habiendo emitido la secuencia de observaciones hasta t Probabilidad forward: Algoritmo Forward 1
19
PLN hmm19 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1 Algoritmo Forward 2
20
PLN hmm20 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1 Algoritmo Forward 3
21
PLN hmm21 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1 Algoritmo Forward 4
22
PLN hmm22 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1 Probabilidad de completar la emisión desde un estado Algoritmo Backward 1
23
PLN hmm23 oToT o1o1 otot o t-1 o t+1 x1x1 x t+1 xTxT xtxt x t-1 Forward Procedure Backward Procedure Combination Decodificación 7
24
PLN hmm24 oToT o1o1 otot o t-1 o t+1 Encontrar la secuencia de estados que explique mejor las observaciones Algoritmo de Viterbi Viterbi 1
25
PLN hmm25 oToT o1o1 otot o t-1 o t+1 Secuencia de estados que maximiza la probabilidad de ver las observaciones hasta el instante t-1, estando en el estado j y emitiendo la observación del instante t x1x1 x t-1 j Viterbi 2
26
PLN hmm26 oToT o1o1 otot o t-1 o t+1 Cálculo Recursivo x1x1 x t-1 xtxt x t+1 Viterbi 3
27
PLN hmm27 oToT o1o1 otot o t-1 o t+1 Cálculo de la secuencia más verosimil de forma backward x1x1 x t-1 xtxt x t+1 xTxT Viterbi 4
28
PLN hmm28 oToT o1o1 otot o t-1 o t+1 Dada una secuencia de observaciones encontrar el modelo ( = { ,A,B}) que maximice la probabilidad de emitir la observación No existe método analítico para hacerlo A B AAA BBBB Estimación de los parámetros 1
29
PLN hmm29 Baum-Welch (Forward-Backward) Caso particular de la familia de algoritmos de Expectation Maximization (EM) Método iterativo de tipo hill-climbing Estimación de los parámetros 2
30
PLN hmm30 Algoritmo EM Se ignoran (algunos de) los parámetros del modelo No se conoce la Estructura oculta Se dispone de una serie de observaciones Dos etapas Expectation Maximization Estimación de los parámetros 3
31
PLN hmm31 Estimación de los parámetros 4 Parámetros del modelo (probabilidades) Estructura oculta Observaciones E step: a partir de los parámetros actuales se recupera la estructura oculta M step: a partir de las observaciones y de la estructura oculta se recalculan los parámetros
32
PLN hmm32 Estimación de los parámetros 5 Baum-Welch (Forward-Backward) Comenzar con un modelo = { ,A,B} inicial Cálculo de valores esperados del uso de las transiciones/emisiones Reestimar las probabilidades (el modelo) de acuerdo al modelo Repetir hasta lograr la convergencia
33
PLN hmm33 oToT o1o1 otot o t-1 o t+1 A B AAA BBBB Probabilidad de atravesar un arco (i,j) Probabilidad de estar en el estado i Estimación de los parámetros 6
34
PLN hmm34 oToT o1o1 otot o t-1 o t+1 A B AAA BBBB Estimación de los parámetros 7 Reestimación de los parámetros del modelo
35
PLN hmm35 Aplicaciones POS tagging Generación de los parámetros de un LM NER NEC chunking ASR
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.