Modelos ocultos de Markov (HMM)

Modelos ocultos de Markov (HMM)
Introducción Cálculo de la probabilidad de una observación Algoritmo Forward Algoritmo Backward Algoritmo de Viterbi Estimación de los parámetros del modelo: Algoritmo Baum-Welch (Forward-Backward) Introduction: marc general i la motivació d’aquest treball nota: buena parte del material tomado de David Meir Blei (UCB)

HMM 1 Se trata de un modelo doblemente estocástico en el que el modelo del lenguaje corresponde a una máquina de estados finitos y el modelo de la comunicación es enteramente local (cada símbolo emitido depende sólo del estado en que se emite o de la transición que se efectúa). Un HMM puede implementarse mediante un FSA probabilístico de forma que las transiciones llevan asociada una probabilidad y la salida (asociada a los nodos) también.

HMM 2 En un HMM el pasado es independiente del futuro dado el presente. Los modelos simples de n-gram son casos particulares expresables en términos de HMM. Los parámetros del modelo (que debemos estimar) corresponden a las probabilidades de transición y de emisión.

HMM 3 3 distribuciones de probabilidad:
probabilidad inicial: i probabilidad de estar inicialmente en el estado i probabilidad de transición: aij probabilidad de, estando en el estado i, ir al estado j probabilidad de emisión: bi(k) probabilidad de, estando en el estado i, emitir el símbolo k.

Ejemplo de modelo oculto de Markov

HMM 4 Modelo Gráfico (en el sentido probabilístico)
Los círculos denotan estados (correspondientes a variables aleatorias) Las flechas indican dependencias estadísticas entre estados

HMM 5 Los círculos superiores denotan estados ocultos que sólo dependen de sus predecesores

HMM 6 Los círculos inferiores denotan estados visibles (observados)
Los estados observados sólo dependen de su correspondiente estado oculto.

HMM 7 {S, K, P, A, B} S : {s1…sN } valores de los estados ocultos
K : {k1…kM } valores de las observaciones

HMM 8 {S, K, P, A, B} P = {pi} probabilidades iniciales
A = {aij} probabilidades de transición B = {bik} probabilidades de emisión

Algoritmos para tratar HMM
Cálculo de la probabilidad de una observación (dado el modelo) con coste lineal. Cálculo incremental de la probabilidad Fw Encontrar el camino mejor (el más probable) para una observación dada con coste lineal. Entrenamiento (estimación de los parámetros) del modelo a partir de un corpus => maximizar la probabilidad global del corpus. Algoritmo Forward/Backward Cuando hablamos de observación nos referimos a una secuencia de observaciones

Decodificación 1 oT o1 ot-1 ot ot+1 Dada una observación y un modelo, calcular la probabilidad de la observación

Decodificación 2 oT o1 ot ot-1 ot+1 x1 xt+1 xT xt xt-1

Algoritmo Forward 1 oT o1 ot ot-1 ot+1 x1 xt+1 xT xt xt-1 Implementación eficiente usando programación dinámica Idea: Mantener para cada estado i y tiempo t la probabilidad de haber alcanzado el estado habiendo emitido la secuencia de observaciones hasta t Probabilidad forward:

Algoritmo Forward 2 oT o1 ot ot-1 ot+1 x1 xt+1 xT xt xt-1

Algoritmo Backward 1 x1 xt-1 xt xt+1 xT o1 ot-1 ot ot+1 oT Probabilidad de completar la emisión desde un estado

Decodificación 7 Forward Procedure Backward Procedure Combination x1
xt-1 xt xt+1 xT o1 ot-1 ot ot+1 oT Forward Procedure Backward Procedure Combination

Viterbi 1 oT o1 ot ot-1 ot+1 Encontrar la secuencia de estados que explique mejor las observaciones Algoritmo de Viterbi

Viterbi 2 x1 xt-1 j o1 ot-1 ot ot+1 oT Secuencia de estados que maximiza la probabilidad de ver las observaciones hasta el instante t-1, estando en el estado j y emitiendo la observación del instante t

Viterbi 3 oT o1 ot ot-1 ot+1 x1 xt-1 xt xt+1 Cálculo Recursivo

Viterbi 4 Cálculo de la secuencia más verosimil de forma backward oT
x1 xt-1 xt xt+1 xT Cálculo de la secuencia más verosimil de forma backward

Estimación de los parámetros 1
oT o1 ot ot-1 ot+1 B B B B B Dada una secuencia de observaciones encontrar el modelo (= {,A,B}) que maximice la probabilidad de emitir la observación No existe método analítico para hacerlo

Baum-Welch (Forward-Backward) Caso particular de la familia de algoritmos de Expectation Maximization (EM) Método iterativo de tipo hill-climbing

Algoritmo EM Se ignoran (algunos de) los parámetros del modelo No se conoce la Estructura oculta Se dispone de una serie de observaciones Dos etapas Expectation Maximization

E step: a partir de los parámetros actuales se recupera la estructura oculta Parámetros del modelo (probabilidades) Estructura oculta Observaciones M step: a partir de las observaciones y de la estructura oculta se recalculan los parámetros

Baum-Welch (Forward-Backward) Comenzar con un modelo = {,A,B} inicial Cálculo de valores esperados del uso de las transiciones/emisiones Reestimar las probabilidades (el modelo) de acuerdo al modelo Repetir hasta lograr la convergencia

oT o1 ot ot-1 ot+1 B B B B B Probabilidad de atravesar un arco (i,j) Probabilidad de estar en el estado i

oT o1 ot ot-1 ot+1 B B B B B Reestimación de los parámetros del modelo

Aplicaciones POS tagging Generación de los parámetros de un LM NER NEC
chunking ASR

Modelos ocultos de Markov (HMM)

Presentaciones similares

Presentación del tema: "Modelos ocultos de Markov (HMM)"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Modelos ocultos de Markov (HMM)

Presentaciones similares

Presentación del tema: "Modelos ocultos de Markov (HMM)"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback