Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porLuis Miguel Maldonado Carrasco Modificado hace 10 años
1
PLN Modelos del lenguaje1 Modelos Estadísticos del lenguaje Modelos del lenguaje (Language Models, LM) Noisy Channel model Modelos simples de Markov Smoothing
2
PLN Modelos del lenguaje2 Language Models 1 Modelos estadísticos Modelos del lenguaje (LM) Vocabulario (V), palabra w V Lenguaje (L), oración s L L V * normalmente infinito s = w 1,…w N Probabilidad de s P(s)
3
PLN Modelos del lenguaje3 Noisy Channel Model 1 Mecanismo de modelado estadístico de un canal de comunicación de mensajes en presencia de ruido Se pretende optimizar la calidad de la comunicación de mensajes a través del canal en presencia de ruido Compresión (eliminación de la redundancia) y calidad de la transmisión (conseguida introduciendo redundancia de forma controlada de forma que se pueda recuperar el mensaje original en presencia de ruido)
4
PLN Modelos del lenguaje4 Noisy Channel Model 2 W XW*Y encoder decoder Channel p(y|x) message input to channel Output from channel Attempt to reconstruct message based on output
5
PLN Modelos del lenguaje5 Noisy Channel Model 3 Capacidad del canal (C): Nivel al que se puede transmitir información con una probabilidad pequeña de ser incapaz de recuperar la entrada a partir de la salida Alcanzamos la capacidad del canal si logramos diseñar un input code X con distribución estadística p(X) que maximice la I (información mutua) entre entrada y salida.
6
PLN Modelos del lenguaje6 Noisy Channel Model 4 En PLN no podemos actuar sobre la fase de codificación (encoding). El problema es decodificar la salida para lograr la entrada más verosimil decoder Noisy Channel p(o|I) I O
7
PLN Modelos del lenguaje7 Noisy Channel Model 5 Modelo del lenguaje Probabilidad del canal
8
PLN Modelos del lenguaje8 Noisy Channel Model 6 noisy channel X Y lenguaje real X lenguaje observado Y Deseamos recuperar X a partir de Y
9
PLN Modelos del lenguaje9 Noisy Channel Model 7 texto correcto errores texto con errores noisy channel X Y lenguaje real X lenguaje observado Y
10
PLN Modelos del lenguaje10 Noisy Channel Model 8 texto correcto eliminación de espacios texto sin espacios noisy channel X Y lenguaje real X lenguaje observado Y
11
PLN Modelos del lenguaje11 Noisy Channel Model 9 texto pronunciación habla language model acoustic model noisy channel X Y lenguaje real X lenguaje observado Y
12
PLN Modelos del lenguaje12 Noisy Channel Model 10 árbol inserción de terminales texto probabilistic CFG noisy channel X Y lenguaje real X lenguaje observado Y
13
PLN Modelos del lenguaje13 Noisy Channel Model 11 lengua f traducción lengua o noisy channel X Y lenguaje real X lenguaje observado Y
14
PLN Modelos del lenguaje14 Noisy Channel model 12 Cadena acústica Cadena de palabras Modelo del lenguaje Modelo acústico ejemplo: ASR Automatic Speech Recognizer
15
PLN Modelos del lenguaje15 Noisy Channel model 13 Modelo del lenguaje objetivo Modelo de la traducción ejemplo: Traducción Automática
16
PLN Modelos del lenguaje16 Implementación de LM Implementación intuitiva Enumerar s L Calcular las p(s) Parámetros del modelo |L| Simplificaciones historia h i = { w i, … w i-1 } Modelos de Markov
17
PLN Modelos del lenguaje17 Modelos de Markov simples 1 Modelos de Markov de orden n+ 1 P(w i |h i ) = P(w i |w i-n+1, … w i-1 ) 0-grama 1-grama P(w i |h i ) = P(w i ) 2-grama P(w i |h i ) = P(w i |w i-1 ) 3-grama P(w i |h i ) = P(w i |w i-2,w i-1 )
18
PLN Modelos del lenguaje18 Modelos de Markov simples 2 n grande: más información del contexto (más poder discriminativo) n pequeño: más casos en el corpus de entrenamiento (más confianza) Selección de n: ej. para |V| = 20.000 nnum. parámetros 2 (bigrams)400,000,000 3 (trigrams)8,000,000,000,000 4 (4-grams)1.6 x 10 17
19
PLN Modelos del lenguaje19 Modelos de Markov simples 3 Parámetros de un modelo de n-grama |V| n Estimación MLE a partir de un corpus Problema sparseness
20
PLN Modelos del lenguaje20 Modelos de Markov simples 4 Modelo 1-gram Modelo 2-gram Modelo 3-gram
21
PLN Modelos del lenguaje21 Modelos de Markov simples 5
22
PLN Modelos del lenguaje22 Modelos de Markov simples 6
23
PLN Modelos del lenguaje23 Modelos de Markov simples 7 Distribución real de probabilidad
24
PLN Modelos del lenguaje24 Modelos de Markov simples 8 Los casos vistos están sobre estimados, los no vistos tienen probabilidad nula
25
PLN Modelos del lenguaje25 Smoothing 1 Métodos que actúan sobre el contaje de los n- gramas Laplace, Lidstone, Jeffreys-Perks Métodos que actúan sobre las probabilidades: Held-Out Good-Turing Descuento Métodos de combinación Interpolación lineal Back Off
26
PLN Modelos del lenguaje26 Smoothing 2 P = probabilidad de un n-grama C = contaje del n-grama en el corpus de entrenamiento N = total n-gramas en el corpus de entrenamiento B = parámetros del modelo (n-gramas posibles) Laplace (add 1)
27
PLN Modelos del lenguaje27 Smoothing 3 = número positivo pequeño M.L.E: = 0 Laplace: = 1 Jeffreys-Perks: = ½ Lidstone (generalización de Laplace)
28
PLN Modelos del lenguaje28 Smoothing 4 Calcular qué porcentaje de la masa de probabilidad debe conservarse para los n-gramas no presentes en el corpus de entrenamiento Se reverva parte del corpus de entrenamiento como corpus de validación (otra parte es para test) Se calculan cuántos n-gramas ausentes del corpus de entrenamiento aparecen en el de validación Posibilidad de usar Cross-Validation Held-Out
29
PLN Modelos del lenguaje29 Smoothing 5 Sea un n-grama w 1 … w n r = C(w 1 … w n ) C 1 (w 1 … w n ) frecuencia del n-grama en el training set C 2 (w 1 … w n ) frecuencia del n-grama en el held out set N r número de n-gramas con frecuencia r en el training set Held-Out
30
PLN Modelos del lenguaje30 Smoothing 6 r * = “frecuencia ajustada” N r = número de n-gram-types que aparecen r veces E(N r ) = “valor esperado” E(N r+1 ) < E(N r ) Good-Turing
31
PLN Modelos del lenguaje31 Smoothing 7 Primero se calcula la probabilidad de held-out. Absolute discounting: Decrementar en una pequeña constante la probabilidad de cada n- grama observado en el corpus de aprendizaje Linear discounting: Decrementar la probabilidad de cada n-grama observado en el corpus de aprendizaje multiplicándola por una cantidad. Métodos de descuento
32
PLN Modelos del lenguaje32 Smoothing 8 Combinación de métodos Combinación lineal de 1-grama, 2-grama, 3-grama,... Estimación de las mediante un corpus de validación
33
PLN Modelos del lenguaje33 Smoothing 9 Usar n-grama cuando hay suficientes casos en el corpus de entrenamiento, si no hacer back-off a n-1-grama Repetir en caso de necesidad Katz’s Backing-Off
34
PLN Modelos del lenguaje34 Enriquecimiento de los LM Actuación sobre la historia Modelos basados en clases agrupación de palabras en clases Rosenfeld, 2000: P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|wi-2,wi-1) P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|wi-2,Ci-1) P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|Ci-2,Ci-1) P(wi|wi-2,wi-1) = P(wi|Ci-2,Ci-1)
35
PLN Modelos del lenguaje35 Structured Language Models Jelinek, Chelba, 1999 Inclusión de la estructura sintáctica en la historia T i son las estructuras sintácticas árboles binarios lexicalizados
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.