PLN Modelos del lenguaje1 Modelos Estadísticos del lenguaje Modelos del lenguaje (Language Models, LM) Noisy Channel model Modelos simples de Markov Smoothing.

Slides:



Advertisements
Presentaciones similares
Introducción a las Redes neuronales
Advertisements

MÉTODOS DE ESTIMACIÓN Y GESTIÓN DEL RIESGO
DISEÑO DE EXPERIMENTOS
Convertidores A/D y D/A
TRABAJO FIN DE CARRERA Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto del Habla I v á n L ó p e z E s p.
7. Máquinas Estocásticas
CAP. 6 - DISTORSIÓN Ing. Verónica M.Miró 2011.
1.1 selecciona el protocolo de comunicación según terminal (Modbus, Unitilway etc) y presiona el Botón Crear.
Códigos Detectores y Correctores de Errores
Transmisión de Señales y Transmisión de Datos
Tema 6: Compresión de imagen
PROYECTO FIN DE MÁSTER Estimación de Ruido Acústico Mediante Filtros de Partículas para Reconocimiento Robusto de Voz I v á n L ó p e z E s p e j o.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Capitulo 10: La metodología Box-Jenkins
Estimación por Intervalos de confianza
Conceptos básicos de inferencia
Tema 2: Métodos de ajuste
Aprendizaje Automatizado
Teoría de la Información
Curso Práctico de Bioestadística Con Herramientas De Excel Fabrizio Marcillo Morla MBA (593-9)
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Representando para Aprender
Modelos Ocultos de Markov
Procesamiento Práctico del lenguaje Natural Capítulo XXIII.
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
3. Funciones discriminantes para la f.d.p normal.
Sesión 6: Campos de Markov
(Organización y Manejo de Archivos)
Perceptrón Multicapa Aplicaciones. Perceptrón Multicapa MLP Latitud Longitud... Altitud Radiación solar Aproximación de funciones MLP Estado de un reactor.
Sistemas de Control y Proceso Adaptativo
27/04/2015 Seminario Entrenamiento Multihaz HYPACK®1 HYCUBE CURSO MULTIHAZ HYPACK ®
Distribución Normal o gaussiana
Curso de Bioestadística. ANOVA
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Sistemas de Control y Proceso Adaptativo
Titular: Agustín Salvia
LÍNEAS DE ESPERA Gabriel García Velazquez.
Procesamiento de Imágenes digitales
Tema 3: Filtros.
Presentado por:   JUAN FRANCISCO ALVAREZ ALVARADO
Sesión 12: Procesos de Decisión de Markov
Capítulo 1. Conceptos básicos de la Estadística
1. 2 Problema Telemóviles, una gran companía de telefonía, requiere mejorar la capacidad de identificación del usuario que llama: –dado un número de usuario,
Sesión 13: Distribuciones Muestrales y Tamaño de Muestra
Redes Neuronales BPN - Backpropagation Networks
Tagging POS Tagging Taggers basados en reglas Taggers estadísticos
Herramientas avanzadas. Lo primero: abrir el modelo.
Modelos ocultos de Markov (HMM)
Br. Hugo Volcanes Br. Katiusca Díaz.  Control de Enlace de Datos  Control de Flujo  Detección de Errores  Comprobación de Paridad  Código Hamming.
1 Introducción al tratamiento de datos © José Luís Contreras.
Septiembre  Responde a quienes y cuantas personas se aplicará el instrumento de recolección de datos.
Sistemas de Comunicación Avanzados Profesor: Héctor Abarca A. Sistemas de Comunicación de Datos II. Héctor Abarca A.
ROBOT DE UNA SOLA ARTICULACION
IV. GRAMÁTICAS DISTRIBUIDAS Y TABLAS DE SÍMBOLOS
Ciclo de desarrollo del software
Unidad 4 Análisis de los Datos.
UNIDAD II LINEAS DE ESPERA
Clase N°9 Análisis de output en el largo plazo (Parte II) ICS3723 Simulación Profesor Pedro Gazmuri.
Medición y Metrología Medición. Base de la Instrumentación
@ Angel Prieto BenitoMatemáticas Aplicadas CS I1 U.D. 14 * 1º BCS DISTRIBUCIÓN BINOMIAL.
Elementos del Diseño de Investigación Defina el Problema Revise la literatura Formule una hipótesis Planee investigar y probar su hipótesis Planee necesidades.
COMPROMISOS DE LA CLASE
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
MENSAJES CONFIABLES EN CANALES NO CONFIABLES NOMBRE: CÉSAR GRANIZO FECHA: 08/06/2016.
4. Métodos psicofísicos de medida en clínica
Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999)
Regresión logística Tema 6c. En la regresión lineal la variable dependiente es continua En regresión logística se utiliza cuando la variable dependiente.
Transcripción de la presentación:

PLN Modelos del lenguaje1 Modelos Estadísticos del lenguaje Modelos del lenguaje (Language Models, LM) Noisy Channel model Modelos simples de Markov Smoothing

PLN Modelos del lenguaje2 Language Models 1 Modelos estadísticos Modelos del lenguaje (LM) Vocabulario (V), palabra w  V Lenguaje (L), oración s  L L  V * normalmente infinito s = w 1,…w N Probabilidad de s P(s)

PLN Modelos del lenguaje3 Noisy Channel Model 1 Mecanismo de modelado estadístico de un canal de comunicación de mensajes en presencia de ruido Se pretende optimizar la calidad de la comunicación de mensajes a través del canal en presencia de ruido Compresión (eliminación de la redundancia) y calidad de la transmisión (conseguida introduciendo redundancia de forma controlada de forma que se pueda recuperar el mensaje original en presencia de ruido)

PLN Modelos del lenguaje4 Noisy Channel Model 2 W XW*Y encoder decoder Channel p(y|x) message input to channel Output from channel Attempt to reconstruct message based on output

PLN Modelos del lenguaje5 Noisy Channel Model 3 Capacidad del canal (C): Nivel al que se puede transmitir información con una probabilidad pequeña de ser incapaz de recuperar la entrada a partir de la salida Alcanzamos la capacidad del canal si logramos diseñar un input code X con distribución estadística p(X) que maximice la I (información mutua) entre entrada y salida.

PLN Modelos del lenguaje6 Noisy Channel Model 4 En PLN no podemos actuar sobre la fase de codificación (encoding). El problema es decodificar la salida para lograr la entrada más verosimil decoder Noisy Channel p(o|I) I O

PLN Modelos del lenguaje7 Noisy Channel Model 5 Modelo del lenguaje Probabilidad del canal

PLN Modelos del lenguaje8 Noisy Channel Model 6 noisy channel X  Y lenguaje real X lenguaje observado Y Deseamos recuperar X a partir de Y

PLN Modelos del lenguaje9 Noisy Channel Model 7 texto correcto errores texto con errores noisy channel X  Y lenguaje real X lenguaje observado Y

PLN Modelos del lenguaje10 Noisy Channel Model 8 texto correcto eliminación de espacios texto sin espacios noisy channel X  Y lenguaje real X lenguaje observado Y

PLN Modelos del lenguaje11 Noisy Channel Model 9 texto pronunciación habla language model acoustic model noisy channel X  Y lenguaje real X lenguaje observado Y

PLN Modelos del lenguaje12 Noisy Channel Model 10 árbol inserción de terminales texto probabilistic CFG noisy channel X  Y lenguaje real X lenguaje observado Y

PLN Modelos del lenguaje13 Noisy Channel Model 11 lengua f traducción lengua o noisy channel X  Y lenguaje real X lenguaje observado Y

PLN Modelos del lenguaje14 Noisy Channel model 12 Cadena acústica Cadena de palabras Modelo del lenguaje Modelo acústico ejemplo: ASR Automatic Speech Recognizer

PLN Modelos del lenguaje15 Noisy Channel model 13 Modelo del lenguaje objetivo Modelo de la traducción ejemplo: Traducción Automática

PLN Modelos del lenguaje16 Implementación de LM Implementación intuitiva Enumerar s  L Calcular las p(s) Parámetros del modelo |L| Simplificaciones historia h i = { w i, … w i-1 } Modelos de Markov

PLN Modelos del lenguaje17 Modelos de Markov simples 1 Modelos de Markov de orden n+ 1 P(w i |h i ) = P(w i |w i-n+1, … w i-1 ) 0-grama 1-grama P(w i |h i ) = P(w i ) 2-grama P(w i |h i ) = P(w i |w i-1 ) 3-grama P(w i |h i ) = P(w i |w i-2,w i-1 )

PLN Modelos del lenguaje18 Modelos de Markov simples 2 n grande: más información del contexto (más poder discriminativo) n pequeño: más casos en el corpus de entrenamiento (más confianza) Selección de n: ej. para |V| = nnum. parámetros 2 (bigrams)400,000,000 3 (trigrams)8,000,000,000,000 4 (4-grams)1.6 x 10 17

PLN Modelos del lenguaje19 Modelos de Markov simples 3 Parámetros de un modelo de n-grama |V| n Estimación MLE a partir de un corpus Problema sparseness

PLN Modelos del lenguaje20 Modelos de Markov simples 4 Modelo 1-gram Modelo 2-gram Modelo 3-gram

PLN Modelos del lenguaje21 Modelos de Markov simples 5

PLN Modelos del lenguaje22 Modelos de Markov simples 6

PLN Modelos del lenguaje23 Modelos de Markov simples 7 Distribución real de probabilidad

PLN Modelos del lenguaje24 Modelos de Markov simples 8 Los casos vistos están sobre estimados, los no vistos tienen probabilidad nula

PLN Modelos del lenguaje25 Smoothing 1 Métodos que actúan sobre el contaje de los n- gramas Laplace, Lidstone, Jeffreys-Perks Métodos que actúan sobre las probabilidades: Held-Out Good-Turing Descuento Métodos de combinación Interpolación lineal Back Off

PLN Modelos del lenguaje26 Smoothing 2 P = probabilidad de un n-grama C = contaje del n-grama en el corpus de entrenamiento N = total n-gramas en el corpus de entrenamiento B = parámetros del modelo (n-gramas posibles) Laplace (add 1)

PLN Modelos del lenguaje27 Smoothing 3 = número positivo pequeño M.L.E: = 0 Laplace: = 1 Jeffreys-Perks: = ½ Lidstone (generalización de Laplace)

PLN Modelos del lenguaje28 Smoothing 4 Calcular qué porcentaje de la masa de probabilidad debe conservarse para los n-gramas no presentes en el corpus de entrenamiento Se reverva parte del corpus de entrenamiento como corpus de validación (otra parte es para test) Se calculan cuántos n-gramas ausentes del corpus de entrenamiento aparecen en el de validación Posibilidad de usar Cross-Validation Held-Out

PLN Modelos del lenguaje29 Smoothing 5 Sea un n-grama w 1 … w n r = C(w 1 … w n ) C 1 (w 1 … w n ) frecuencia del n-grama en el training set C 2 (w 1 … w n ) frecuencia del n-grama en el held out set N r número de n-gramas con frecuencia r en el training set Held-Out

PLN Modelos del lenguaje30 Smoothing 6 r * = “frecuencia ajustada” N r = número de n-gram-types que aparecen r veces E(N r ) = “valor esperado” E(N r+1 ) < E(N r ) Good-Turing

PLN Modelos del lenguaje31 Smoothing 7 Primero se calcula la probabilidad de held-out. Absolute discounting: Decrementar en una pequeña constante la probabilidad de cada n- grama observado en el corpus de aprendizaje Linear discounting: Decrementar la probabilidad de cada n-grama observado en el corpus de aprendizaje multiplicándola por una cantidad. Métodos de descuento

PLN Modelos del lenguaje32 Smoothing 8 Combinación de métodos Combinación lineal de 1-grama, 2-grama, 3-grama,... Estimación de las mediante un corpus de validación

PLN Modelos del lenguaje33 Smoothing 9 Usar n-grama cuando hay suficientes casos en el corpus de entrenamiento, si no hacer back-off a n-1-grama Repetir en caso de necesidad Katz’s Backing-Off

PLN Modelos del lenguaje34 Enriquecimiento de los LM Actuación sobre la historia Modelos basados en clases agrupación de palabras en clases Rosenfeld, 2000: P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|wi-2,wi-1) P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|wi-2,Ci-1) P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|Ci-2,Ci-1) P(wi|wi-2,wi-1) = P(wi|Ci-2,Ci-1)

PLN Modelos del lenguaje35 Structured Language Models Jelinek, Chelba, 1999 Inclusión de la estructura sintáctica en la historia T i son las estructuras sintácticas árboles binarios lexicalizados