1 Calculando probabilidades (diapositivas originales de J. Eisner) N-gram models Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación.

Slides:



Advertisements
Presentaciones similares
Introducción a la Estadística
Advertisements

DISEÑO DE EXPERIMENTOS
Pilas y Colas Fundamentos Estructuras de Datos (Programación 2)
KRIGING CON TENDENCIA.
Investigación de Operaciones
¿Cómo hacer para que una máquina comprenda el LN?
Introducción a los Algoritmos
DERIVADA DE UNA FUNCION REAL
INTEGRACIÓN.
Vocabulario básico del idioma Francés.
Análisis Matemático III
Análisis de frecuencias Curso: Lingüística Computacional Heiner Mercado Percia.
KRIGING.
INFERENCIA ESTADISTICA
PARADIGMA Es un esquema de pensamiento que nos lleva a concebir las cosas de una manera determinada. el término paradigma puede indicar el concepto de esquema.
Tests de permutaciones y tests de aleatorización
DERIVADAS PARCIALES Gráficas.
ANALISIS SINTACTICO El análisis gramatical es la tarea de determinar la sintaxis, o estructura, de un programa. Por esta razón también se le conoce como.
Tomado de UNIMET Prof. Antonio Syers
Vocabulario básico del idioma Francés. Juana Barbero 1er año B.
9 Regresión Lineal Simple
Tema 2: Métodos de ajuste
Representación del Conocimiento
FUNCIONES DE DENSIDAD DE PROBABILIDAD
Probabilidad condicional
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
La Derivada. Ya vimos: los conceptos, métodos ó instrumentos necesarios para establecer el “comportamiento” de una función.  en un entorno de x o [ 
Clases 4 Pruebas de Hipótesis
Especificación de Consultas M
PRONOSTICO DE VENTAS.
Representando para Aprender
Modelos Ocultos de Markov
Sesión 6: Campos de Markov
PRUEBA SABER MATEMÁTICAS 3° Y 5°
Tema 17: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
INTERVALO DE CONFIANZA
Introducción a Funciones de una variable
Teoría de Probabilidad
DISTRIBUCIONES DE MUESTREO
Unidad V: Estimación de
1 Calculando probabilidades (diapositivas adaptadas de J. Eisner) N-gram models Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación.
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Simular: Representar una cosa, fingiendo o imitando lo que no es.
Análisis Cuantitativo de Datos (Básico)
Previsión de Ventas. Métodos no paramétricos Previsión de Ventas. Tema 2. 1 Antonio Montañés Bernal Curso
Estadística para administradores
Describiendo las reglas del Lenguaje
Función Densidad Continua (o distribución de probabilidad continua)
Teoría de Probabilidad Dr. Salvador García Lumbreras
CARRERA DE OBSERVACIÓN JORGE YULIAN FLOREZ. ¿QUÉ ES LA INTERNET? INTERCONEXIÓN DE REDES INFORMÁTICAS QUE PERMITE A LOS ORDENADORES O COMPUTADORAS CONECTADAS.
Estándares de Matemáticas
PLN Modelos del lenguaje1 Modelos Estadísticos del lenguaje Modelos del lenguaje (Language Models, LM) Noisy Channel model Modelos simples de Markov Smoothing.
Estimación y contraste de hipótesis
Presente un cuestionario con los aspectos mas importantes sobre los
Ecuaciones.
“CURSO PROPEDÉUTICO PARA EL MEJORAMIENTO DEL PENSAMIENTO MATEMÁTICO”
ESTIMACIÓN DE PARÁMETROS
INTERVALO DE CONFIANZA
* Cuando nos permite desarrollar un programa que necesitamos para tomar un conjunto de buenas prácticas para hacer eso. Esto se debe a que podemos ahorrar.
1 2  La Teoría de la Probabilidad constituye la base o fundamento de la Estadística, ya que las ingerencias que hagamos sobre la población o poblaciones.
Distribuciones de Probabilidad
Vocabulario básico del idioma Francés.
Distribución Binomial
INFERENCIA ESTADÍSTICA
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Viviana Acosta Estadística II. Que es Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida.
Night 9 Suddenly, you see in the distance another bonfire. Is there someone else on the island? Send someone to find out. 'L’île' Level: B1 an ExLT adventure.
Transcripción de la presentación:

1 Calculando probabilidades (diapositivas originales de J. Eisner) N-gram models Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica

2 Breves sobre la probabilidad ¿Que quiere decir una probabilidad? p(Jacinto primer lugar | cielo despejado) = 0.9 Comportamiento anterior? Certeza de una creencia?

3 p es una función sobre conjuntos de eventos despejado ganador Todos los eventos p(ganador | despejado)  p(ganador, despejado) / p(despejado)

4 Algunas propiedades de p p(  ) = 0 p(todos los eventos) = 1 p(X)  p(Y) para cualquier X  Y p(X) + p(Y) = p(X  Y) si X  Y= 

5 Deseamos identificar el idioma de un texto “Horses and Lukasiewicz are on the curriculum.” Está en inglés o en polaco? Es parecido (=probable) al inglés? Es parecido (=probable) al polaco? El espacio de ventos no son carreras son secuencias de caracteres (x 1, x 2, x 3, …) donde x n = EOS (end of sentence)

6 Sea p(X) = probabilidad de que el texto esté en inglés Sea q(X) = probabilidad de que el texto esté el polaco ¿Qué probabilidad es mayor? “Horses and Lukasiewicz are on the curriculum.” p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) Deseamos identificar el idioma de un texto

7 Aplicamos la regla de la cadena p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) = p(x 1 = h ) * p(x 2 = o | x 1 = h ) * p(x 3 = r | x 1 = h, x 2 = o ) * p(x 4 = s | x 1 = h, x 2 = o, x 3 = r ) * p(x 5 = e | x 1 = h, x 2 = o, x 3 = r, x 4 = s ) * p(x 6 = s | x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e ) * … = / /4470 5/395 3/5 3/3 0/3 counts from Brown corpus

8 Debilitamos la dependencia p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …)  p(x 1 = h ) * p(x 2 = o | x 1 = h ) * p(x 3 = r | x 1 = h, x 2 = o ) * p(x 4 = s | x 2 = o, x 3 = r ) * p(x 5 = e | x 3 = r, x 4 = s ) * p(x 6 = s | x 4 = s, x 5 = e ) * … = 7.3e-10 * … 4470/ /4470 5/395 12/919 12/126 3/485 counts from Brown corpus

9 Aun mayor independencia p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …)  p(x 1 = h ) * p(x 2 = o | x 1 = h ) * p(x i = r | x i-2 = h, x i-1 = o ) * p(x i = s | x i-2 = o, x i-1 = r ) * p(x i = e | x i-2 = r, x i-1 = s ) * p(x i = s | x i-2 = s, x i-1 = e ) * … = 5.4e-7 * … 4470/ / / / / /21250 counts from Brown corpus

10 Simplificamos la notación p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …)  p(x 1 = h ) * p(x 2 = o | x 1 = h ) * p( r | h, o ) * p( s | o, r ) * p( e | r, s ) * p( s | s, e ) * … 4470/ / / / / /21250 counts from Brown corpus

11 Simplificamos la notación p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …)  p(x 1 = h ) * p(x 2 = o | x 1 = h ) * p( r | h, o ) * p( s | o, r ) * p( e | r, s ) * p( s | s, e ) * … 4470/ / / / / /21250 counts from Brown corpus

12 p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …)  p( h | BOS, BOS) * p( o | BOS, h ) * p( r | h, o ) * p( s | o, r ) * p( e | r, s ) * p( s | s, e ) * … 4470/ / / / / /21250 counts from Brown corpus Estas probabilidades son usadas para definir p(horses) Simplificamos la notación

13 p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …)  t BOS, BOS, h * t BOS, h, o * t h, o, r * t o, r, s * t r, s, e * t s, e,s * … 4470/ / / / / /21250 counts from Brown corpus Simplificamos la notación Estas probabilidades son usadas para definir p(horses)

14 Nuestro modelo de probabilidad Trigram Model (en términos de parámetros como t h, o, r and t o, r, s ) param valores definición de p determinar probabilidades de un evento generamos texto aleatorio

15 Inglés vs. Polaco Trigram Model Valores para el polaco definición de q calculamos q(X) Valores para el inglés definición de p calculamos p(X)

16 ¿Qué es la “X” en p(X)? compare Un elemento de algún espacio de eventos implícito e.g., carrera e.g., frase ¿Qué pasaría si el evento es un documento completo? p(texto) = p(frase1, frase2, …) = p(frase1) * p(frase2 | frase1) * …

17 compare Supongamos que un evento es una secuencia de letras: p( horses ) Pero nosotros reescribimos p( horses ) como p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …)  p(x 1 = h ) * p(x 2 = o | x 1 = h ) * … ¿Qué significa la notación variable= value ? ¿Qué es la “X” en p(X)?

18 Variables Aleatorias compare p(x 1 = h ) * p(x 2 = o | x 1 = h ) * … Un evento es una secuencia de letras x 2 es la segunda letra en la secuencia p( númbero de soles= 2 ) o sólo p( S= 2 ) El evento es una secuencia de 3 volados H ies el número de soles p(despejado= true ) o sólo p(despejado) El evento es una carreca despejado es verdadero o falso Respuesta: variable es en realidad una función de eventos

19 Como aplicar estas ideas al tratamiento del lenguaje Contar palabras, fonemas, caracteres, signos de puntuación, frases, etc. condicionados por un contexto anterior ¿para qué?

20 Identificación del lenguaje Útil para moteores de búsqueda Útiles para text-to-speech (como pronunciar el nombre “Jan Lukasiewicz”?)

21 Otras más Categorización de Texto Segmentación por tópicos Corrección ortográfica contextual *esta es una prueba esta prueba es una Reconocimiento de voz El pato maulla Traducción automática

22 Traducción 151. In quale città si trova la Porta di Brandeburgo? ¿En cuál ciudad se encuentra la Puerta de Brandeburgo? ¿En qué ciudad la puerta de Brandeburgo se encuentra? #¿En qué pueblo se encuentra la Puerta de Brandeburgo? ¿En cuál ciudad halla la puerta de Brandeburgo?

23 Reconocimiento de voz en Diálogo C: l'agence APT A: oui bonjour c'est l'APT du... du Trentino bonjour C: oui bonjour je voudrais faire un voyage dans le Trentin A: oui C: et je voudrais savoir ce que vous proposez comme... comme organisation toute prête avec les voyages les réservations d'hôtels A: ah oui bien sûr nous avons des offres des forfaits pour l'hiver et pour l'été en quelle saison désirez-vous arriver C: nous allons arriver au mois d'août donc en été A: en été oui quelles exigences avez-vous vous avez des des préférences pour certaines localités du Trentino C: non non du tout c'est un voyage donc on sera deux adultes plus deux enfants A: d'accord

24 Creación de un modelo de lenguaje 1 – experimentos del mago de Oz délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Corpus de transcripciones 2 – aprendizaje de un modelo de lenguaje délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 Pentat euque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Modelo final Herramientas de cálculo délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Modelo inicial Herramientas de adaptación

25 Producción de un modelo de lenguaje estadístico Sensible al corpus de entrenamiento Creación del corpus Cálculo del modelo de lenguaje Adaptación del modelo Modelo de Lenguaje

26 Problemática Obtener modelos de lenguaje estadísticos minimizando el trabajo humano únicamente necesario en la definición del vocabulario permitiendo el modelado del lenguaje oral  a través de la utilización de documentos de Internet

27 Ejemplos de los corpus Grace Texto de estilo periodístico para el proyecto de evaluación de sistemas de etiquetado GRACE WebFr (o WebFr1) 1.5 Millones de documentos del Web (febrero 1999) NewsFr mensajes de los newsgroups (junio 1999) WebFr4 5 Millones de documentos (diciembre 2000) WebMex Resultado de la colaboración franco-mexicana

28 Estudio cuantitativo 40 Mb 650 Mb 10 Gb 44 Gb

29 Crecimiento de la cantidad de datos disponibles

30 Estudio cualitativo

31 bonjour monsieur durand comment allez vous. Extracción de texto Vocabulario allez bonjour comment monsieur vous Filtrado en bloques mínimos l ≥ 1 bonjourmonsieur commentallezvous l ≥ 2 bonjour monsieur comment allez vous l ≥ 3 comment allez vous l ≥ 4 Ø Filtrado en bloques mínimos

32 Tamaño de los bloques mínimos Hacer una elección óptima entre el volumen de datos y la representación en 3-gramas: – el tamaño debe ser  3 dado que nosotros trabajamos con 3-gramas – si escojemos 3 : comment allez-vous ? – si escojemos 4 : bonjour comment allez-vous ? – si escojemos 5 : bonjour monsieur comment allez-vous ? nuestra 1 er elecciónnuestra elección final

33 La probabilidad de una palabra dado su antecedente se calcula como sigue : En un texto « normal » esto conduce a una aproximación sobre las últimas palabras de los textos En este caso, todas las probabilidades P( x | je voudrais) están mal estimadas dado que la cuenta del último « je voudrais » interfiere. Generalmente uno supone que sobre un gran corpus este problema es mínimo. Problema del aprendizaje … … … … … c’est un grand lit que je voudrais

34 Si se considera el siguiente corpus de aprendizaje:  P( réserver | je voudrais ) = 0.5 El problema precedente aparece al final de cada bloque, y nosotros tenemos un gran número de bloques. Las probabilidades por lo tanto son equivocadas. Para resolverlo, nosotros utilizamos la siguiente fórmula con contadores diferentes:  P( réserver | je voudrais ) = 1 Problema con los bloques mínimos bonjour ici monsieur durand je voudrais réserver c'est une chambre que je voudrais

35 2 – Agregado de palabras frecuentes 1 – Frecuencia de formas lexicales Problema de las palabras desconocidas WebFr délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 ABU délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 BDLex délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Vocabulario de la tarea délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Frecuencia de palabras délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Nuevo vocabulario +

36 5 – cálculo del modelo de lenguaje Cálculo del modelo de lenguaje WebFr délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Vocabulario Final Filtro de Bloques mínimos Il mordait en ce moment de fort bon appétit dans un morceau de pain. Il en arracha un peu de mie pour faire une boulette. Il la lança railleusement par le vasistas d'une fenêtre sur laquelle il s'appuyait. Bien dirigée, la boulette rebondit presque à la hauteur de la croisée. Cet inconnu traversait la cour d'une maison située rue Vivienne, où. Cette exclamation échappait à un clerc appartenant au genre de ceu. Il mordait en ce moment de fort bon appétit dans un morceau de pain. Il en arracha un peu de mie pour faire une boulette. Il la lança railleusement par le vasistas d'une fenêtre sur laquelle il s'appuyait. Il en arracha un peu de mie pour faire une boulette. Il la lança railleusement par le vasistas d'une fenêtre sur laquelle il s'appuyait. Bien dirigée, la boulette rebondit presque à la hauteur de la croisée, Cet inconnu traversait la cour d'une maison. Corpus de Bloques mínimos Herramientas adaptadas délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Modelo de lenguaje final

37 Desempeño de reconocedor 145 ~78% ~88% con bloques  5 - ah bon alors c' est d' accord vous me la réservez au nom de monsieur martin - pour quatre jours à partir de demain quel est le tarif - ah à trois cent soixante eh bien je je préfère encore l'autre la première

38 Problemas al calcular los n-gramas ¿Qué pasa con los n-gramas que no hemos visto? ¿su probabilidad es cero? ¿qué pasa si les damos probabilidad cero? ¿Cómo lo resolvemos? “smoothing” / “discounting”

39 Ejemplifiquemos el problema El caso de los bigramas: Generalizamos a n-gramas:

40 Nuestro corpus

41 Probabilidades por bigrama

42 Primera solución: incrementar en 1 todos los contadores

43 Entonces tenemos Recordando nuestra fórmula: Agregamos 1 y normalizamos por el tamaño del vocabulario

44 Nuestros nuevos datos

45 Nuevas probabilidades

46 Nuevas probabilidades

47 ¿Qué tanto cambio?

48 Otra solución: Witten-Bell Usar la cuenta de cosas “vistas” para estimar la cuenta de las cosas “no-vistas” ¿Cuál es la probabilidad de ver un n-grama por la primera vez? Contemos el número de veces que vemos N-gramas por primera vez en nuestro corpus T – total de N-gramas N – número de tokens

49 Los valores son más razonables