Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porInocencio Fleites Modificado hace 9 años
1
1 Calculando probabilidades (diapositivas originales de J. Eisner) N-gram models Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica
2
2 Breves sobre la probabilidad ¿Que quiere decir una probabilidad? p(Jacinto primer lugar | cielo despejado) = 0.9 Comportamiento anterior? Certeza de una creencia?
3
3 p es una función sobre conjuntos de eventos despejado ganador Todos los eventos p(ganador | despejado) p(ganador, despejado) / p(despejado)
4
4 Algunas propiedades de p p( ) = 0 p(todos los eventos) = 1 p(X) p(Y) para cualquier X Y p(X) + p(Y) = p(X Y) si X Y=
5
5 Deseamos identificar el idioma de un texto “Horses and Lukasiewicz are on the curriculum.” Está en inglés o en polaco? Es parecido (=probable) al inglés? Es parecido (=probable) al polaco? El espacio de ventos no son carreras son secuencias de caracteres (x 1, x 2, x 3, …) donde x n = EOS (end of sentence)
6
6 Sea p(X) = probabilidad de que el texto esté en inglés Sea q(X) = probabilidad de que el texto esté el polaco ¿Qué probabilidad es mayor? “Horses and Lukasiewicz are on the curriculum.” p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) Deseamos identificar el idioma de un texto
7
7 Aplicamos la regla de la cadena p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) = p(x 1 = h ) * p(x 2 = o | x 1 = h ) * p(x 3 = r | x 1 = h, x 2 = o ) * p(x 4 = s | x 1 = h, x 2 = o, x 3 = r ) * p(x 5 = e | x 1 = h, x 2 = o, x 3 = r, x 4 = s ) * p(x 6 = s | x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e ) * … = 0 4470/52108 395/4470 5/395 3/5 3/3 0/3 counts from Brown corpus
8
8 Debilitamos la dependencia p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) p(x 1 = h ) * p(x 2 = o | x 1 = h ) * p(x 3 = r | x 1 = h, x 2 = o ) * p(x 4 = s | x 2 = o, x 3 = r ) * p(x 5 = e | x 3 = r, x 4 = s ) * p(x 6 = s | x 4 = s, x 5 = e ) * … = 7.3e-10 * … 4470/52108 395/4470 5/395 12/919 12/126 3/485 counts from Brown corpus
9
9 Aun mayor independencia p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) p(x 1 = h ) * p(x 2 = o | x 1 = h ) * p(x i = r | x i-2 = h, x i-1 = o ) * p(x i = s | x i-2 = o, x i-1 = r ) * p(x i = e | x i-2 = r, x i-1 = s ) * p(x i = s | x i-2 = s, x i-1 = e ) * … = 5.4e-7 * … 4470/52108 395/4470 1417/14765 1573/26412 1610/12253 2044/21250 counts from Brown corpus
10
10 Simplificamos la notación p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) p(x 1 = h ) * p(x 2 = o | x 1 = h ) * p( r | h, o ) * p( s | o, r ) * p( e | r, s ) * p( s | s, e ) * … 4470/52108 395/4470 1417/14765 1573/26412 1610/12253 2044/21250 counts from Brown corpus
11
11 Simplificamos la notación p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) p(x 1 = h ) * p(x 2 = o | x 1 = h ) * p( r | h, o ) * p( s | o, r ) * p( e | r, s ) * p( s | s, e ) * … 4470/52108 395/4470 1417/14765 1573/26412 1610/12253 2044/21250 counts from Brown corpus
12
12 p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) p( h | BOS, BOS) * p( o | BOS, h ) * p( r | h, o ) * p( s | o, r ) * p( e | r, s ) * p( s | s, e ) * … 4470/52108 395/4470 1417/14765 1573/26412 1610/12253 2044/21250 counts from Brown corpus Estas probabilidades son usadas para definir p(horses) Simplificamos la notación
13
13 p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) t BOS, BOS, h * t BOS, h, o * t h, o, r * t o, r, s * t r, s, e * t s, e,s * … 4470/52108 395/4470 1417/14765 1573/26412 1610/12253 2044/21250 counts from Brown corpus Simplificamos la notación Estas probabilidades son usadas para definir p(horses)
14
14 Nuestro modelo de probabilidad Trigram Model (en términos de parámetros como t h, o, r and t o, r, s ) param valores definición de p determinar probabilidades de un evento generamos texto aleatorio
15
15 Inglés vs. Polaco Trigram Model Valores para el polaco definición de q calculamos q(X) Valores para el inglés definición de p calculamos p(X)
16
16 ¿Qué es la “X” en p(X)? compare Un elemento de algún espacio de eventos implícito e.g., carrera e.g., frase ¿Qué pasaría si el evento es un documento completo? p(texto) = p(frase1, frase2, …) = p(frase1) * p(frase2 | frase1) * …
17
17 compare Supongamos que un evento es una secuencia de letras: p( horses ) Pero nosotros reescribimos p( horses ) como p(x 1 = h, x 2 = o, x 3 = r, x 4 = s, x 5 = e, x 6 = s, …) p(x 1 = h ) * p(x 2 = o | x 1 = h ) * … ¿Qué significa la notación variable= value ? ¿Qué es la “X” en p(X)?
18
18 Variables Aleatorias compare p(x 1 = h ) * p(x 2 = o | x 1 = h ) * … Un evento es una secuencia de letras x 2 es la segunda letra en la secuencia p( númbero de soles= 2 ) o sólo p( S= 2 ) El evento es una secuencia de 3 volados H ies el número de soles p(despejado= true ) o sólo p(despejado) El evento es una carreca despejado es verdadero o falso Respuesta: variable es en realidad una función de eventos
19
19 Como aplicar estas ideas al tratamiento del lenguaje Contar palabras, fonemas, caracteres, signos de puntuación, frases, etc. condicionados por un contexto anterior ¿para qué?
20
20 Identificación del lenguaje Útil para moteores de búsqueda Útiles para text-to-speech (como pronunciar el nombre “Jan Lukasiewicz”?)
21
21 Otras más Categorización de Texto Segmentación por tópicos Corrección ortográfica contextual *esta es una prueba esta prueba es una Reconocimiento de voz El pato maulla Traducción automática
22
22 Traducción 151. In quale città si trova la Porta di Brandeburgo? ¿En cuál ciudad se encuentra la Puerta de Brandeburgo? ¿En qué ciudad la puerta de Brandeburgo se encuentra? #¿En qué pueblo se encuentra la Puerta de Brandeburgo? ¿En cuál ciudad halla la puerta de Brandeburgo?
23
23 Reconocimiento de voz en Diálogo C: l'agence APT A: oui bonjour c'est l'APT du... du Trentino bonjour C: oui bonjour je voudrais faire un voyage dans le Trentin A: oui C: et je voudrais savoir ce que vous proposez comme... comme organisation toute prête avec les voyages les réservations d'hôtels A: ah oui bien sûr nous avons des offres des forfaits pour l'hiver et pour l'été en quelle saison désirez-vous arriver C: nous allons arriver au mois d'août donc en été A: en été oui quelles exigences avez-vous vous avez des des préférences pour certaines localités du Trentino C: non non du tout c'est un voyage donc on sera deux adultes plus deux enfants A: d'accord
24
24 Creación de un modelo de lenguaje 1 – experimentos del mago de Oz délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Corpus de transcripciones 2 – aprendizaje de un modelo de lenguaje délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 Pentat euque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Modelo final Herramientas de cálculo délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Modelo inicial Herramientas de adaptación
25
25 Producción de un modelo de lenguaje estadístico Sensible al corpus de entrenamiento Creación del corpus Cálculo del modelo de lenguaje Adaptación del modelo Modelo de Lenguaje
26
26 Problemática Obtener modelos de lenguaje estadísticos minimizando el trabajo humano únicamente necesario en la definición del vocabulario permitiendo el modelado del lenguaje oral a través de la utilización de documentos de Internet
27
27 Ejemplos de los corpus Grace Texto de estilo periodístico para el proyecto de evaluación de sistemas de etiquetado GRACE WebFr (o WebFr1) 1.5 Millones de documentos del Web (febrero 1999) NewsFr 440000 mensajes de los newsgroups (junio 1999) WebFr4 5 Millones de documentos (diciembre 2000) WebMex Resultado de la colaboración franco-mexicana
28
28 Estudio cuantitativo 40 Mb 650 Mb 10 Gb 44 Gb
29
29 Crecimiento de la cantidad de datos disponibles
30
30 Estudio cualitativo
31
31 bonjour monsieur durand comment allez vous. Extracción de texto Vocabulario allez bonjour comment monsieur vous Filtrado en bloques mínimos l ≥ 1 bonjourmonsieur commentallezvous l ≥ 2 bonjour monsieur comment allez vous l ≥ 3 comment allez vous l ≥ 4 Ø Filtrado en bloques mínimos
32
32 Tamaño de los bloques mínimos Hacer una elección óptima entre el volumen de datos y la representación en 3-gramas: – el tamaño debe ser 3 dado que nosotros trabajamos con 3-gramas – si escojemos 3 : comment allez-vous ? – si escojemos 4 : bonjour comment allez-vous ? – si escojemos 5 : bonjour monsieur comment allez-vous ? nuestra 1 er elecciónnuestra elección final
33
33 La probabilidad de una palabra dado su antecedente se calcula como sigue : En un texto « normal » esto conduce a una aproximación sobre las últimas palabras de los textos En este caso, todas las probabilidades P( x | je voudrais) están mal estimadas dado que la cuenta del último « je voudrais » interfiere. Generalmente uno supone que sobre un gran corpus este problema es mínimo. Problema del aprendizaje … … … … … c’est un grand lit que je voudrais
34
34 Si se considera el siguiente corpus de aprendizaje: P( réserver | je voudrais ) = 0.5 El problema precedente aparece al final de cada bloque, y nosotros tenemos un gran número de bloques. Las probabilidades por lo tanto son equivocadas. Para resolverlo, nosotros utilizamos la siguiente fórmula con contadores diferentes: P( réserver | je voudrais ) = 1 Problema con los bloques mínimos bonjour ici monsieur durand je voudrais réserver c'est une chambre que je voudrais
35
35 2 – Agregado de palabras frecuentes 1 – Frecuencia de formas lexicales Problema de las palabras desconocidas WebFr délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 ABU délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 BDLex délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Vocabulario de la tarea délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Frecuencia de palabras délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Nuevo vocabulario +
36
36 5 – cálculo del modelo de lenguaje Cálculo del modelo de lenguaje WebFr délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Vocabulario Final Filtro de Bloques mínimos Il mordait en ce moment de fort bon appétit dans un morceau de pain. Il en arracha un peu de mie pour faire une boulette. Il la lança railleusement par le vasistas d'une fenêtre sur laquelle il s'appuyait. Bien dirigée, la boulette rebondit presque à la hauteur de la croisée. Cet inconnu traversait la cour d'une maison située rue Vivienne, où. Cette exclamation échappait à un clerc appartenant au genre de ceu. Il mordait en ce moment de fort bon appétit dans un morceau de pain. Il en arracha un peu de mie pour faire une boulette. Il la lança railleusement par le vasistas d'une fenêtre sur laquelle il s'appuyait. Il en arracha un peu de mie pour faire une boulette. Il la lança railleusement par le vasistas d'une fenêtre sur laquelle il s'appuyait. Bien dirigée, la boulette rebondit presque à la hauteur de la croisée, Cet inconnu traversait la cour d'une maison. Corpus de Bloques mínimos Herramientas adaptadas délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Modelo de lenguaje final
37
37 Desempeño de reconocedor 145 ~78% ~88% con bloques 5 - ah bon alors c' est d' accord vous me la réservez au nom de monsieur martin - pour quatre jours à partir de demain quel est le tarif - ah à trois cent soixante eh bien je je préfère encore l'autre la première
38
38 Problemas al calcular los n-gramas ¿Qué pasa con los n-gramas que no hemos visto? ¿su probabilidad es cero? ¿qué pasa si les damos probabilidad cero? ¿Cómo lo resolvemos? “smoothing” / “discounting”
39
39 Ejemplifiquemos el problema El caso de los bigramas: Generalizamos a n-gramas:
40
40 Nuestro corpus
41
41 Probabilidades por bigrama
42
42 Primera solución: incrementar en 1 todos los contadores
43
43 Entonces tenemos Recordando nuestra fórmula: Agregamos 1 y normalizamos por el tamaño del vocabulario
44
44 Nuestros nuevos datos
45
45 Nuevas probabilidades
46
46 Nuevas probabilidades
47
47 ¿Qué tanto cambio?
48
48 Otra solución: Witten-Bell Usar la cuenta de cosas “vistas” para estimar la cuenta de las cosas “no-vistas” ¿Cuál es la probabilidad de ver un n-grama por la primera vez? Contemos el número de veces que vemos N-gramas por primera vez en nuestro corpus T – total de N-gramas N – número de tokens
49
49 Los valores son más razonables
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.