Tagging POS Tagging Taggers basados en reglas Taggers estadísticos

Slides:



Advertisements
Presentaciones similares
La enseñanza de la Gramática
Advertisements

Know T2. Procesadores lingüísticos UPV/EHU
Compiladores e intérpretes
Gramáticas Libres de Contexto
Algoritmos de Minería Los métodos básicos.
Inferencia estadística
¿Cómo hacer para que una máquina comprenda el LN?
Analizadores Sintácticos Descendentes Predictivos
GENERADOR SEMIAUTOMÁTICO DE DIAGRAMAS DE SECUENCIA A PARTIR DE ESCENARIOS REPRESENTADOS COMO GRAFOS DE SOWA Por: CLAUDIA MARÍA GÓMEZ FLÓREZ Director:
Dpto. Señales, Sistemas y Radiocomunicaciones
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERIA DIVISIÓN DE INGENIERÍA ELÉCTRICA COMPUTACIÓN PARA INGENIEROS NOTA IMPORTANTE: Para complementar.
Traducción dirigida por la Sintaxis
Teoría de lenguajes y compiladores
Sistemas Evolutivos Introduccion.
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
DIRECCIÓN DE EVALUACIÓN DE LA CALIDAD EDUCATIVA Lengua Informe de resultados 2013.
Análisis Discriminante
Sesión 2: Métodos Probabilísticos Básicos
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Problemas, algoritmos y programas: Modelar: Simular o programar su solución en un computador. Algoritmos: Es un conjunto finito, y no ambiguo de etapas.
Image Processing Using FL and ANN Chapter 10 Dr. Mario Chacón DSP & Vision Lab.
Resumen de Compilación Preparado por Manuel E. Bermúdez, Ph.D. Associate Professor University of Florida Traducido por Christian Torres Universidad Ricardo.
Modelos Ocultos de Markov
áRBOL DE DECISIONES CASTILLO ORTIZ LESLY ULLANIC
XCI Reunión Extraordinaria: Del 12 al 15 de Octubre del 2011 Chihuahua, Chihuahua. Luis Felipe Abreu H. Gustavo Contreras M Christian Rodriguez.
Procesamiento Práctico del lenguaje Natural Capítulo XXIII.
DANIEL CASSANY. DESCRIBIR EL ESCRIBIR.1991
Técnicas Supervisadas Aproximación no paramétrica
Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de.
Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.
Interacción temprana.
J. Troyano, Víctor Díaz, F. Enríquez y J. Barroso Departamento de Lenguajes y Sistemas Informáticos E.T.S. Ingeniería Informática Universidad de Sevilla.
Unidad V: Estimación de
4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.
Algoritms that learn to Extract Information BBN: Description of the SIFT System as used for MUC-7 (Scot Miller et al.)
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Aprendizaje en Árboles de Decisión
Estadística para administradores
PLN chunking1 Análisis superficial y fragmental Introducción Chunking.
1 Procesamiento del Lenguaje Natural Curso Arantza Díaz de Ilarraza German Rigau IXA group Ingeniería.
RECOMENDACIONES PARA EL ANÁLISIS DE LOS RESULTADOS
Aprendizaje no Supervisado: Clustering
INVESTIGACIÓN OPERATIVA INTRODUCCIÓN INVESTIGACIÓN DE OPERACIONES
Capítulo 1. Conceptos básicos de la Estadística
Regresión lineal simple
¿CÓMO SE ORGANIZA LA LENGUA?
Prof. Fraibet Aveledo Universidad Simón Bolívar
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
UNIVERSIDAD LATINA (UNILA)
1 Sebastián Argüello A60490 semana 3 Autómatas y compiladores CI-1322.
PLN Modelos del lenguaje1 Modelos Estadísticos del lenguaje Modelos del lenguaje (Language Models, LM) Noisy Channel model Modelos simples de Markov Smoothing.
Modelos ocultos de Markov (HMM)
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Sesión 6: Redes Bayesianas - Inferencia
Unidad 1. PROGRAMACION ALGORITMICA
PLANES DE MUESTREO Y GRAFICAS DE CONTROL
Introducción a los TADs
Lingüística computacional unidad 2. análisis semántico
Aplicación JAVA implementando Arboles de Decisión
Inteligencia Artificial El procesamiento del Lenguaje Natural
Teoría Psicolingüística: un modelo sintáctico
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
PLN parsing charts1 Métodos basados en Charts Extensiones a partir de Charts Métodos Tabulares CKY Earley.

Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
LA CONCIENCIA LINGÜÍSTICA Y EL INGRESO EN EL MUNDO DE LA ESCRITURA
Elementos de Investigación de Operaciones Estructuración de la Materia Bibliografía, Evaluación, Proyecto S esión T eórico/ P ráctica N o. 1 Nelson José.
1 MÁS QUE PALABRAS. 2 Más que palabras ¿Qué han de aprender a manipular mentalmente los niños para ser competentes gramaticalmente hablando?
Universitario Francisco de Asís Asignatura: Introducción a la Metodología de la Investigación Docente: Lic. Angélica Cabanas Lic. en Psicología – 2º año.
PLN hmm1 Modelos ocultos de Markov (HMM) Introducción Cálculo de la probabilidad de una observación Algoritmo Forward Algoritmo Backward Algoritmo de Viterbi.
Transcripción de la presentación:

Tagging POS Tagging Taggers basados en reglas Taggers estadísticos Otras aproximaciones Introduction: marc general i la motivació d’aquest treball

POS Tagging: … problema Las palabras, tomadas en forma aislada, son ambiguas respecto a su categoría Yo bajo con el hombre bajo a tocar el bajo bajo la escalera . PP VM AQ NC SP TD FP

pero ... La categoría de la mayoría de las palabras no es ambigua dentro de un contexto Yo bajo con el hombre bajo a tocar el bajo bajo la escalera . PP VM AQ NC SP TD FP

solución Basados en reglas Estadísticos Híbridos desambiguador morfosintáctico (Pos tagger) El objetivo de un desambiguador (tagger) es el de asignar a cada palabra la categoría más "apropiada", dentro de un contexto Basados en reglas Estadísticos Híbridos

Taggers W = w1 w2 … wn cadena de palabras T = t1 t2 …tn cadena de etiquetas Para cada palabra wi sólo algunas de las etiquetas son válidas (excepto las palabras desconocidas). Podemos obtenerlas a partir de undiccionario o de un analizador morfológico. f : W  T = f(W)

Taggers Basados en reglas 1 Utilización de conocimiento lingüístico (knowledge-driven taggers) Construcción (normalmente) manual de las reglas Número limitado ( 1000) de reglas Modelos del lenguaje y generalizaciones establecidos de forma explícita

Taggers Basados en reglas 2 Reglas motivadas lingüísticamente Alta precisión ej. EngCG 99.5% Alto coste de desarrollo No transportable mayor coste de etiquetado • TAGGIT, Green,Rubin,1971 • TOSCA, Oosdijk,1991 • Constraint Grammars, EngCG, Voutilainen,1994, Karlsson et al, 1995 • AMBILIC, de Yzaguirre et al,2000

ejemplo: Constraint Grammars Una CG consiste en una secuencia de subgramáticas cada una de las cuales consiste en una serie de restricciones (constraints) que establecen condiciones de contexto ej. (@w =0 VFIN (-1 TO)) descarta la categoría VFIN si la palabra anterior es “to” ENGCG ENGTWOL desambiguación morfosintáctica reduccionisa 1100 constraints 93-97% de las palabras quedan totalmente desambiguadas 99.7% corrección reglas heurísticas aplicables sobre el residuo 2-3% ambigüedad residual con 99.6% de precisión CG sintáctica

Taggers Estadísticos 1 Modelos del lenguaje y generalizaciones adquiridos automáticamente (a partir de corpus) Data-driven taggers Uso de inferencia estadística Técnicas procedentes del tratamiento del habla

Taggers Estadísticos 2 Marco teórico bien fundamentado Aproximación clara. Modelos simples. Precisión aceptable > 97% Independencia de la lengua Aprendizaje del modelo Sparseness Menor precisión • CLAWS, Garside et al, 1987 • De Rose, 1988 • Church, 1988 • Cutting et al,1992 • Merialdo, 1994

Taggers Estadísticos 3 Modelos del lenguaje de tipo N-gram suavizado (smoothing) interpolación Modelos ocultos de Markov (HMM) Aprendizaje supervisado ML (maximum likelihood) Aprendizaje semi-supervisado Forward-Backward, Baum-Welch (EM Expectation Maximization) Charniak, 1993 Jelinek, 1998 Manning, Schütze, 1999

Aplicación al tagging Las palabras se clasifican en función de sus etiquetas morfosintácticas modelo 1-grama MLE si se dispone de corpus etiquetado (desambiguado) EM si no es así Problema de la sparseness

ejemplo: Tagger basado en 3-gram Probabilidad léxica Probabilidad contextual (trigrams)

Taggers basados en modelos más complejos 1 Transformaciones guiadas por los errores (Transformation-based, error-driven) sistema híbrido: basado en reglas adquiridas semi-automáticamente Máxima Entropía Combinación de varias fuentes de conocimiento No se asume independencia Admite gran número de parámetros (ej. rasgos léxicos) Brill, 1995 Roche,Schabes, 1995 Ratnaparkhi, 1998, Rosenfeld, 1994 Ristad, 1997

ejemplo: Tagger de Brill Basado en reglas de transformación que solucionan los errores producidos por un tagger inicial de tipo HMM regla cambiar la etiqueta A por la etiqueta B cuando ... cada regla corresponde a la instanciación de una templeta templetas la palabra anterior (siguiente) está etiquetada con Z alguna de las dos palabras anteriores (siguientes) está etiquetada con Z la palabra anterior está etiquetada con Z y la siguiente con W ... Aprendizaje de las variables A,B,Z,W a base de un proceso iterativo que escoge en cada iteración la regla (la instanciación) que más errores corrige

Taggers basados en modelos más complejos 2 Black,Magerman, 1992 Magerman 1996 Màrquez, 1999 Màrquez, Rodríguez, 1997 Árboles de decisión Aprendizaje supervisado ej. TreeTagger Aprendizaje basado en casos (Case-based, Memory-based Learning) IGTree Aprendizaje por relajación Restricciones (constraints) de tipo estadístico o lingüístico ej. RELAX TiMBL Daelemans et al, 1996 Padrò, 1997

ejemplo: TreeTagger (Màrquez) raiz P(IN)=0.81 P(RB)=0.19 Word Form hoja P(IN)=0.83 P(RB)=0.17 tag(+1) P(IN)=0.13 P(RB)=0.87 tag(+2) P(IN)=0.013 P(RB)=0.987 “As”,“as” RB IN otros ... ambigüedad IN/RB IN (preposición) RB (adverbio) interpretación estadística: P( RB | word=“A/as” & tag(+1)=RB & tag(+2)=IN) = 0.987 P( IN | word=“A/as” & tag(+1)=RB & tag(+2)=IN) = 0.013 ^

Tagging por combinación Màrquez, Rodríguez, 1998 Màrquez, 1999 Padrò, 1997 Combinación de modelos del lenguaje en un tagger STT+ RELAX Combinación de taggers mediante votación aprendizaje mediante bootstrapping Combinación de clasificadores bagging (Breiman, 1996) boosting (Freund, Schapire, 1996) Màrquez et al, 1998 Brill, Wu, 1998 Màrquez et al, 1999 Abney et al, 1999

ejemplo: STT+ (Màrquez) Language Model Lexical probs. N-grams + + Contextual probs. Viterbi algorithm Raw text Tagged text Morphological analysis Disambiguation

ejemplo:RELAX (Padró) Language Model N-grams Linguistic rules + + Set of constraints Relaxation Labelling (Padró, 1996) Raw text Tagged text Morphological analysis Disambiguation

Medidas de la calidad del etiquetado nivel de la oración: porcentaje de oraciones etiquetadas correctamente f(W) = argmax p(T/W) T Algoritmo de Viterbi (esquema de P. dinámica) Más sencillo de implementar Más sencillo de interpretar lingüísticamente nivel de la palabra: porcentaje de palabras etiquetadas correctamente f(W)i = argmax p(ti/W) T Algoritmo ML (verosimilitud máxima) Puede producir secuencias no gramaticales