Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Slides:



Advertisements
Presentaciones similares
Know T2. Procesadores lingüísticos UPV/EHU
Advertisements

Compiladores e intérpretes
Gramáticas Libres de Contexto
DATA MINING MINERIA DE DATOS Gersom Costas.
INTRODUCCION Análisis de decisiones: Es una herramienta cuyo objetivo es ayudar en el estudio de la toma de decisiones en escenarios bajo incertidumbre.
EDSI Universidad del Cauca 2011
Unidad 1 DISEÑO DE ALGORITMOS ING. Nelwi Baez. MSC
XML XQuery.
Multiplique su productividad con el uso de Tablas en AutoCAD®
Inteligencia Artificial Búsqueda informada y exploración
Razonamiento Explícito y Experimentación en la Algoritmia
Una Introducción Básica a Sistemas de Tipos Estáticos
Definición Machine learning traducido al español significa el aprendizaje automático o también aprendizaje de las maquinas. A partir de esto podemos darle.
Método de Ford-Fulkerson
Ingeniería del Software
Inteligencia Artificial Adquisición automática del conocimiento
Programas Son una serie o secuencia de instrucciones entendibles por los ordenadores que permiten la realización de las acciones o tareas para las que.
LA ENSEÑANZA DE CONCEPTOS Y PROCEDIMIENTOS
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Tema 3. Optimización de Código
Háganlo ahora Escriban las palabras en español: To reserve To organize
Análisis y Diseño orientado a objetos con UML.
ANALISIS SINTACTICO El análisis gramatical es la tarea de determinar la sintaxis, o estructura, de un programa. Por esta razón también se le conoce como.
RECONOCIMIETO DE PATRONES
Bases de Datos Relacionales
Sesión 2: Métodos Probabilísticos Básicos
M.C. Meliza Contreras González
Sesión 13: Lógica y Probabilidad. Incertidumbre - LD y LP, L.E. Sucar2 Contenido Lógica probabilista Redes bayesianas con nodos lógico Modelos relacionales.
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
VOCABULARIO #2.4 ¡Aprenda! Forming Questions Señora Sequin.
Análisis de Algoritmos
Sesión 5 Herramientas de creación de DSL gráficos (GMF)
Gestión de Objetos con Vistas de Diccionario de Datos
Qué haces en la escuela Interview, Conjugation Practice.
Marcos para la clasificación pedagógica de objetos para el aprendizaje: un caso de estudio Miguel A. Sicilia, Elena García y Salvador Sánchez Universidad.
UNITA - IBARRA TRIGGERS
Primer Parcial -> Tema 1 Minería de Datos Universidad del Cauca.
Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de.
Ángel M. Ramos Domínguez Curso de Doctorado Análisis Conjunto
Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.
PROGRAMACIÓN PROCEDIMENTAL
Combinación de Clasificadores
Figure: Algoritmos Conceptos básicos. Programación: 1.Establecer una secuencia de acciones que: puedan ser ejecutadas por el procesador realicen una.
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Algoritms that learn to Extract Information BBN: Description of the SIFT System as used for MUC-7 (Scot Miller et al.)
Aprendizaje en Árboles de Decisión
PLN chunking1 Análisis superficial y fragmental Introducción Chunking.
GPLSI Armando Suárez Definición de la tarea EI Fundamentos Aplicación Enfoque del Trabajo Conclusiones Documentación Extracción de Información.
Análisis y diseño detallado de aplicaciones informáticas de gestión
Agenda Clase 6 Iteradores. Enumeración sin iteradores. Loops lógicos. Recursión vs. Iteración. Recursión de Cola. Orden de Evaluación Normal y Aplicativo.
Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007.
INFORMATICA VII (Programación e implementación de sistemas)
Estudio de Viabilidad del Sistema (EVS)
University of Delaware Introduction to Writing PBL Problems Introducción a la elaboración de problemas. Institute for Transforming Undergraduate Education.
Tagging POS Tagging Taggers basados en reglas Taggers estadísticos
¿Qué haces en la escuela? Question words, objects, yo-go’s.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Lingüística computacional unidad 2. análisis semántico
Associative, Commutative, and Distributive Properties of Addition and Multiplication August 18th Students only need to copy the writing in purple. Students.
Proceso de desarrollo de Software
PARADIGMA Es un marco de referencia que impone reglas sobre cómo se deben hacer las cosas. CONCEPTO DE PARADIGMA DE PROGRAMACION colección de modelos conceptuales.
SPANISH I DAY 19. HAGA AHORA HAGA AHORA el 3 de octubre Write the following sentences then make the corrections: Yo tienes una apartamento en los suburbos.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.

Conalep 150 Tehuacán inmi 309 soma
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Extracción de información con patrones de contenido Samuel Pérez Osés.
DML Transact SQL Sesión X Triggers. Duración 2 Horas.
WHISK Extracción automática de información por Francisco Javier Márquez López.
100 Book Challenge Desafío de leer 100 libros. Cada niño tendrán: Una bolsa de libros Una carpeta 2 libros para leer cada noche Un informe de lectura.
Transcripción de la presentación:

Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning of rules Learning of statistical models Multistrategy learning Wrapper induction Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning of rules Learning of statistical models Multistrategy learning Wrapper induction

Jordi Turmo, 2010 Adaptive Information Extraction Introducción Un sistema de EI requiere conocimiento específico sobre el dominio de aplicación... Adaptación: es una cualidad fundamental dada la gran dependencia del dominio de la tarea de EI. La elaboración manualmente de un sistema específico es impracticable. Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Introducción Normalmente, se deben afinar o crear de nuevo los recursos: –Lexicones –Ontologías –Base de patrones –Estructura de salida (templetas) Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Forma de llevar a cabo el afinado –manualmente –automáticamente –semiautomáticamente El Aprendizaje Automático se impone como alternativa para conseguir la adaptabilidad de los sistemas de EI. Introducción Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Afinado (tuning) de lexicones y ontologías: –elementos a modificar palabras acepciones preferencias verbales (posibles alternancias de diátesis, régimen proposicional, restricciones selectivas,...) –dos aproximaciones (Wilks[97]) Lexicón antiguo + corpus del (nuevo) dominio => lexicón nuevo corpus del (nuevo) dominio => lexicón nuevo Proceso: –manual (el más corriente) con editores especializados –automático: Riloff and Jones[99] Introducción Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Creación o afinado de la base de patrones: –Uso de herramientas interactivas para la adquisición manual NYU Interactive tool (PET inteface) –R.Yangarber, R.Grishman[97] Usuario y sistema interaccionan para extender y/o generalizar sintácticamente (metarreglas) y semánticamente (jerarquía conceptual) el o los patrones implicados –El usuario proporciona un ejemplo (o lo extrae del corpus) –El usuario codifica la información a extraer a partir del ejemplo –El sistema utiliza la base actual de patrones para crear una descomposición estructural del ejemplo –Uso de técnicas de ML Introducción Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Introducción Variedad de innovaciones en el área de la EI que incluyen: –HMMs y otras técnicas estadísticas para obtener modelos de textos –active learning y bootstrapping para trabajar con un conjunto de entrenamiento reducido –boosting para mejorar el rendimiento del aprendizaje Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Introducción Variedad de innovaciones en el área de la EI que incluyen: –Tendencia a crear algoritmos que puedan tratar distintos tipos de documentos. –Estudio de cómo las técnicas de data mining pueden mejorar la EI y viceversa. Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Introducción Uso de técnicas de ML en la EI para... –tareas de bajo nivel: POS tagging segmentación chunking dependencias sintácticas entre unidades NERC etiquetaje de roles semánticos correferencias –aprendizaje automático de patrones de EI Basadas en la explotación de corpus (Cardie[97], Mooney and Cardie[99], Turmo et al.[06]) Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Clasificaciones de métodos de aprendizaje de patrones de EI: –tipo de conocimiento aprendido (reglas, árboles de decisión, HMM, hiperplanos separadores,...) –tipo de documentos de entrenamiento (texto no restringido, texto estructurado o texto semi-estructurado) –grado de supervisión (instance-based learning, observation-based learning, active-learning, bootstrapping,...) –paradigma de aprendizaje (propositional learning, relational learning, statistical learning,...) –... Introducción Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Clasificaciones de métodos de aprendizaje de patrones de EI: –tipo de conocimiento aprendido (reglas, árboles de decisión, HMM, hiperplanos separadores,...) –tipo de documentos de entrenamiento (texto no restringido, texto estructurado o texto semi-estructurado) –grado de supervisión (instance-based learning, observation-based learning, active-learning, bootstrapping,...) –paradigma de aprendizaje (propositional learning, relational learning, statistical learning,...) –... Introducción Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Introducción Anotación de ejemplos para aprendizaje supervisado: generalmente preproceso de corpus, (POS, semántica léxica y/o roles sintácticos) identificar palabras activadoras, y asociar un slot de la estructura de salida a cada elemento a extraer del ejemplo Witnesses confirm that the twister occurred without warning at approximtely 7:15 p.m and destroyed two mobile homes Attack-event cause time damage subject direct-object mod Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Introducción Anotación de ejemplos para aprendizaje supervisado: generalmente preproceso de corpus, (POS, semántica léxica y/o roles sintácticos) identificar palabras activadoras, y asociar un slot de la estructura de salida a cada elemento a extraer del ejemplo A new offer since the last one (15th August). Now you can get our PC for a low price. Just 900€, 1100€ before! Get it now until 25th December offer object start end price Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning of rules Learning of statistical models Multistrategy learning Wrapper induction Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning of rules Learning of statistical models Multistrategy learning Wrapper induction

Jordi Turmo, 2010 Adaptive Information Extraction Aprendizaje de reglas Supervisados proposicionales: representan los ejemplos en términos de la lógica proposicional. –Especialización heurística: AutoSlog[Riloff93] –Generalización de ejemplos: PALKA[Kim,Moldovan95], CRYSTAL [Soderland et al.95],WAVE [Aseltine99], Chai and Biermann [97], TIMES [Chai et al.99] Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Aprendizaje de reglas Especialización de meta-patrones predefinidos, independientes del dominio, que actúan sobre las palabras activadoras y su contexto inmediato. Adquisición de reglas single-slot (Concept Nodes ) AutoSlog (Riloff[96]) Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Aprendizaje de reglas AutoSlog (Riloff[96]) Adaptability Concept trigger Position constraints enabling Conditions verb Witnesses confirm that the twister occurred without warning at approximtely 7:15 p.m and destroyed two mobile homes damage = damage = “destroyed” = direct-object = ((physical-object)) = ((active-voice))

Jordi Turmo, 2010 Adaptive Information Extraction Aprendizaje de reglas AutoSlog (Riloff[96]) Adaptability Problemas: reglas muy específicas. baja compresión baja cobertura sólo se obtienen reglas single-slot mayor numero de plantillas parcialmente extraidas con respecto a otros métodos

Jordi Turmo, 2010 Adaptive Information Extraction Basado en formación de conceptos (Concept Induction Learning, Michalski). Adquisición de reglas multi-slot (Concept Nodes) Algoritmo de cobertura bottom-up. Ejemplo = regla específica (máxima especificidad) Se relajan iterativamente las restricciones de las reglas actuales integrando una nueva regla específica. CRYSTAL (Soderland et al.[95]) Aprendizaje de reglas Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Preproceso: análisis sintáctico parcial para obtener constituyentes principales (S, V, O,OI, PP) análisis léxico-semántico (adhoc para el dominio) CRYSTAL (Soderland et al.[95]) Aprendizaje de reglas Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction CRYSTAL (Soderland et al.[95]) Aprendizaje de reglas Adaptability concept type= succession-event constraints: SUBJ: class include extract Person_In VERB: terms include NAMED mode passive OBJ: terms include OF class include extract Organization Concept node:

Jordi Turmo, 2010 Adaptive Information Extraction RULES = null Derive an initial definition from each positive example For each initial definition D not covered by RULES loop D’=the most similar initial definition to D if D’= null, exit U=the unification of D and D’ Test U on the training set if the error rate of U > error_tolerance exit D=U add D to RULES Return RULES CRYSTAL (Soderland et al.[95]) Aprendizaje de reglas Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction ¿Cómo se computa la unificación? relajando restricciones de los constituyentes términos, clases semanticas, modificadores, preposiciones, modo (activa/pasiva, positiva/negativa) ¿Cómo se calcula la similaridad? s(D,D’)= #relajaciones mínima para obtener la unificación entre D y D’ CRYSTAL (Soderland et al.[95]) Aprendizaje de reglas Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction CRYSTAL (Soderland et al.[95]) Aprendizaje de reglas Adaptability Ventajas respecto a AutoSlog mayor compresión mayor cobertura mayor expresividad reglas multi-slot y single-slot Problemas: jerarquía semántica ad-hoc generalización semántica muy controlada (ej.: no se generaliza semanticamente el verbo)

Jordi Turmo, 2010 Adaptive Information Extraction Algoritmo de fuerza bruta. A partir de cada ejemplo proporcionado por el usuario, el sistema propone de forma automática una serie de posibles generalizaciones. Cuando una regla propuesta supera una cota de cobertura en el conjunto de entrenamiento, el sistema la incorpora a su base de reglas. generalización sintáctica generalización semántica WordNet combinación permutación TIMES (Chai et al.[99]) Aprendizaje de reglas Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Aprendizaje de reglas Supervisados relacionales: representan los ejemplos en términos de la lógica de primer orden. –Generalizacion de ejemplos: LIEP[Huffman95] basados en sistemas de ILP: SRV[Freitag98], RAPIER[Califf98] WHISK[Soderland99] Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Problema=clasificar secuencias de palabras Aprendizaje de reglas single-slot expresadas en logica de orden 1. slot-filler(sequence) si p 1, p 2, …, p n Aprendizaje relacional. Modelo abierto. Usa las relaciones de sucesión y puede incorporar relaciones sintácticas (Link Grammar). No limita el contexto del filler Algoritmo de cobertura top-down (basado en FOIL). requiere ejemplos positivos y negativos empezando por la regla mas general, se le añade iterativamente el mejor predicado mientra que la regla cumpla MDL. Aprendizaje de reglas SRV (Freitag[98ab]) Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Uso de predicados: lenght(Comp N): la secuencia tiene longitud mayor/menor/igual (Comp) de N tokens position(Var From Comp N): Existe un token (Var) que está a una distancia menor/mayor/igual (Comp) de N tokens del inici/ofinal de la secuencia (From) relpos(Var1 Var2 Relop N) some(Var Path Feat Va): Existe un token (Var) en la secuencia que cumple Feat=Val. O existe un token (Var) relacionado con otro via atributos relacionales (Path) que cumple Feat=Val every(Feat Value): Todo token cumple Feat=Val Uso de atributos como word, capitalizedp, doubletonp, … Puede utilizar WordNet. Aprendizaje de reglas SRV (Freitag[98ab]) Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Aprendizaje de reglas SRV (Freitag[98ab]) Adaptability Speaker:- some(?A, [], word,*unknown*) every(capitalizedp, true) length(=, 2) some(?B, [], word, *unknown*) some(?B, [prev_token], word, “:”) some(?A, [prev_token prev_token], doubletonp, false) every(quadrupletonp, false) some(?B, [prev_token prev_token], word, “who”)

Jordi Turmo, 2010 Adaptive Information Extraction Aprendizaje de reglas single-slot expresadas como expresiones regulares: Aprendizaje relacional. Usa la relación de sucesión entre palabras. Limita el contexto del filler Algoritmo de compresión bottom-up (basado en GOLEM,…). Expresiones regulares más generales son inducidas incrementalmente a partir de los ejemplos y las expresiones regulares hasta ahora inducidas. Uso de lemas y etiquetado morfosintáctico desambiguado Puede usar WordNet. RAPIER (Califf and Mooney[97], Califf[98]) Aprendizaje de reglas Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction REGLA Pre-fillerFillerPost-filler 1) POS: {nn,nnp}1) “undisclosed ”1) Sem: price 2) List: maxlength 2 POS: jj “... sold to the bank for an undisclosed amount...” “... paid Honeywell an undisclosed price...” Aprendizaje de reglas Adaptability RAPIER (Califf and Mooney[97], Califf[98]) generalización

Jordi Turmo, 2010 Adaptive Information Extraction Generalización de 2 reglas: maximizar precisión disyunción o eliminación de una restricción Para cada slot RULES = reglas mas especificas para los ejemplos mientras compresión falle ≤ K veces seleccionar 2 reglas, R 1 y R 2, aleatoriamente encontrar generalizaciones, L, de fillers respectivos crear reglas a partir de L, evaluar → RULES’ especializar reglas de RULES’: n tokens de pre/post-fillers añadir nuevas reglas a RULES’ si precision(mejor_regla(RULES’)) > x añadirla a RULES y eliminar subsumidas empiricamente RAPIER (Califf and Mooney[97], Califf[98]) Aprendizaje de reglas Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Aprendizaje de reglas multi-slot expresadas como expresiones regulares mas complejas y flexibles que RAPIER: pattern: regular expression involving {VAR i } output: object-class {slot VAR i } + Aprendizaje relacional. Uso de la relación sucesor entre tokens. Algoritmo de cobertura top-down. Se añaden iterativamente restricciones a la expresión regular más general, de forma que cubra el mayor número de ejemplos. Se procede slot por slot. Uso de diferentes atributos dependiendo del tipo de problema WHISK (Soderland[99]) Aprendizaje de reglas Adaptability

Jordi Turmo, 2010 Adaptive Information Extraction Capitol Hill – 1 br twnhme. Fplc D/W W/D. Undrgrnd pkg incl $ BR, upper flr of turn of ctry HOME. incl gar, grt N. Hill loc $995. (206) (This ad last ran on 08/03/97.) WHISK (Soderland[99]) Aprendizaje de reglas Adaptability REGLA Pattern: * ( Digit ) ‘ BR’ * ‘$’ ( Number ) Output: Rental {Bedrooms $1} {Price $2}

Jordi Turmo, 2010 Adaptive Information Extraction WHISK (Soderland[99]) Aprendizaje de reglas C. Protho chairman and chief executive officer ]PS of this maker of semiconductors. } was } {PP to the additional post president ]PS, } John Smith ]PN, who to other interests. } ]S REGLA Pattern: * ( Person ) * *F ‘named’ * {PP *F ( Position ) * ( Person ) Output: Succession {PersonIn $1} {Post $2} {PersonOut $3}

Jordi Turmo, 2010 Adaptive Information Extraction WHISK (Soderland[99]) Aprendizaje de reglas Adaptability RULES = null Training = null repetir por demanda del usuario seleccionar un subconjunto de NewInst de la Reserva (el usuario anota las NewInst) Training = Traning U NewInst descaratar reglas con errores en NewInst para cada Inst en Training para cada Tag en Inst si Tag no esta cubierto por RULES Rule = grow_rule(Inst,Tag,Training) Podar RuleSet

Jordi Turmo, 2010 Adaptive Information Extraction WHISK (Soderland[99]) Aprendizaje de reglas Adaptability Grow_rule Regla mas general: * (*) * (*) * (*) * [para 3 slots] Para cada slot, añadir un término a cada iteración. Posteriormente para cada contexto, añadir un término a cada iteración, teniendo en cuenta el menor error de Laplacian Laplacian = (e+1)/(n+1) e(R1) = e(R2) → Laplacian menor quan major cobertura