Extracción y Recuperación de Información

Slides:

Advertisements

Presentaciones similares

IBD Plan 90 y 2003 Clase 11.

Advertisements

TÉCNICAS DE ANÁLISIS DE DATOS Formadora: Elisa Robles.

Búsqueda de una frase exacta

Tema 1. Modelos de RI avanzados

Tema 6. Evaluación de SRIs

TERMINOLOGÍA EN ESPAÑOL

TERMINOLOGÍA EN ESPAÑOL

TECNICATURA UNIVERSITARIA EN INFORMATICA

Maestría en Explotación de Datos y Descubrimiento del Conocimiento

UCR – ECCI CI-2414 Recuperación de Información

La web semántica y su impacto en la recuperación de información

¿Cómo hacer para que una máquina comprenda el LN?

Un curso web sobre NLP en IR para enseñanza y aprendizaje a distancia Felisa Verdejo, Julio Gonzalo, Anselmo Peñas UNED.

Gestión de proyectos Es la primera etapa de Ingeniería del Software.

Buscar bibliografía en

INTRODUCCIÓN A UML Oscar Miguel Alonso Moreno.

VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.

Ingeniería del Software

INTERFAZ DE ACCES DISEÑO DE BASE DE DATOS

LAS CARAS DE LA EVALUACION

Evaluación de Productos

CAPITULO 2 La Representación del Conocimiento

Bases de Datos por: Zulma Santiago Irizarry 2011

Algebra Booleana y Compuertas Lógicas

Estrategias de Búsqueda

Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –

Jordi Turmo, 2010 Adaptive Information Extraction Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning.

Desarrollo de un sistema de clasificación de recursos electrónicos en el ámbito de la lógica matemática” Autor: Antonio Sarasa Cabezuelo Directora: María.

INTELIGENCIA DE NEGOCIOS

El análisis y recuperación de información

Representación del Conocimiento

Modelos de Texto Estructurado M

Sesión 2: Métodos Probabilísticos Básicos

Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.

Especificación de Consultas M

Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.

Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.

Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero

Procesamiento Práctico del lenguaje Natural Capítulo XXIII.

Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá

Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de.

5.3 APROXIMACIONES AL DISEÑO

Lengua castellana y literatura. 2º ESO. Antonio Rojo Ruiz.

Dime con quién andas: Las Bases de Datos Bibliográficas como Herramientas de Medición Jane M. Russell Barnard Instituto de Investigaciones Bibliotecológicas.

APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)

Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014.

4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

Introducción al PLN 2 Lingüística Computacional vs Tratamiento del Lenguaje Natural (Tratamiento de la Lengua). Disciplinas afines Lingüística Inteligencia.

PLN chunking1 Análisis superficial y fragmental Introducción Chunking.

GPLSI Armando Suárez Definición de la tarea EI Fundamentos Aplicación Enfoque del Trabajo Conclusiones Documentación Extracción de Información.

Una introducción a la computación evolutiva

APLICACIÓN DE NUEVAS TECNOLOGÍAS EN LA CONSERVACIÓN Y ANÁLISIS DEL PATRIMONIO CULTURAL Pensar Relacionalmente: Bases de Datos Relacionales (una visión.

Tecnologías para el Aprendizaje

Web Semántica La Web Semántica es la nueva generación de la Web, que intenta realizar un filtrado automático preciso de la información. Para ello, es necesario.

WEB SEMÁNTICA.

Elaboración automática de resúmenes Nahiko Arraiza Eguillor 17-V-2006.

Ingeniería de Requisitos

Investigación cualitativa e Investigación cuantitativa

Lingüística computacional unidad 2. análisis semántico

Técnicas para el análisis de datos digitales

Proceso de desarrollo de Software

Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.

CARACTERÍSTICAS ESPECIALES DE LA EXTRACCIÓN DE CONOCIMIENTO DE INFO. NO ESTRUCTURADA Objetivos ligeramente Especiales: Búsqueda de Información Relevante.

Fundamentos de Ingeniería de Software

Objetivos de la prueba Los objetivos principales de realizar una prueba son: Detectar un error. Tener un buen caso de prueba, es decir que tenga más probabilidad.

Entorno de Recomendación para el Desarrollo de Objetos de Aprendizaje Manuel E. Prieto Universidad de Castilla-La Mancha, España Victor H. Menéndez Universidad.

Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.

Transcripción de la presentación:

Extracción y Recuperación de Información SEPLN 99 Tutorial Horacio Rodríguez UPC horacio@lsi.upc.es

Recuperación y Extracción de Información Information{retrieval, filtering, routing, summarising harvesting, mining, extraction, formatting, integration, ...} Dos familias básicas Recuperación de información (Information Retrieval, IR) Extracción de información (Information Extraction, IE) Dos ámbitos Colecciones de documentos Internet => (500 Mpáginas) Papel del LN IR: marginal y discutido (pero... uso de recursos, CLIR) IE: básico

Ejemplos de sistemas de búsqueda de información (Oard,Marchionini,96)

Minería de datos vs Minería de datos textuales (Marti A. Hearts,99)

Aplicaciones Directas Indirectas Servicios de Información Bibliotecas digitales, buscadores de internet, extraccción de información de la Web, enciclopedias, ofimática, documentación (patentes, leyes, bibliografía), integración y distribución de noticias, multilingüismo ... Indirectas Construcción de recursos: lexicones, corpus, ontologías, bases de conocimiento ... Afinado (tuning) de recursos

The top 10 Research Issues for Companies that Use and Sell IR Systems (Croft 1995) Relevance Feedback Information Extraction Multimedia Effective Retrieval Routing & Filtering Interfaces & Browsing “Magic” Efficient, Flexible Indexing and retrieval Distributed IR Integrated Solutions => V.A.Kulyukin (1999)

Organización del tutorial Recuperación de información (IR) Papel del LN en los sistemas de IR Cross Lingual IR (CLIR) Extracción de Información (IE)

La IR trata de la Representación, Almacenamiento, Organización y acceso a las Unidades de Información Textos (documentos) Hipertextos, Multimedia, ...

¿Qué leer? Libros Actas Cursos F.Verdejo, J. Gonzalo, A. Peñas R. Baeza-Yates, B. Ribeiro-Neto (1999) Grefenstette, G. (1998) M.T. Maybury (1997) G. Salton, M.J. McGill (1983) T. Strzalkowski (1999) C.J. van Rijsbergen (1979) Actas TREC http://trec.nist.gov/ Cursos F.Verdejo, J. Gonzalo, A. Peñas Information Retrieval & Natural Language Processing http://rayuela.ieec.uned.es/~ircourse/

Componentes de un SRI (Oard,Dorr,96) {0,1} juicio humano: j espacio de las consultas: Q espacio de los documentos: D Consulta Documento q d representación 1 representación 2 espacio de representación: R función de comparación: c {0,1}

Sistema ideal c(q(cons), d(doc)) = j(cons, doc) cons Q doc D

Representación del documento: indexado (Baeza-Yates, Ribeiro-Neto,99) documento: texto + estructura reconocimiento de la estructura acentos, espaciado, etc... stopwords grupos nominales términos que forman el índice lematización indexación manual o automática

Proceso de la Recuperación de Información texto consulta Interfaz de usuario texto Opeaciones textuales realimentación representación operaciones sobre la consulta Indexado consulta Gestor de BD Búsqueda Indices documentos recuperados documentos clasificados Base de textos Clasificación

Características de los SRI Tipo de información almacenada Texto, voz, información estructurada Lenguaje de consulta Exacto, ambiguo Tipo de emparejamiento Exacto, aproximado Tipo de información deseada Vaga, precisa Relevancia: utilidad de la información para el usuario de acuerdo a su consulta.

Base de Documentos (1) Organización de la BD Colecciones, Tesauros, Clusters clasificación previa de los documentos: lengua, dominio, estructura ej. UMLS: http://www.nlm.nih.gov/ Organización de las unidades contenido operaciones modelo del documento lenguajes de representación del texto (formato) texto simple: ASCII, Unicode, ... texto marcado: SGML, HTML, XML

Base de Documentos (2) Documento: Sublenguajes: simple estructurado: capítulos, secciones, párrafos, oraciones, ... Sublenguajes: Documentación técnica, terminología, jergas, multilingúismo Sekine,98 Documentos semiestructurados Hearst,98 Páginas Internet Amitay,97 Metadatos: Título, resumen, listas, hiperenlaces, texto del hiperenlace, ...

Operaciones sobre los documentos Preproceso análisis léxico, estandarización formas no estándard, fechas, números, siglas, locuciones, lexías, ... lematización análisis morfológico, consulta a formarios, reglas léxicas/morfol, alg. Porter filtrado Stopwords (diccionarios negativos) Clasificación manual automática clasificación clustering Compresión

Indexado indexado manual vs automático indicadores objetivos: estructurales subjetivos: textuales (de contenido) indexado pre-coordinado vs post-coordinado términos simples vs términos en contexto Modelo más corriente: Bag of simple words

Representación de los documentos Modelos clásicos texto completo booleano vectorial probabilístico Variantes evolucionadas del modelo probabilístico Bayesiano Redes de inferencia Redes de creencia paradigmas alternativos Modelo vectorial generalizado Modelo booleano extendido Latent Semantic Indexing Redes neuronales

Operaciones de consulta Modelo booleano simple Expresiones booleanas sobre términos que aparecen en el documento o palabras clave. Conectivos: AND, OR, NOT, paréntesis Extensiones: restricciones de distancia (nivel párrafo, nivel frase, adyacencia) ventana fija o variable Modelo booleano extendido: ponderación de términos: frecuencia del término en el documento, en la colección, normalización Expansión de las consultas uso de F.Conocimiento externas (ej. WN) extensión con sinónimos y/o hiperónimos truncado de términos generalización morfológica relevance feedback

Medidas de calidad de la recuperación recuperados = a + b relevantes = a + d recall (cobertura) = a / (a + d) precisión = a / (a + b) a recuperado b d recall = están todos los que son precisión= son todos los que están c relevante Cuando el resultado es una ordenación de documentos con un índice de relevancia asociado (ranked) y no un booleano, las medidas pueden ser vectores de precisión a (normalmente) 3, 5, 7, 9, 11 puntos de cobertura (p.ej. a niveles (0.2, 0.5, 0.8) o medias de estos vectores.

Modelo booleano atributos: todos los términos (palabras, lemas, t1 t2 t3 ... ti ... tm d1 0 1 0 d2 1 0 1 0 d3 ... dj dn atributos: todos los términos (palabras, lemas, multipalabras, ...) que aparecen en la colección (excepto los stopwords) filas: cada documento representado por un vector de booleanos (1 si el término aparece en el documento, 0 en caso contrario). Hay n documentos columnas: cada término representado por un vector de booleanos. Hay m términos no es posible una respuesta ponderada no se tiene en cuenta ni frecuencia ni orden ni importancia de los términos

Modelo Vectorial (1) t1 t2 t3 ... ti ... tm d1 d2 dj wij dn wij peso (relevancia) del término j en el documento i Forma más corriente de definir la relevancia tfij frecuencia del término tj en el documento di dfj # documentos en los que aparece tj idfj log (N / dfj ) wij = tfij * idfj

Modelo Vectorial (2) Otra forma dvj poder discriminador de un término. Si al seleccionarlo disminuye la similitud entre documentos (la densidad) dvj = Q - Qj Q densidad sin seleccionar el término tj N = # documentos Qj densidad seleccionando el término tj relevancia: wij = tfij * dvj

Modelo Vectorial (3) Otra forma C = centroide de la colección de documentos Q densidad respecto al centroide C El cálculo de la relevancia es idéntico al caso anterior En cualquier caso la consulta se representa también vectorialmente y se seleccionan los documentos más próximos de acuerdo a una distancia

Medidas de similitud Medida de similitud Producto escalar Coeficiente de Dice Coseno Coeficiente de Jaccard Modelo booleano Modelo vectorial

Relevance Feedback Etapas formular la consulta obtener los documentos más próximos someterlos al juicio del usuario relevantes irrelevantes expandir la consulta añadir los términos más relevantes de los documentos calificados de tales volver a seleccionar

Extensiones de la RF Autorelevance feedback (Blind feedback) considerar (sin intervención humana) como relevantes los documentos más próximos a la consulta Uso de información histórica consultas similares Keim, Lewis, Madigan, 96 summarization-based extracción de términos relevantes a partir de resúmenes (5-10%) Strzalkowski, Lin, Pérez-Carballo,97 extraction-based búsqueda de fragmentos (passages) relevantes

Modelos probabilísticos Excelente survey: F. Crestani, M. Lalmas, C.J.Van Rijsbergen, I. Campbell (1998) Dada una consulta qk se debe calcular para cada documento di la probabilidad de que sea relevante: O irrelevante: Un documento podría devolverse si o bien si la diferencia supera un cierto umbral

Modelos probabilísticos binarios (1) Son los más utilizados donde Xi toma valores 0 ó 1 dada una consulta qk se puede asumir (es mucho asumir pero ¡qué remedio!) que las componentes del vector X son independientes cuando están condicionadas a R.

Modelos probabilísticos binarios (2) Si notamos y somos capaces de estimar (mediante historia o Relevance Feedback) los valores de pi y qi entonces para un documento dj podemos calcular g(dj) y aceptar el documento cuando supere un umbral

Otros modelos Modelo bayesiano M. Keim, D.D. Lewis, D. Madigan (1996) Teoría de la evidencia (Dempster-Shafer) M.Lalmas, I.Ruthven, M.Theophylactou (1997) Modelo vectorial generalizado Yang et al,97 Latent Semantic Indexing Dumais et al,97 Evans et al,98

Modelo vectorial generalizado Crítica del modelo vectorial: Asume los términos ortogonales (independientes) cuando es evidente que hay relaciones semánticas de coocurrencia de términos. t1 t2 t3 ... ti ... tm d1 d2 d3 ... dj dn VSM: espacio de m dimensiones, la base del espacio son términos, los vestores que representamos son documentos GVSM: (espacio dual). Espacio de n dimensiones. La base del espacio son los documentos, ahora los vectores son términos

Latent Semantic Indexing (LSI) doc3 doc3 t1 doc2 t2 t2 Dimension 2 lsi doc1 doc2 doc1 t1 Dimension 1 lsi Espacio de m (# términos) dimensiones, en él representamos n (# documentos) puntos (o vectores) LSI: análisis factorial: análisis de componentes principales. Se calculan los valores y vectores propios y se recogen los p valores más significativos. Se crea un espacio de p (200-300) dimensiones (con los vectores propios como base) y se proyectan en él términos, documentos y consultas.

IR y LN: lecturas generales T. Strzalkowski,99 Smeaton, A.(1995) transparencias de un tutorial Smeaton, A. (1999) Lewis, D, Sparck Jones K. (1996) divulgación más bien crítica T. Strzalkowski et al, 97,98 participación en TREC-6 y TREC-7 Voorhees,99

IR y LN Recursos de LN Tareas de PLN Indexado Recuperación palabras, raices, lemas, acepciones, multitérminos , frases, … problemas: nombres propios palabras desconocidas unidades no estándar polisemia => Sólo levemente mejor que usar monotérminos (formas) Recuperación expansión de las consultas

Indexación con palabras Palabras para indexar y consultar variación morfológica no siempre buenos indicadores del contenido polisemia relaciones semánticas entre palabras sinonimia hiper/hiponimia Agrupación de términos términos multipalabras dependencia terminológica colocaciones clustering

Indexación con palabras y categorías No parece aportar nada Krowetz,97 Más de la mitad de los términos de un duccionario que difieren en categoría gramatical tienen algún tipo de relación semántica Gonzalo et al,99 La anotación e indexado con categoría gramatical (incluso realizada manualmente) parece demasiado discriminatoria para ser útil para la RI

Indexación con acepciones Problema: etiquetado semántico inventario de acepciones diccionario (cuál), WordNet (synset, variant, file), Clusters algoritmo de desambiguación: WSD Evaluación Krowetz,Croft,92 ambigüedad en la acepción => 2% de degradación Sanderson,94 es necesaria una precisión del 90% para que sea útil Gonzalo et al, 99 importancia de WSD. Mejora con precisión > 70% Schultz,Pedersen,95 7-17% de mejora

Indexación con frases (1) Desambiguación morfosintáctica (pos tagging) Análisis sintáctico superficial (shallow parsing) Análisis fragmental (chunkers) Detección automática de colocaciones (Smadja,93) Extracción de grupos nominales Problema de la ambigüedad sintáctica no tenerla en cuenta normalizar, ej. CLARIT (CMU) indexar con árboles de dependencias que capturen la ambigüedad

Indexación con frases (2) Xerox pares de palabras que coocurren pares de palabras con dependencia sintáctica sujeto/verbo, verbo/complemento directo, adjetivo/nombre, … sólo mejora con contextos grandes Claritech extracción de frases nominales, normalización => indexado GE + Rutgers stream-based IR actuación de varios módulos alternativos de indexado (stopwords, lematización, extracción de frases, nombres propios, normalización, …) y ponderación

Recuperación: expansión de las consultas Añadir términos a la consulta basados en la aparición en documentos relevantes y no aparición en documentos irrelevantes CLARIT, Umass Uso de tesauros WordNet EWN

WN en IR Indexado Expansión de las consultas discriminación de acepciones agrupación de palabras relacionadas semánticamente Sanderson,94 (Glasgow) Expansión de las consultas Smeaton 95 Hierarchical Concept Graphs Vorhees,94 Richardson, Smeaton, 95 Smeaton,Quigley,96 Gonzalo et al,98 comparación al indexar por synset, acepción o palabra mejora a partir de 70% de precisión en WSD

CLIR Cross Language Information Retrieval Recuperación de documentos de acuerdo a peticiones formuladas por una persona sin tener en cuenta la lengua en que los documentos y las consultas han sido expresadas Técnicas Traducir los documentos Traducir las consultas Proyectar unos y otras a un espacio de indexado neutral Limitaciones Los textos de las consultas son más cortos que los documentos El contexto (y la fiabilidad) al traducir la consulta es menor Los errores de traducción son menos graves en los documentos

CLIR: lecturas básicas Grefenstette, G. (1998) Yang et al,97 J.Klavans, E.Hovy (1999) D.W.Oard, B. Dorr (1996) Oard, D. (1997) P.Schäuble, P. Sheridan (1998) Fluhr,95

Aproximaciones a CLIR (Oard,97) Texto libre Vocabulario Controlado Basado en Corpus Basado en Conocimiento Corpus paralelos Corpus comparables Corpus monolingües Basado en Diccionarios Basado en Ontologías Alineación de documentos Alineación de oraciones Alineación de términos Basado en Tesauros

Aproximaciones basadas en conocimiento Uso de diccionarios bilingües Oard, D. and P. Hackett (1997) usan el sistema LOGOS de TA para traducir documentos y consultas Ballesteros, L. and Croft, W. (1998) usan y comparan SYSTRAN con T1(Langenscheidt) para traducir las consultas EMIR (European Multilingual IR), Fluhr,95 Uso de ontologías EWN Peters, C. and Picchi, E. (1997) Gonzalo, J., F. Verdejo, C. Peters and N. Calzolari (1998)

Aproximaciones basadas en corpus Corpus paralelos alineados a nivel de documento Dumais et al,97 Yang et al,97 alineados a nivel de oración Davis, M. and Ogden, W. (1997) alineados a nivel de término D.W.Oard, B. Dorr (1996) Corpus comparables P.Schäuble, P. Sheridan (1998) Peters, C. and Picchi, E. (1997) Corpus no alineados (monolingües) Ballesteros, L. and Croft, W. (1998)

Ejemplo: Davis,Odgen,97 Usa un diccionario biligüe y un corpus (UN) bilingüe español/inglés Las consultas en español son desambiguadas Se expanden las consultas con la traducción de los términos categorizados usando el bilingüe Si existe ambigüedad se realiza una desambiguación usando el corpus bilingüe consulta en español => 30 documentos más significativos en la parte española del corpus se extraen los 5000 términos ingleses más significativos (Rochio) de la traducción de los 30 documentos en caso de ambigüedad se utiliza el término inglés mejor clasificado entre los 5000

Ejemplo: Gonzalo et al,98 Indexado de los documentos en términos de ILIs Documento: vector ponderado de ILIs indexado: dependiente de la lengua tagging identificación de términos: lematización, multipalabras WSD proyección sobre elILI independiente de la lengua ponderación (cálculo de la relevancia) consulta expresión vectorial de la consulta uso del coseno como métrica medida de distancia semántica (no simple emparejamiento)

Futuro del LN en IR Interacción basada en el significado (búsqueda conceptual) Respuesta a preguntas concretas no búsqueda de documentos Resumen automático como respuesta a las consultas Integración de información Consultas altamente descriptivas, precisas y elaboradas Multilingüismo: CLIR !!!

Extracción de la Información Localizar las porciones de un texto dado que contengan información relevante para las necesidades de un usuario y proporcionar dicha información de forma adecuada a su proceso (manual o automático) El criterio de relevancia viene indicado por modelos predefinidos (normalmente mediante modelos Objeto/Atributo/Relación)

Sistemas de Extracción de Información Típicamente un SEI extrae informaciones sobre entidades, relaciones y eventos a partir de documentos en un dominio restringido El color blanco de su sombrero pasa a amarillo crema al corte. El sombrero ennegrece si se corta. Ejemplo: dominio micológico (M-Turbio) color_1 base: blanco tono: indef luz: indef Sombrero_1 color: virar_1 inicio: final: causa: corte color_2 base: amarillo tono: crema luz: indef Sombrero_2 color: virar_2 inicio: indef final: causa: corte color_3 base: indef tono: negro luz: indef

Ejemplo (MUC-6) A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb -allegedly detonated by urban guerrilla commandos- blew up a power tower in the northwestern part of San Salvador at 0650. Incident type: bombing date: March 19 Location: El Salvador: San Salvador (city) Perpetrator: urban guerrilla commandos Physical target: power tower Human target: - Effect on physical target: destroyed Effect on human target: no injury or death Instrument: bomb

Lecturas básicas EI Pazienza, M.T. (1997) E. Hovy (1999) R.Yangarber, R.Grishman R.Grishman Y.Wilks E. Hovy (1999) J.Cowie, W.Lehnert (1996) C.Cardie (1997) R.J.Mooney, C.Cardie (1999) Atserias et al,98 Turmo et al,98

Historia EI Precedentes Conferencias MUC (87-99) Proyectos LRE Sager 81: LSP deJong 82: FRUMP => ATRANS (93) Cowie 81 Zarri 83 Hayes 86: JASPER Conferencias MUC (87-99) Proyectos LRE TREE, AVENTINUS, FACILE, ECRAN, SPARKLE

Aplicaciones Extracción de información de la Web Construcción de BD de noticias Integración de información Dominios: médico, finanzas, militar, ... Limitaciones: inútil si la precisión < 90% alto coste de transporte y adaptación

Conferencias MUC MUCK-1 (1987), MUCK-2(1989) operaciones navales MUC-3 (1991), MUC-4 (1992) terrorismo en Latinoamérica estructura de salida con 18 atributos cobertura y precisión MUC-5 (1993) noticias financieras, microelectrónica inglés, japonés MUC-6 (1995), MUC-7 (1998) Entidades propias, entidades estructuradas, correferencias, eventos

Componentes de un SEI (Cowie,Lehnert,96) Nivel texto filtrado => relevancia Nivel palabra pos tagging Nivel frase chunks, sintagmas, categorización semántica Nivel oración relaciones sintácticas Nivel interoracional correferencia Nivel esquema proyección sobre el formato (prescrito) de salida

Arquitectura de un SEI Hobbs: Cascada de transductores (o módulos) que a cada paso añaden estructura y a menudo eliminan información irrelevante aplicando reglas que son adquiridas manual o automáticamente

Arquitectura de un SEI (ej. Proteus) Lexicon Análisis Léxico Reconocimiento de Entidades Jerarquía conceptual Análisis sintáctico parcial Patrones de extracción Base de Patrones Resolución de la referencia Análisis del discurso Formato de salida Generación de la salida

Características de los SEI (1) Importancia de la Ingeniería del Conocimiento Modularidad Tareas básicas Tareas específicas Uso de conocimiento débil y local Recursos de LN MRDs, Ontologías, Lexicones, Corpus, … Importancia de la transportabilidad y afinado (tuning) Técnicas empíricas Aprendizaje automático (ML) Mooney,Cardie,99 Salida: texto marcado o bases de datos

Características de los SEI (2) Fuerte dependencia del dominio (Cardie,97) Estructura prescrita (Wilks,97, Grishman,97) Semántica vs. Sintaxis Análisis sintáctico superficial, parcial i global Análisis del discurso Arquitectura en cascada Técnicas de estados finitos Estructura del texto metainformación sublenguajes género dominio

Relaciones con otras disciplinas IE & IR a veces IR precede a IE Resumen automático McKeown et al,99, Barzilay et al,99, Mittal et al,99, Hatzivassiloglou et al,99 Minería de datos textuales M.A.Hearst (1999) Integración de información M.A.Hearst (1998), Kushmerick (1997) Clasificación de documentos Yang,97

Análisis léxico (a veces) Identificación de la lengua División del texto en unidades (tokens) Consulta a diccionarios ej. PROTEUS (NYU) Comlex, Nombres propios (personas, geográficos, empresas), ... Procesadores específicos fechas, cantidades, siglas, locuciones, términos multipalabras, ... Reconocedores de nombres propios (Named Entities) Lexicones especializados patrones (expresiones regulares) Palabras desconocidas

Desambiguación morfosintáctica (pos tagging) Sistemas basados en reglas estadísticos híbridos tagset calidad de la desambiguación: por encima del 97%

Análisis sintáctico Global Parcial aproximación estándar: LaSIE, LOLITA ineficiencia, limitaciones de las gramáticas, tamaño de las gramáticas aproximación en cascada: Pinocchio, Alembic se solucionan algunos de los problemas anteriores Parcial Fastus => Proteus, PLUM, PIE, Umass, HASTEN, TURBIO, ESSENCE ausencia de dependencias globales. uso de metarreglas para precompilar patrones

Ejemplo PROTEUS Grupos nominales y verbales no recursivos (chunks) Grupos nominales más amplios sólo si existe evidencia semántica uso de metarreglas (similares a las de GPSG) para ampliar la cobertura sintáctica

Semántica Normalmente sólo a nivel léxico A veces WSD Representación semántica explícita a niveles más complejos de proceso sintáctico Alembic (MITRE) => forma lógica proposicional M.Vilain (1999) Pinocchio => quasi logical form F.Ciravegna, A.Lavelli (1999)

Patrones de extracción Normalmente las reglas de extracción constan de un patrón que debe aplicarse sobre la estructura (texto marcado, bosque de análisis, formas lógicas) que se ha obtenido de los procesos previos para intentar el matching una o varias acciones a realizar creación de ejemplares de objetos relleno de atributos establecimiento de relaciones Normalmente creados manualmente Uso limitado (pero creciente) de técnicas de ML como ligar los esquemas (templates) con su expresión en LN

Tipos de patrones 3 niveles bajo nivel: gran aplicabilidad (normalmente incluidos en el sistema) intermedio: librerías de patrones (aplicables a diferentes dominios) ej. extractores de entidades (persona, empresa, lugar, organización) extractores de relaciones (persona/oranización, organización/lugar) específicos del dominio

Ejemplo (PROTEUS) np(C-organization) sa vg(C-appoint) sa np(C-person) sa “as” np(C-position) IBM yesterday appointed Fred Smith as president

Proceso discursivo Resolución de expresiones referenciales Inferencias anáforas referencias definidas Inferencias Integración (merging) de la información

Sistemas Notables (1) FASTUS PROTEUS CIRCUS CRYSTAL LsSIE SRI (Appelt, Hobbs, ...) PROTEUS NYU (Grishman,Sekine, ...) CIRCUS U. Mass (Lehnert, Cardie, Riloff, ...) AutoSlog, Badger, Marmot CRYSTAL U. Mass (Soderland, Lehnert, Fisher, ...) LsSIE U. Sheffield (Wilks, Cunningham, Gaizauskas, ...) GATE

Sistemas Notables (2) Pinocchio TREVI Alembic HASTEN ITC-IRST (Trento) (Ciravegna, Lavelli,...) FACILE TREVI Tor Vergata (Roma) Basili, ... Alembic MITRE (Vilain, ...) HASTEN SRA (Krupka, ...) PALKA (Kim,Moldovan), LIEP (Huffman), PLUM (Weischedel), TIMES(Chai, Biermann, ...), ESSENCE (Català), TURBIO(Turmo)

Portabilidad (1) Es una cualidad fundmental dada la gran dependencia del dominio de la EI Normalmente se deben afinar o crear de nuevo los resursos: Lexicones Background vs. Foreground (Kilgarriff) Ontologías Base de patrones estructura de salida (templetas)

Portabilidad (2) Forma de llevar a cabo el afinado automáticmente manualmente semi-automáticamente La mayor dificultad (y la tarea que tiene un coste mayor) reside en la (re)construcción de la base de patrones. Por ello es aquí donde se han aplicado más esfuerzos en intentar automatizar la tarea

Portabilidad (3) Afinado (tuning) de lexicones y ontologías Proceso dos aproximaciones (Wilks,99) Lexicón antiguo + corpus del (nuevo) dominio => lexicón nuevo corpus del (nuevo) dominio => lexicón nuevo elementos a modificar palabras acepciones preferencias verbales (posibles alternancias de diátesis, régimen proposicional, restricciones selectivas, ...) Proceso manual (el más corriente) con editores especilizados automático: E. Riloff & R. Jones (1999)

Portabilidad (4) Creación o afinado de la base de patrones Uso de herramientas interactivas para la adquisición manual NYU Interactive tool C.Nobata, S.Sekine (1998) R.Yangarber, R.Grishman (1997) El usuario proporciona un ejemplo (o lo extrae del corpus) El usuario codifica la información a extraer a partir del ejemplo El sistema utiliza la base actual de patrones para crear una descomposición estructural del ejemplo Usuario y sistema interaccionan para extender y/o generalizar sintácticamente (metarreglas) y semánticamente (jerarquía conceptual) el o los patrones implicados Uso de técnicas de ML

Uso de técnicas de Aprendizaje Automático (ML) Utilización creciente de ML basado en la explotación de corpus para: Construcción de patrones de extracción Otras tareas de bajo nivel pos tagging límites de las oraciones chunking dependencias sintácticas entre unidades correferencias Tareas afines o complementarias resumen automático clasificación de textos Mooney,Cardie 1999, C.Cardie (1997)

ML(1) Simbólico (la mayoría) vs Subsimbólico Árboles de decisión Inducción de reglas FOIL (Quinlan), RIPPER, FLIPPER (Cohen) Instance-based, Memory-based, Case-based Supervisado (la mayoría) vs No supervisado Integración de modelos múltiples Bagging Boosting Recursos de ML: http://www.ai.univie.ac.at/oefai/ml/ml-resources.html

ML(2) : Construcción de patrones de extracción UMass en MUC-3 (Lehnert et al,91) AutoSlog en MUC-4 (Riloff,96) AutoSlog-TS (Riloff,Shoen,95) CRYSTAL (Soderland et al,95) HASTEN en MUC-6 (Krupka,95) PALKA (Kim,Moldovan,95) LIEP (Huffman,96) RAPIER (Califf,Mooney,97) WHISK (Soderland,99) SRV (Freitag,98a,b)

ejemplos (1) AutoSlog (Riloff,96) Sistema guiado por una serie de reglas lingüísticas independientes del dominio extracción de Concept Nodes Witnesses confirm that the twister occurred without warning at approximtely 7:15 p.m and destroyed two mobile homes concept = damage trigger = “destroyed” position = direct-object constraints = ((physical-object)) enabling Conditions = ((active-voice)) damage = two mobile homes

ejemplos (2) proceso: 1) generar el corpus de aprendizaje apropiado (información etiquetada con etiquetas semánticas) 2) identificar roles sintácticos de las partes etiquetadas 3) identificar las palabras activadoras (trigger words) 4) proceso de aprendizaje guiado por un paquete de heurísticas que actúan sobre las palabras activadoras y su contexto inmediato AutoSlog-TS prescinde de la supervisión. La intervención humana se limita a clasificar de relevante o irrelevante el texto que se incorpora al proceso de aprendizaje

ejemplos (3) CRYSTAL (Soderland et al,95) Utiliza técnicas de formación de conceptos (Concpt Induction Learning Michalski). Dominio médico (utiliza la jerarquía semántica de UMLS). Usa corpus anotado para el aprendizaje (analizado sintácticamente). Generaliza a partir de contextos lingüísticos especificados con gran detalle. Aproximación ascendente. Se relajan gradualmente las restricciones sobre la definición inicial (máxima especificidad) de forma que se amplía la cobertura incorporando los conceptos más similares (integrando sus definiciones) para lograr un diccionario más compacto

ejemplos (4) WHISK (Soderland,99) Aprendizaje de patrones expresados como expresiones regulares de forma que es posible la extracción simultánea de varios descriptores Inducción de reglas Inducción descendente iniciada por un ejemplo específico Uso de clases semánticas dependientes del dominio para clasificar las palabras Aplicación a: texto libre texto marcado HTML texto previamente analizado sintácticamente

ejemplos (5) RAPIER (Califf,Mooney,97) Robust Automated Production of Information Extraction Rules Aprendizaje de patrones expresados como expresiones regulares pre-filler pattern filler pattern post-filler pattern Algoritmo ILP que actúa sobre el texto asignado a cada descriptor y su contexto (ilimitado) inmediato. Utiliza el texto con etiquetado morfosintáctico desambiguado (tagger de Brill) Utiliza WordNet

ejemplos (6) ejemplo de RAPIER “... sold to the bank for an undisclosed amount...” “... paid Honeywell an undisclosed price...” Pre-filler Filler Post-filler 1) POS: {nn,nnp} 1) “undisclosed ” 1) Sem: price 2) List: maxlength 2 POS: jj

ejemplos (7) SRV (Freitag,98ab) Aprendizaje relacional (derivado de FOIL) Rasgos simples (atributos) y relacionales Relaciones sintácticas: Link Grammar Relaciones semánticas: WordNet Aplicado (entre otros) a la clasificación de páginas Web En Freitag,98b se combinan tres estrategias de aprendizaje

ejemplos (8) TIMES (Chai,Biermann,Guinn,99) Trainable InforMation Extraction System. A partir de un ejemplo proporcionado por el usuario el sistema propone en forma automática un serie de posibles generalizaciones. Cuando las modificaciones de las reglas propuestas tienen éxito, el sistema las incorpora a su base de reglas WordNet generalización semántica combinación permutación generalización sintáctica

ejemplos (9) (Riloff,Jones,99) Mutual Bootstrapping. Aprendizaje simultáneo de un lexicón semántico (dominio) y de la base de patrones (escenario). Utiliza un corpus no anotado. Para cada clase semántica se define (manualmente) un conjunto inicial de palabras (seed words). Ampliación: Multi-Level Bootstrapping. nuevos patrones ejemplos patrón

ejemplos (10) Algoritmo de Mutual Bootstrapping (Riloff,Jones,99) Generar a partir del corpus de aprendizaje (con AutoSlog) los patrones candidatos Aplicar los patrones al corpus de aprendizaje, patrones, ejemplares => EPdata {seed words} => SemLex {} => Cat_EPlist iterar: Valorar (métrica RlogF) todos los patrones en EPdata best_EP = patrón mejor valorado de los no presentes en Cat_EPlist añadir best_EP a Cat_EPlist añadir los ejemplares de best_EP a SemLex

Futuro del LN en IE Tratamiento de fenómenos lingüísticos no locales Modelización de la semántica del dominio (más allá del modelo de templetas) Mejoras en los métodos de aprendizaje Conocimiento de base criterios de selección de rasgos Multilingualidad Integración de información Adaptabilidad descubrimiento de información (modelo no prescrito) Transportabilidad

Direcciones útiles de Internet TREC http://trec.nist.gov/ UMLS http://www.nlm.nih.gov/ SIGIR http://www.acm.org/sigir/ Univ. Glasgow http://www.dcs.gla.ac.uk/idom/ir_resources/ ML http://www.ai.univie.ac.at/oefai/ml/ml-resources.html Curso IR UNED http://rayuela.ieec.uned.es/~ircourse/ MUC http://www.muc.saic.com/ Proyecto ITEM http://sensei.ieec.uned.es/item/ Grupo LSI-UPC http://www.lsi.upc.es/~acquilex/nlrg.html