La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

SEPLN,991 SEPLN 99 Tutorial Horacio Rodríguez UPC Extracción y Recuperación de Información.

Presentaciones similares


Presentación del tema: "SEPLN,991 SEPLN 99 Tutorial Horacio Rodríguez UPC Extracción y Recuperación de Información."— Transcripción de la presentación:

1 SEPLN,991 SEPLN 99 Tutorial Horacio Rodríguez UPC Extracción y Recuperación de Información

2 SEPLN,992 Recuperación y Extracción de Información u Information{retrieval, filtering, routing, summarising harvesting, mining, extraction, formatting, integration,...} u Dos familias básicas –Recuperación de información (Information Retrieval, IR) –Extracción de información (Information Extraction, IE) u Dos ámbitos –Colecciones de documentos –Internet => (500 Mpáginas) u Papel del LN –IR: marginal y discutido (pero... uso de recursos, CLIR) –IE: básico

3 SEPLN,993

4 4 Ejemplos de sistemas de búsqueda de información (Oard,Marchionini,96)

5 SEPLN,995 Minería de datos vs Minería de datos textuales (Marti A. Hearts,99)

6 SEPLN,996 Aplicaciones u Directas –Servicios de Información »Bibliotecas digitales, buscadores de internet, extraccción de información de la Web, enciclopedias, ofimática, documentación (patentes, leyes, bibliografía), integración y distribución de noticias, multilingüismo... u Indirectas –Construcción de recursos: »lexicones, corpus, ontologías, bases de conocimiento... –Afinado (tuning) de recursos

7 SEPLN,997 The top 10 Research Issues for Companies that Use and Sell IR Systems (Croft 1995) u Relevance Feedback u Information Extraction u Multimedia u Effective Retrieval u Routing & Filtering u Interfaces & Browsing u Magic u Efficient, Flexible Indexing and retrieval u Distributed IR u Integrated Solutions => V.A.Kulyukin (1999)

8 SEPLN,998 Organización del tutorial u Recuperación de información (IR) u Papel del LN en los sistemas de IR u Cross Lingual IR (CLIR) u Extracción de Información (IE)

9 SEPLN,999 La IR trata de la Representación, Almacenamiento, Organización y acceso a las Unidades de Información Textos (documentos) Hipertextos, Multimedia,...

10 SEPLN,9910 ¿Qué leer? u Libros –R. Baeza-Yates, B. Ribeiro-Neto (1999) –Grefenstette, G. (1998) –M.T. Maybury (1997) –G. Salton, M.J. McGill (1983) –T. Strzalkowski (1999) –C.J. van Rijsbergen (1979) u Actas –TREChttp://trec.nist.gov/ u Cursos –F.Verdejo, J. Gonzalo, A. Peñas »Information Retrieval & Natural Language Processing »http://rayuela.ieec.uned.es/~ircourse/

11 SEPLN,9911 Componentes de un SRI (Oard,Dorr,96) Consulta representación 2representación 1 Documento espacio de las consultas: Qespacio de los documentos: D espacio de representación: R q d juicio humano: j función de comparación: c {0,1}

12 SEPLN,9912 Sistema ideal c(q(cons), d(doc)) = j(cons, doc) cons Q doc D

13 SEPLN,9913 Representación del documento: indexado (Baeza-Yates, Ribeiro-Neto,99) documento: texto + estructura reconocimiento de la estructura acentos, espaciado, etc... stopwords grupos nominales lematización términos que forman el índice indexación manual o automática

14 SEPLN,9914 Proceso de la Recuperación de Información Interfaz de usuario Opeaciones textuales Base de textos Gestor de BD texto consulta operaciones sobre la consulta Indexado Indices representaciónrealimentación Búsqueda consulta Clasificación documentos recuperados documentos clasificados

15 SEPLN,9915 Características de los SRI u Tipo de información almacenada –Texto, voz, información estructurada u Lenguaje de consulta –Exacto, ambiguo u Tipo de emparejamiento –Exacto, aproximado u Tipo de información deseada –Vaga, precisa u Relevancia: utilidad de la información para el usuario de acuerdo a su consulta.

16 SEPLN,9916 Base de Documentos (1) u Organización de la BD –Colecciones, Tesauros, Clusters »clasificación previa de los documentos: lengua, dominio, estructura –ej. UMLS: u Organización de las unidades –contenido –operaciones –modelo del documento –lenguajes de representación del texto (formato) »texto simple: ASCII, Unicode,... »texto marcado: SGML, HTML, XML

17 SEPLN,9917 Base de Documentos (2) u Documento: –simple –estructurado: capítulos, secciones, párrafos, oraciones,... u Sublenguajes: –Documentación técnica, terminología, jergas, multilingúismo –Sekine,98 u Documentos semiestructurados –Hearst,98 u Páginas Internet –Amitay,97 u Metadatos: –Título, resumen, listas, hiperenlaces, texto del hiperenlace,...

18 SEPLN,9918 Operaciones sobre los documentos u Preproceso –análisis léxico, estandarización »formas no estándard, fechas, números, siglas, locuciones, lexías,... –lematización »análisis morfológico, consulta a formarios, reglas léxicas/morfol, alg. Porter –filtrado –Stopwords (diccionarios negativos) u Clasificación –manual –automática »clasificación »clustering u Compresión

19 SEPLN,9919 Indexado u indexado manual vs automático u indicadores –objetivos: estructurales –subjetivos: textuales (de contenido) u indexado pre-coordinado vs post-coordinado u términos simples vs términos en contexto Modelo más corriente: Bag of simple words

20 SEPLN,9920 Representación de los documentos u Modelos clásicos –texto completo –booleano –vectorial –probabilístico u Variantes evolucionadas del modelo probabilístico –Bayesiano –Redes de inferencia –Redes de creencia u paradigmas alternativos –Modelo vectorial generalizado –Modelo booleano extendido –Latent Semantic Indexing –Redes neuronales

21 SEPLN,9921 Operaciones de consulta Modelo booleano simple Expresiones booleanas sobre términos que aparecen en el documento o palabras clave. Conectivos: AND, OR, NOT, paréntesis Extensiones: restricciones de distancia (nivel párrafo, nivel frase, adyacencia) ventana fija o variable Modelo booleano extendido: ponderación de términos: frecuencia del término en el documento, en la colección, normalización Expansión de las consultas uso de F.Conocimiento externas (ej. WN) extensión con sinónimos y/o hiperónimos truncado de términos generalización morfológica relevance feedback

22 SEPLN,9922 Medidas de calidad de la recuperación recuperado relevante a b c d recuperados = a + b relevantes = a + d recall (cobertura) = a / (a + d) precisión = a / (a + b) recall = están todos los que son precisión= son todos los que están Cuando el resultado es una ordenación de documentos con un índice de relevancia asociado (ranked) y no un booleano, las medidas pueden ser vectores de precisión a (normalmente) 3, 5, 7, 9, 11 puntos de cobertura (p.ej. a niveles (0.2, 0.5, 0.8) o medias de estos vectores.

23 SEPLN,9923 Modelo booleano t 1 t 2 t 3... t i... t m d d d 3... d j... d n atributos: todos los términos (palabras, lemas, multipalabras,...) que aparecen en la colección (excepto los stopwords) filas: cada documento representado por un vector de booleanos (1 si el término aparece en el documento, 0 en caso contrario). Hay n documentos columnas: cada término representado por un vector de booleanos. Hay m términos no es posible una respuesta ponderada no se tiene en cuenta ni frecuencia ni orden ni importancia de los términos

24 SEPLN,9924 Modelo Vectorial (1) t 1 t 2 t 3... t i... t m d 1 d 2 d 3... d j w ij... d n w ij peso (relevancia) del término j en el documento i Forma más corriente de definir la relevancia tf ij frecuencia del término t j en el documento d i df j # documentos en los que aparece t j idf j log (N / df j ) w ij = tf ij * idf j

25 SEPLN,9925 Modelo Vectorial (2) Otra forma dv j poder discriminador de un término. Si al seleccionarlo disminuye la similitud entre documentos (la densidad) dv j = Q - Q j Q densidad sin seleccionar el término t j N = # documentos Q j densidad seleccionando el término t j relevancia: w ij = tf ij * dv j

26 SEPLN,9926 Modelo Vectorial (3) Otra forma C = centroide de la colección de documentos Q densidad respecto al centroide C El cálculo de la relevancia es idéntico al caso anterior En cualquier caso la consulta se representa también vectorialmente y se seleccionan los documentos más próximos de acuerdo a una distancia

27 SEPLN,9927 Medidas de similitud Medida de similitud Producto escalar Coeficiente de Dice Coseno Coeficiente de Jaccard Modelo booleano Modelo vectorial

28 SEPLN,9928 Relevance Feedback u Etapas –formular la consulta –obtener los documentos más próximos –someterlos al juicio del usuario »relevantes »irrelevantes –expandir la consulta »añadir los términos más relevantes de los documentos calificados de tales –volver a seleccionar

29 SEPLN,9929 Extensiones de la RF u Autorelevance feedback (Blind feedback) –considerar (sin intervención humana) como relevantes los documentos más próximos a la consulta u Uso de información histórica –consultas similares »Keim, Lewis, Madigan, 96 –summarization-based »extracción de términos relevantes a partir de resúmenes (5-10%) »Strzalkowski, Lin, Pérez-Carballo,97 –extraction-based »búsqueda de fragmentos (passages) relevantes

30 SEPLN,9930 Modelos probabilísticos Excelente survey: F. Crestani, M. Lalmas, C.J.Van Rijsbergen, I. Campbell (1998) Dada una consulta q k se debe calcular para cada documento d i la probabilidad de que sea relevante: O irrelevante: Un documento podría devolverse si o bien si la diferencia supera un cierto umbral

31 SEPLN,9931 Modelos probabilísticos binarios (1) Son los más utilizados donde X i toma valores 0 ó 1 dada una consulta q k se puede asumir (es mucho asumir pero ¡qué remedio!) que las componentes del vector X son independientes cuando están condicionadas a R.

32 SEPLN,9932 Modelos probabilísticos binarios (2) Si notamos y somos capaces de estimar (mediante historia o Relevance Feedback) los valores de p i y q i entonces para un documento d j podemos calcular g(d j ) y aceptar el documento cuando supere un umbral

33 SEPLN,9933 Otros modelos u Modelo bayesiano –M. Keim, D.D. Lewis, D. Madigan (1996) u Teoría de la evidencia (Dempster-Shafer) –M.Lalmas, I.Ruthven, M.Theophylactou (1997) u Modelo vectorial generalizado –Yang et al,97 u Latent Semantic Indexing –Dumais et al,97 –Evans et al,98

34 SEPLN,9934 Modelo vectorial generalizado Crítica del modelo vectorial: Asume los términos ortogonales (independientes) cuando es evidente que hay relaciones semánticas de coocurrencia de términos. t 1 t 2 t 3... t i... t m d 1 d 2 d 3... d j... d n VSM: espacio de m dimensiones, la base del espacio son términos, los vestores que representamos son documentos GVSM: (espacio dual). Espacio de n dimensiones. La base del espacio son los documentos, ahora los vectores son términos

35 SEPLN,9935 Latent Semantic Indexing (LSI) t1t1 t2t2 Espacio de m (# términos) dimensiones, en él representamos n (# documentos) puntos (o vectores) doc 1 doc 3 doc 2 Dimension 1 lsi Dimension 2 lsi t1t1 t2t2 doc 1 doc 3 doc 2 LSI: análisis factorial: análisis de componentes principales. Se calculan los valores y vectores propios y se recogen los p valores más significativos. Se crea un espacio de p ( ) dimensiones (con los vectores propios como base) y se proyectan en él términos, documentos y consultas.

36 SEPLN,9936 IR y LN: lecturas generales u T. Strzalkowski,99 u Smeaton, A.(1995) –transparencias de un tutorial u Smeaton, A. (1999) u Lewis, D, Sparck Jones K. (1996) –divulgación más bien crítica u T. Strzalkowski et al, 97,98 –participación en TREC-6 y TREC-7 u Voorhees,99 –transparencias de un tutorial

37 SEPLN,9937 IR y LN u Recursos de LN u Tareas de PLN –Indexado »palabras, raices, lemas, acepciones, multitérminos », frases, … »problemas: u nombres propios u palabras desconocidas u unidades no estándar u polisemia »=> Sólo levemente mejor que usar monotérminos (formas) –Recuperación »expansión de las consultas

38 SEPLN,9938 Indexación con palabras u Palabras para indexar y consultar –variación morfológica –no siempre buenos indicadores del contenido –polisemia –relaciones semánticas entre palabras »sinonimia »hiper/hiponimia u Agrupación de términos –términos multipalabras –dependencia terminológica –colocaciones –clustering

39 SEPLN,9939 Indexación con palabras y categorías u No parece aportar nada u Krowetz,97 –Más de la mitad de los términos de un duccionario que difieren en categoría gramatical tienen algún tipo de relación semántica u Gonzalo et al,99 –La anotación e indexado con categoría gramatical (incluso realizada manualmente) parece demasiado discriminatoria para ser útil para la RI

40 SEPLN,9940 Indexación con acepciones u Problema: etiquetado semántico –inventario de acepciones »diccionario (cuál), WordNet (synset, variant, file), Clusters –algoritmo de desambiguación: WSD u Evaluación –Krowetz,Croft,92 »ambigüedad en la acepción => 2% de degradación –Sanderson,94 »es necesaria una precisión del 90% para que sea útil –Gonzalo et al, 99 » importancia de WSD. Mejora con precisión > 70% –Schultz,Pedersen,95 »7-17% de mejora

41 SEPLN,9941 Indexación con frases (1) u Desambiguación morfosintáctica (pos tagging) u Análisis sintáctico superficial (shallow parsing) u Análisis fragmental (chunkers) u Detección automática de colocaciones (Smadja,93) u Extracción de grupos nominales u Problema de la ambigüedad sintáctica –no tenerla en cuenta –normalizar, ej. CLARIT (CMU) –indexar con árboles de dependencias que capturen la ambigüedad

42 SEPLN,9942 Indexación con frases (2) u Xerox –pares de palabras que coocurren –pares de palabras con dependencia sintáctica »sujeto/verbo, verbo/complemento directo, adjetivo/nombre, … –sólo mejora con contextos grandes u Claritech –extracción de frases nominales, normalización => indexado u GE + Rutgers –stream-based IR –actuación de varios módulos alternativos de indexado (stopwords, lematización, extracción de frases, nombres propios, normalización, …) y ponderación

43 SEPLN,9943 Recuperación: expansión de las consultas u Añadir términos a la consulta basados en la aparición en documentos relevantes y no aparición en documentos irrelevantes –CLARIT, Umass u Uso de tesauros u WordNet u EWN

44 SEPLN,9944 WN en IR u Indexado –discriminación de acepciones –agrupación de palabras relacionadas semánticamente –Sanderson,94 (Glasgow) u Expansión de las consultas –Smeaton 95 »Hierarchical Concept Graphs –Vorhees,94 –Richardson, Smeaton, 95 –Smeaton,Quigley,96 –Gonzalo et al,98 »comparación al indexar por synset, acepción o palabra »mejora a partir de 70% de precisión en WSD

45 SEPLN,9945 CLIR u Cross Language Information Retrieval u Recuperación de documentos de acuerdo a peticiones formuladas por una persona sin tener en cuenta la lengua en que los documentos y las consultas han sido expresadas u Técnicas –Traducir los documentos –Traducir las consultas –Proyectar unos y otras a un espacio de indexado neutral u Limitaciones –Los textos de las consultas son más cortos que los documentos –El contexto (y la fiabilidad) al traducir la consulta es menor –Los errores de traducción son menos graves en los documentos

46 SEPLN,9946 CLIR: lecturas básicas u Grefenstette, G. (1998) u Yang et al,97 u J.Klavans, E.Hovy (1999) u D.W.Oard, B. Dorr (1996) u Oard, D. (1997) u P.Schäuble, P. Sheridan (1998) u Fluhr,95

47 SEPLN,9947 Aproximaciones a CLIR (Oard,97) CLIR Vocabulario Controlado Texto libre Basado en CorpusBasado en Conocimiento Basado en Ontologías Basado en Diccionarios Basado en Tesauros Corpus paralelos Corpus comparables Corpus monolingües Alineación de documentos Alineación de oraciones Alineación de términos

48 SEPLN,9948 Aproximaciones basadas en conocimiento u Uso de diccionarios bilingües –Oard, D. and P. Hackett (1997) usan el sistema LOGOS de TA para traducir documentos y consultas –Ballesteros, L. and Croft, W. (1998) usan y comparan SYSTRAN con T1(Langenscheidt) para traducir las consultas –EMIR (European Multilingual IR), Fluhr,95 u Uso de ontologías –EWN »Peters, C. and Picchi, E. (1997) »Gonzalo, J., F. Verdejo, C. Peters and N. Calzolari (1998)

49 SEPLN,9949 Aproximaciones basadas en corpus u Corpus paralelos –alineados a nivel de documento »Dumais et al,97 »Yang et al,97 –alineados a nivel de oración »Davis, M. and Ogden, W. (1997) –alineados a nivel de término »D.W.Oard, B. Dorr (1996) u Corpus comparables »P.Schäuble, P. Sheridan (1998) »Peters, C. and Picchi, E. (1997) u Corpus no alineados (monolingües) »Ballesteros, L. and Croft, W. (1998)

50 SEPLN,9950 Ejemplo: Davis,Odgen,97 u Usa un diccionario biligüe y un corpus (UN) bilingüe español/inglés u Las consultas en español son desambiguadas u Se expanden las consultas con la traducción de los términos categorizados usando el bilingüe u Si existe ambigüedad se realiza una desambiguación usando el corpus bilingüe –consulta en español => 30 documentos más significativos en la parte española del corpus –se extraen los 5000 términos ingleses más significativos (Rochio) de la traducción de los 30 documentos –en caso de ambigüedad se utiliza el término inglés mejor clasificado entre los 5000

51 SEPLN,9951 Ejemplo: Gonzalo et al,98 u Indexado de los documentos en términos de ILIs u Documento: vector ponderado de ILIs u indexado: –dependiente de la lengua »tagging »identificación de términos: lematización, multipalabras »WSD »proyección sobre elILI –independiente de la lengua »ponderación (cálculo de la relevancia) u consulta –expresión vectorial de la consulta –uso del coseno como métrica –medida de distancia semántica (no simple emparejamiento)

52 SEPLN,9952 Futuro del LN en IR u Interacción basada en el significado (búsqueda conceptual) u Respuesta a preguntas concretas no búsqueda de documentos u Resumen automático como respuesta a las consultas u Integración de información u Consultas altamente descriptivas, precisas y elaboradas u Multilingüismo: CLIR !!!

53 SEPLN,9953 Extracción de la Información Localizar las porciones de un texto dado que contengan información relevante para las necesidades de un usuario y proporcionar dicha información de forma adecuada a su proceso (manual o automático) El criterio de relevancia viene indicado por modelos predefinidos (normalmente mediante modelos Objeto/Atributo/Relación)

54 SEPLN,9954 Sistemas de Extracción de Información Típicamente un SEI extrae informaciones sobre entidades, relaciones y eventos a partir de documentos en un dominio restringid o El color blanco de su sombrero pasa a amarillo crema al corte. El sombrero ennegrece si se corta. Ejemplo: dominio micológico (M-Turbio) Sombrero_1 color: Sombrero_2 color: virar_1 inicio: final: causa: corte virar_2 inicio: indef final: causa: corte color_1 base: blanco tono: indef luz: indef color_3 base: indef tono: negro luz: indef color_2 base: amarillo tono: crema luz: indef

55 SEPLN,9955 Ejemplo (MUC-6) A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb -allegedly detonated by urban guerrilla commandos- blew up a power tower in the northwestern part of San Salvador at Incident type:bombing date:March 19 Location:El Salvador: San Salvador (city) Perpetrator:urban guerrilla commandos Physical target:power tower Human target:- Effect on physical target:destroyed Effect on human target:no injury or death Instrument:bomb

56 SEPLN,9956 Lecturas básicas EI u Pazienza, M.T. (1997) –R.Yangarber, R.Grishman –R.Grishman –Y.Wilks u E. Hovy (1999) u J.Cowie, W.Lehnert (1996) u C.Cardie (1997) u R.J.Mooney, C.Cardie (1999) u Atserias et al,98 u Turmo et al,98

57 SEPLN,9957 Historia EI u Precedentes –Sager 81: LSP –deJong 82: FRUMP=> ATRANS (93) –Cowie 81 –Zarri 83 –Hayes 86: JASPER u Conferencias MUC (87-99) u Proyectos LRE –TREE, AVENTINUS, FACILE, ECRAN, SPARKLE

58 SEPLN,9958 Aplicaciones u Extracción de información de la Web u Construcción de BD de noticias u Integración de información u Dominios: médico, finanzas, militar,... Limitaciones: inútil si la precisión < 90% alto coste de transporte y adaptación

59 SEPLN,9959 Conferencias MUC u MUCK-1 (1987), MUCK-2(1989) –operaciones navales u MUC-3 (1991), MUC-4 (1992) –terrorismo en Latinoamérica –estructura de salida con 18 atributos –cobertura y precisión u MUC-5 (1993) –noticias financieras, microelectrónica –inglés, japonés u MUC-6 (1995), MUC-7 (1998) –Entidades propias, entidades estructuradas, correferencias, eventos

60 SEPLN,9960 Componentes de un SEI (Cowie,Lehnert,96) u Nivel texto –filtrado => relevancia u Nivel palabra –pos tagging u Nivel frase –chunks, sintagmas, categorización semántica u Nivel oración –relaciones sintácticas u Nivel interoracional –correferencia u Nivel esquema –proyección sobre el formato (prescrito) de salida

61 SEPLN,9961 Arquitectura de un SEI u Hobbs: –Cascada de transductores (o módulos) que a cada paso añaden estructura y a menudo eliminan información irrelevante aplicando reglas que son adquiridas manual o automáticamente

62 SEPLN,9962 Arquitectura de un SEI (ej. Proteus) Análisis Léxico Reconocimiento de Entidades Análisis sintáctico parcial Patrones de extracción Resolución de la referencia Análisis del discurso Generación de la salida Lexicon Jerarquía conceptual Base de Patrones Formato de salida

63 SEPLN,9963 Características de los SEI (1) u Importancia de la Ingeniería del Conocimiento –Modularidad »Tareas básicas »Tareas específicas u Uso de conocimiento débil y local u Recursos de LN –MRDs, Ontologías, Lexicones, Corpus, … u Importancia de la transportabilidad y afinado (tuning) u Técnicas empíricas –Aprendizaje automático (ML) Mooney,Cardie,99 u Salida: texto marcado o bases de datos

64 SEPLN,9964 Características de los SEI (2) u Fuerte dependencia del dominio (Cardie,97) u Estructura prescrita (Wilks,97, Grishman,97) u Semántica vs. Sintaxis u Análisis sintáctico superficial, parcial i global u Análisis del discurso u Arquitectura en cascada –Técnicas de estados finitos u Estructura del texto –metainformación –sublenguajes »género »dominio

65 SEPLN,9965 Relaciones con otras disciplinas u IE & IR –a veces IR precede a IE u Resumen automático –McKeown et al,99, Barzilay et al,99, Mittal et al,99, Hatzivassiloglou et al,99 u Minería de datos textuales –M.A.Hearst (1999) u Integración de información –M.A.Hearst (1998), Kushmerick (1997) u Clasificación de documentos –Yang,97

66 SEPLN,9966 Análisis léxico u (a veces) Identificación de la lengua u División del texto en unidades (tokens) u Consulta a diccionarios –ej. PROTEUS (NYU) »Comlex, Nombres propios (personas, geográficos, empresas),... u Procesadores específicos –fechas, cantidades, siglas, locuciones, términos multipalabras,... u Reconocedores de nombres propios (Named Entities) –Lexicones especializados –patrones (expresiones regulares) u Palabras desconocidas

67 SEPLN,9967 Desambiguación morfosintáctica (pos tagging) u Sistemas –basados en reglas –estadísticos –híbridos u tagset u calidad de la desambiguación: –por encima del 97%

68 SEPLN,9968 Análisis sintáctico u Global –aproximación estándar: LaSIE, LOLITA »ineficiencia, limitaciones de las gramáticas, tamaño de las gramáticas –aproximación en cascada: Pinocchio, Alembic »se solucionan algunos de los problemas anteriores u Parcial –Fastus => Proteus, PLUM, PIE, Umass, HASTEN, TURBIO, ESSENCE »ausencia de dependencias globales. »uso de metarreglas para precompilar patrones

69 SEPLN,9969 Ejemplo PROTEUS u Grupos nominales y verbales no recursivos (chunks) u Grupos nominales más amplios sólo si existe evidencia semántica u uso de metarreglas (similares a las de GPSG) para ampliar la cobertura sintáctica

70 SEPLN,9970 Semántica u Normalmente sólo a nivel léxico u A veces WSD u Representación semántica explícita a niveles más complejos de proceso sintáctico –Alembic (MITRE) => forma lógica proposicional »M.Vilain (1999) –Pinocchio => quasi logical form »F.Ciravegna, A.Lavelli (1999)

71 SEPLN,9971 Patrones de extracción u Normalmente las reglas de extracción constan de –un patrón que debe aplicarse sobre la estructura (texto marcado, bosque de análisis, formas lógicas) que se ha obtenido de los procesos previos para intentar el matching –una o varias acciones a realizar »creación de ejemplares de objetos »relleno de atributos »establecimiento de relaciones u Normalmente creados manualmente u Uso limitado (pero creciente) de técnicas de ML –como ligar los esquemas (templates) con su expresión en LN

72 SEPLN,9972 Tipos de patrones u 3 niveles –bajo nivel: gran aplicabilidad (normalmente incluidos en el sistema) –intermedio: librerías de patrones (aplicables a diferentes dominios) »ej. extractores de entidades (persona, empresa, lugar, organización) »extractores de relaciones (persona/oranización, organización/lugar) –específicos del dominio

73 SEPLN,9973 Ejemplo (PROTEUS) np(C-organization) sa vg(C-appoint) sa np(C-person) sa as np(C-position) IBM yesterday appointed Fred Smith as president

74 SEPLN,9974 Proceso discursivo u Resolución de expresiones referenciales –anáforas –referencias definidas u Inferencias u Integración (merging) de la información

75 SEPLN,9975 Sistemas Notables (1) u FASTUS –SRI (Appelt, Hobbs,...) u PROTEUS –NYU (Grishman,Sekine,...) u CIRCUS –U. Mass (Lehnert, Cardie, Riloff,...) –AutoSlog, Badger, Marmot u CRYSTAL –U. Mass (Soderland, Lehnert, Fisher,...) u LsSIE –U. Sheffield (Wilks, Cunningham, Gaizauskas,...) –GATE

76 SEPLN,9976 Sistemas Notables (2) u Pinocchio –ITC-IRST (Trento) (Ciravegna, Lavelli,...) –FACILE u TREVI –Tor Vergata (Roma) Basili,... u Alembic –MITRE (Vilain,...) u HASTEN –SRA (Krupka,...) u PALKA (Kim,Moldovan), LIEP (Huffman), PLUM (Weischedel), TIMES(Chai, Biermann,...), ESSENCE (Català), TURBIO(Turmo)

77 SEPLN,9977 Portabilidad (1) u Es una cualidad fundmental dada la gran dependencia del dominio de la EI u Normalmente se deben afinar o crear de nuevo los resursos: –Lexicones »Background vs. Foreground (Kilgarriff) –Ontologías –Base de patrones –estructura de salida (templetas)

78 SEPLN,9978 Portabilidad (2) u Forma de llevar a cabo el afinado –automáticmente –manualmente –semi-automáticamente u La mayor dificultad (y la tarea que tiene un coste mayor) reside en la (re)construcción de la base de patrones. Por ello es aquí donde se han aplicado más esfuerzos en intentar automatizar la tarea

79 SEPLN,9979 Portabilidad (3) u Afinado (tuning) de lexicones y ontologías –dos aproximaciones (Wilks,99) »Lexicón antiguo + corpus del (nuevo) dominio => lexicón nuevo »corpus del (nuevo) dominio => lexicón nuevo –elementos a modificar »palabras »acepciones »preferencias verbales (posibles alternancias de diátesis, régimen proposicional, restricciones selectivas,...) u Proceso –manual (el más corriente) con editores especilizados –automático: E. Riloff & R. Jones (1999)

80 SEPLN,9980 Portabilidad (4) u Creación o afinado de la base de patrones –Uso de herramientas interactivas para la adquisición manual »NYU Interactive tool u C.Nobata, S.Sekine (1998) u R.Yangarber, R.Grishman (1997) »El usuario proporciona un ejemplo (o lo extrae del corpus) »El usuario codifica la información a extraer a partir del ejemplo »El sistema utiliza la base actual de patrones para crear una descomposición estructural del ejemplo »Usuario y sistema interaccionan para extender y/o generalizar sintácticamente (metarreglas) y semánticamente (jerarquía conceptual) el o los patrones implicados –Uso de técnicas de ML

81 SEPLN,9981 Uso de técnicas de Aprendizaje Automático (ML) u Utilización creciente de ML basado en la explotación de corpus para: –Construcción de patrones de extracción –Otras tareas de bajo nivel »pos tagging »límites de las oraciones »chunking »dependencias sintácticas entre unidades »correferencias –Tareas afines o complementarias »resumen automático »clasificación de textos u Mooney,Cardie 1999, C.Cardie (1997)

82 SEPLN,9982 ML(1) u Simbólico (la mayoría) vs Subsimbólico –Árboles de decisión –Inducción de reglas »FOIL (Quinlan), RIPPER, FLIPPER (Cohen) –Instance-based, Memory-based, Case-based u Supervisado (la mayoría) vs No supervisado u Integración de modelos múltiples –Bagging –Boosting u Recursos de ML: »http://www.ai.univie.ac.at/oefai/ml/ml-resources.html

83 SEPLN,9983 ML(2) : Construcción de patrones de extracción u UMass en MUC-3 (Lehnert et al,91) u AutoSlog en MUC-4 (Riloff,96) u AutoSlog-TS (Riloff,Shoen,95) u CRYSTAL (Soderland et al,95) u HASTEN en MUC-6 (Krupka,95) u PALKA (Kim,Moldovan,95) u LIEP (Huffman,96) u RAPIER (Califf,Mooney,97) u WHISK (Soderland,99) u SRV (Freitag,98a,b)

84 SEPLN,9984 ejemplos (1) AutoSlog (Riloff,96) Sistema guiado por una serie de reglas lingüísticas independientes del dominio extracción de Concept Nodes Witnesses confirm that the twister occurred without warning at approximtely 7:15 p.m and destroyed two mobile homes concept = damage trigger = destroyed position = direct-object constraints = ((physical-object)) enabling Conditions = ((active-voice)) damage = two mobile homes

85 SEPLN,9985 ejemplos (2) proceso: 1) generar el corpus de aprendizaje apropiado (información etiquetada con etiquetas semánticas) 2) identificar roles sintácticos de las partes etiquetadas 3) identificar las palabras activadoras (trigger words) 4) proceso de aprendizaje guiado por un paquete de heurísticas que actúan sobre las palabras activadoras y su contexto inmediato AutoSlog-TS prescinde de la supervisión. La intervención humana se limita a clasificar de relevante o irrelevante el texto que se incorpora al proceso de aprendizaje

86 SEPLN,9986 ejemplos (3) CRYSTAL (Soderland et al,95) Utiliza técnicas de formación de conceptos (Concpt Induction Learning Michalski). Dominio médico (utiliza la jerarquía semántica de UMLS). Usa corpus anotado para el aprendizaje (analizado sintácticamente). Generaliza a partir de contextos lingüísticos especificados con gran detalle. Aproximación ascendente. Se relajan gradualmente las restricciones sobre la definición inicial (máxima especificidad) de forma que se amplía la cobertura incorporando los conceptos más similares (integrando sus definiciones) para lograr un diccionario más compacto

87 SEPLN,9987 ejemplos (4) WHISK (Soderland,99) Aprendizaje de patrones expresados como expresiones regulares de forma que es posible la extracción simultánea de varios descriptores Inducción de reglas Inducción descendente iniciada por un ejemplo específico Uso de clases semánticas dependientes del dominio para clasificar las palabras Aplicación a: texto libre texto marcado HTML texto previamente analizado sintácticamente

88 SEPLN,9988 ejemplos (5) RAPIER (Califf,Mooney,97) Robust Automated Production of Information Extraction Rules Aprendizaje de patrones expresados como expresiones regulares pre-filler pattern filler pattern post-filler pattern Algoritmo ILP que actúa sobre el texto asignado a cada descriptor y su contexto (ilimitado) inmediato. Utiliza el texto con etiquetado morfosintáctico desambiguado (tagger de Brill) Utiliza WordNet

89 SEPLN,9989 ejemplos (6) ejemplo de RAPIER... sold to the bank for an undisclosed amount paid Honeywell an undisclosed price... Pre-fillerFillerPost-filler 1) POS: {nn,nnp}1) undisclosed 1) Sem: price 2) List: maxlength 2 POS: jj

90 SEPLN,9990 ejemplos (7) SRV (Freitag,98ab) Aprendizaje relacional (derivado de FOIL) Rasgos simples (atributos) y relacionales Relaciones sintácticas: Link Grammar Relaciones semánticas: WordNet Aplicado (entre otros) a la clasificación de páginas Web En Freitag,98b se combinan tres estrategias de aprendizaje

91 SEPLN,9991 ejemplos (8) TIMES (Chai,Biermann,Guinn,99) Trainable InforMation Extraction System. A partir de un ejemplo proporcionado por el usuario el sistema propone en forma automática un serie de posibles generalizaciones. Cuando las modificaciones de las reglas propuestas tienen éxito, el sistema las incorpora a su base de reglas generalización sintáctica generalización semántica WordNet combinación permutación

92 SEPLN,9992 ejemplos (9) (Riloff,Jones,99) Mutual Bootstrapping. Aprendizaje simultáneo de un lexicón semántico (dominio) y de la base de patrones (escenario). Utiliza un corpus no anotado. Para cada clase semántica se define (manualmente) un conjunto inicial de palabras (seed words). Ampliación: Multi-Level Bootstrapping. patrón ejemplos nuevos patrones

93 SEPLN,9993 ejemplos (10) Algoritmo de Mutual Bootstrapping (Riloff,Jones,99) Generar a partir del corpus de aprendizaje (con AutoSlog) los patrones candidatos Aplicar los patrones al corpus de aprendizaje, patrones, ejemplares => EPdata {seed words} => SemLex {} => Cat_EPlist iterar: Valorar (métrica RlogF) todos los patrones en EPdata best_EP = patrón mejor valorado de los no presentes en Cat_EPlist añadir best_EP a Cat_EPlist añadir los ejemplares de best_EP a SemLex

94 SEPLN,9994 Futuro del LN en IE u Tratamiento de fenómenos lingüísticos no locales u Modelización de la semántica del dominio (más allá del modelo de templetas) u Mejoras en los métodos de aprendizaje –Conocimiento de base –criterios de selección de rasgos u Multilingualidad u Integración de información u Adaptabilidad –descubrimiento de información (modelo no prescrito) u Transportabilidad

95 SEPLN,9995 Direcciones útiles de Internet TREChttp://trec.nist.gov/ UMLS SIGIRhttp://www.acm.org/sigir/ Univ. Glasgowhttp://www.dcs.gla.ac.uk/idom/ir_resources/ MLhttp://www.ai.univie.ac.at/oefai/ml/ml-resources.html Curso IR UNEDhttp://rayuela.ieec.uned.es/~ircourse/ MUC Proyecto ITEMhttp://sensei.ieec.uned.es/item/ Grupo LSI-UPChttp://www.lsi.upc.es/~acquilex/nlrg.html


Descargar ppt "SEPLN,991 SEPLN 99 Tutorial Horacio Rodríguez UPC Extracción y Recuperación de Información."

Presentaciones similares


Anuncios Google