Algoritms that learn to Extract Information BBN: Description of the SIFT System as used for MUC-7 (Scot Miller et al.)

Slides:



Advertisements
Presentaciones similares
ÁRBOLES DE SINTAXIS ÁRBOL grafo dirigido acíclico.
Advertisements

DIDÁCTICA DE E/LE Vocabulario.
TEXTO Y DISCURSO.
Aplicaciones de Data Mining en ciencia y tecnología Ontologias. 2
Sistemas de Razonamiento Lógico
PROGRAMACION DE ESTRUCTURAS DE DATOS
DIAGRAMAS DE CLASES Completando los diagramas de interacción, es posible identificar la especificación de las clases que participarán en la solución indicando.
Tema: Funciones en Excel (II) Funciones de Texto
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
Teoría de lenguajes y compiladores
CAPITULO 2 La Representación del Conocimiento
Modelo entidad relación
Tests de permutaciones y tests de aleatorización
La estructura de la oración Sintaxix Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto.
BASE DE DATOS I. Tipos de Bases de Datos  Base de Datos de Red Colección de registros los cuales están conectados entre si por medio de enlaces. “Un.
David G. Lowe Distinctive Image Features from Scale-Invariant Keypoints Aradí Rosales Cruz Visión de alto nivel Enrique Sucar.
BLOQUE II: APRENDAMOS A JUGAR EN EQUIPO
Algoritmos Bayesianos Karina Figueroa. Preliminares Aprendizaje ◦ cuál es la mejor hipótesis (más probable) dados los dato? Red Bayesiana (RB) ◦ Red de.
Análisis Sintáctico (Parsing)
ANALISIS DE DATOS CON EXCEL
Probabilidad y prueba de significancia de Chi-Cuadrado (X²)
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Bases de Datos Modelamiento.
Mt. Martín Moreyra Navarrete.
Sesión 6: Campos de Markov
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
EXPERIMENTACIÓN NUMÉRICA
Licenciatura en Contaduría Tema: Medidas de Tendencia Central
Autor Souza Minayo Texto “El desafío del conocimiento”
Estructura de Control Repeticiones(Loops) Ejercicios
Estadística La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos,
Clasificación Guía Ramírez Sandra Paola.
Aprendizaje en Árboles de Decisión
Clase 4a Significancia Estadística y Prueba Z
PLN chunking1 Análisis superficial y fragmental Introducción Chunking.
GPLSI Armando Suárez Definición de la tarea EI Fundamentos Aplicación Enfoque del Trabajo Conclusiones Documentación Extracción de Información.
REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL SIMÓN RODRÍGUEZ COORDINACIÓN DE DESARROLLO PROFESORAL NÚCLEO BOLÍVAR FACILITADOR:
Capítulo 1. Conceptos básicos de la Estadística
Introducción a XML por Joel Candia C Universidad Técnica Federico Santa María Departamento de Electrónica ELO-330 Programación de Sistemas.

Indexación M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
Bases de Datos.
UNIVERSIDAD LATINA BASES DE DATOS DISEÑO DE BASES DE DATOS (modelos para el diseño)
Tagging POS Tagging Taggers basados en reglas Taggers estadísticos
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Reconocimiento de caras usando Histogramas de Gradientes Orientados
I NGENIERÍA DE S OFTWARE L ABORATORIO VI Diseño - Diagrama de clases Eduardo Saavedra A. 07/10/2009.
Modelos ocultos de Markov (HMM)
 Com:  Edu: sigla utilizada para los portales o paginas web de educación, denominados dominios  Org: sigla utilizada para definir el dominio de la.
Estimación y contraste de hipótesis
Puncochar and Fox Confidence in Individual and Group Decision Making: When “Two Heads” Are Worse Than One Alumnos: Federico Blanco, Gabriel Valladares.
COSTOS PARA LA TOMA DE DECISIONES
C ONCEPTOS GENERALES DE LA LINGÜÍSTICA COMPUTACIONAL Ana María Tangarife Patiño.
MEDIDAS DE TENDENCIA CENTRAL
Aplicación JAVA implementando Arboles de Decisión

INTRODUCCIÓN A SPSS Statistic Package for Social Sciencies.
Matemáticas Discretas MISTI
AYUDANTÍA DE SIMULACIÓN
ESTADÍSTICA DESCRIPTIVA
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Diagramas de máquina de estado
ESTRUCTURAS DE DATOS “Conceptualización de estructuras de datos” Por: Eduardo Robayo.
Selección y / o Diagnóstico Oliva Rosales Nancy Jácome Luis Zamora, Ragueb Chain, Juan Carlos Ortega.
CODIFICACION DE HUFFMAN
Estimación Estadística Tares # 3. Estimación Estadística Conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Viviana Acosta Estadística II. Que es Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida.
MUESTREO: DISEÑO Y PROCEDIMIENTOS
Transcripción de la presentación:

Algoritms that learn to Extract Information BBN: Description of the SIFT System as used for MUC-7 (Scot Miller et al.)

Extracción y Categorización de Información PLN - InCo2 BBN Sistema para extracción de información NE: Named Entity Recognition TE: Template Element Construction TR: Template Relation Construction Basado en modelos puramente estadísticos, entrenados en corpus anotados

Extracción y Categorización de Información PLN - InCo3 Statistics for Information from Text (SIFT) Mapeo de palabras a estructuras semánticas Proceso estadístico unificado POS tagging Búsqueda de entidades con nombre Análisis Sintáctico Búsqueda de relaciones Dos niveles Nivel de Oración Nivel inter-oración (?)

Extracción y Categorización de Información PLN - InCo4 Statistics for Information from Text (SIFT) Fuentes para el entrenamiento PennTreeBank (marcado con anotaciones sintácticas) Texto anotado con informaciones de dominio (entidades con nombre, descriptores, relaciones semánticas) Extracción: a partir de un texto, se identifican nombres y descriptores de entidades relevantes, y sus relaciones (modelo a nivel de oración) Posprocesamiento para obtener los templates (modelo inter-oraciones)

Extracción y Categorización de Información PLN - InCo5 SIFT: Modelo a nivel de oración Programa de búsqueda Modelo Estadístico Programa de Entrenamiento anotaciones sintácticas decodificación interpretaciones sintáctico/semánticas entrenamiento anotaciones semánticas oraciones

Extracción y Categorización de Información PLN - InCo6 SIFT: Modelo a nivel de oración Anotaciones semánticas Nance, who is also a paid consultant to ABC News, said employee relation organization person - descriptor coreference

Extracción y Categorización de Información PLN - InCo7 SIFT: Modelo a nivel de oración El algoritmo de entrenamiento requiere relaciones semánticas definidas sobre la estructura de la oración: se necesitan árboles de análisis sintáctico anotados (!) Anotar el PennTreebank a mano? No. 1. Entrenar el modelo sobre los árboles sintácticos del corpus 2. Aumentar el arbol sintáctico con anotaciones semánticas Aplicar el modelo para analizar sintácticamente (permitiendo sólo análisis consistentes con las anotaciones semánticas) Aumentar el árbol 3. Reentrenar el modelo con el resultado

Extracción y Categorización de Información PLN - InCo8 SIFT: Modelo a nivel de oración 1. Entrenar el modelo sobre los árboles sintácticos del corpus Constraints: Al hacer el análisis, las entidades con nombre y sus descriptores no pueden subdividirse Cuando hay coreferencia entre entidades que aparecen juntas o separadas por una coma, estas entidades sólo pueden separarse en el análisis si de otra forma no hay parsing posible

Extracción y Categorización de Información PLN - InCo9 SIFT: Modelo a nivel de oración 2. Aumentar el arbol sintáctico con anotaciones semánticas Insertar nodos al árbol para distinguir nombres y descriptores no identificados en el parsing. Agregar etiquetas semánticas a nodos que correspondan a entidades con nombres o descriptores Agregar etiquetas semánticas para identificar relaciones entre nodos tales que uno no es modificador sintáctico del otro Insertar nodos en el árbol sintáctico para distinguir los argumentos de cada relación Insertar etiquetas puntero para asociar entidades con relaciones, cuando las entidades no son descendientes en el arbol de la relación

Extracción y Categorización de Información PLN - InCo10 Ejemplo s np vp sbar vp np pp np whnp advp np np nnp, whp vbz rb det vbn nn to nnp nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo11 Ejemplo s np vp sbar vp per-desc-r/np pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo12 Ejemplo s per/np vp sbar vp per-desc-r/np pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo13 Ejemplo s per/np vp per-desc-of/sbar-lnk sbar vp per-desc-r/np emp-of/pp-lnk pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo14 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo15 SIFT: Modelo a nivel de oración 3.Reentrenar el modelo con el resultado

Extracción y Categorización de Información PLN - InCo16 SIFT: Modelo a nivel de oración Modelo Estadístico Los árboles de análisis se generan eligiendo cada nodo a partir de una distribución estadística Se genera primero el head Se generan luego los modificadores Se generan las heads de cada modificador, con sus etiquetas POS y sus características semánticas El proceso se repite hasta generar el árbol

Extracción y Categorización de Información PLN - InCo17 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo18 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo19 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo20 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo21 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo22 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

Extracción y Categorización de Información PLN - InCo23 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, Nance, who is also a paid consultant to ABC News,

Extracción y Categorización de Información PLN - InCo24 SIFT: Modelo a nivel de oración Estructura de Probabilidades Cada categoría se predice basada en los elementos ya generados. Ej: P(t m |c m,c hp,c m-1,w p ) P(per/nnp|per/np,vbd,said) En general P(tree)=Productoria(P(e|h)), con e en tree

Extracción y Categorización de Información PLN - InCo25 SIFT: Modelo a nivel de oración Entrenamiento del Modelo Las estimaciones de probabilidades se realizan observando las frencuencias en el corpus de entrenamiento. Como los datos son demasiado escasos, estas probabilidades se suavizan utilizando estimadores de menor nivel. Por ejemplo, para los modificadores P’(c m |c p,c hp,c m-1,w p ) = 1 P(c m |c p,c hp,c m-1,w p ) + 2 P(c m |c p,c hp,c m-1 )

Extracción y Categorización de Información PLN - InCo26 SIFT: Modelo a nivel de oración Búsqueda en el modelo Dada una oración a analizar, el programa busca la interpretación sintáctico/semántica más probable (el árbol aumentado más probable). La salida de este proceso es una estructura de árbol que codifica tanto la estructura sintáctica como la semántica de la oración, por lo que las entidades y relaciones pueden extraerse directamente de este árbol

Extracción y Categorización de Información PLN - InCo27 SIFT: Modelo inter-oración Este modelo utiliza información estructural y contextual para identificar relaciones entre elementos no mencionados en la oración. Busca el 10-20% de las relaciones Considera parejas de entidades en un mensaje que podrían estar relacionadas. Estima la probabilidad de que estén relacionadas y de que no lo estén, basado en ciertas características. Si la relación entre ambas es mayor a 1, descubre una relación

Extracción y Categorización de Información PLN - InCo28 SIFT: Modelo inter-oración Características consideradas Características estructurales Distancia: las entidades aparecen en la misma oración, en oraciones adyacentes, o en oraciones más remotas Topic Sentence: una de las entidades de la relación aparece en la primera oración del texto Características de contenido Las entidades ya aparecieron relacionadas en el entrenamiento Una entidad que comparte un descriptor con el primer argumento, estuvo relacionada en el entrenamiento con otra que comparte un descriptor con el segundo (Ej: General/Army) Uno de los argumentos estuvo relacionado con una entidad que no comparte un descriptor con la segunda (Ej: empleado/IMM)

Extracción y Categorización de Información PLN - InCo29 SIFT: Resultados Template Extraction: precision: 84% recall: 83% F: 83.49% Relation Extraction precision: 81% recall: 64% F: 71.23%

Extracción y Categorización de Información PLN - InCo30 IDENTIFINDER Sistema para extraer entidades con nombre Basado en HMM PERSON ORG NOT-A-NAME start end

Extracción y Categorización de Información PLN - InCo31 IDENTIFINDER Utiliza un modelo estadístico basado en bigramas Utiliza el algoritmo Viterbi para buscar, entre todas las asignaciones nombre/clase, la que maximiza la probabilidad conjunta de palabras/características/clases

Extracción y Categorización de Información PLN - InCo32 IDENTIFINDER Interesante: cada clase tiene sus probabilidades. Las clases tienen ciertos comportamientos estereotípicos respecto a las palabras y como aparecen (ej: los montos incluyen una moneda) Algunas palabras sugieren límites y clases de expresiones (ej: Sr. en general indica comienzo de un nombre)

Extracción y Categorización de Información PLN - InCo33 Resultados F: Otras pruebas: Sin mayúsculas 87.6% Speech Normalized Orthographic Representation 85.5% Efecto del tamaño del corpus de entrenamiento a – 92.5% a 94% al doble - 94% a 95%

Extracción y Categorización de Información PLN - InCo34 Conclusiones NE: 89% R 92% P 90.44% F TE: 83% R 84% P 83.49% F TR: 64% R 81% P 71.23% F Parece que anduvo bien... Parece que no les llevó demasiado tiempo...