La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Algoritms that learn to Extract Information BBN: Description of the SIFT System as used for MUC-7 (Scot Miller et al.)

Presentaciones similares


Presentación del tema: "Algoritms that learn to Extract Information BBN: Description of the SIFT System as used for MUC-7 (Scot Miller et al.)"— Transcripción de la presentación:

1 Algoritms that learn to Extract Information BBN: Description of the SIFT System as used for MUC-7 (Scot Miller et al.)

2 Extracción y Categorización de Información - 2004 - PLN - InCo2 BBN Sistema para extracción de información NE: Named Entity Recognition TE: Template Element Construction TR: Template Relation Construction Basado en modelos puramente estadísticos, entrenados en corpus anotados

3 Extracción y Categorización de Información - 2004 - PLN - InCo3 Statistics for Information from Text (SIFT) Mapeo de palabras a estructuras semánticas Proceso estadístico unificado POS tagging Búsqueda de entidades con nombre Análisis Sintáctico Búsqueda de relaciones Dos niveles Nivel de Oración Nivel inter-oración (?)

4 Extracción y Categorización de Información - 2004 - PLN - InCo4 Statistics for Information from Text (SIFT) Fuentes para el entrenamiento PennTreeBank (marcado con anotaciones sintácticas) Texto anotado con informaciones de dominio (entidades con nombre, descriptores, relaciones semánticas) Extracción: a partir de un texto, se identifican nombres y descriptores de entidades relevantes, y sus relaciones (modelo a nivel de oración) Posprocesamiento para obtener los templates (modelo inter-oraciones)

5 Extracción y Categorización de Información - 2004 - PLN - InCo5 SIFT: Modelo a nivel de oración Programa de búsqueda Modelo Estadístico Programa de Entrenamiento anotaciones sintácticas decodificación interpretaciones sintáctico/semánticas entrenamiento anotaciones semánticas oraciones

6 Extracción y Categorización de Información - 2004 - PLN - InCo6 SIFT: Modelo a nivel de oración Anotaciones semánticas Nance, who is also a paid consultant to ABC News, said employee relation organization person - descriptor coreference

7 Extracción y Categorización de Información - 2004 - PLN - InCo7 SIFT: Modelo a nivel de oración El algoritmo de entrenamiento requiere relaciones semánticas definidas sobre la estructura de la oración: se necesitan árboles de análisis sintáctico anotados (!) Anotar el PennTreebank a mano? No. 1. Entrenar el modelo sobre los árboles sintácticos del corpus 2. Aumentar el arbol sintáctico con anotaciones semánticas Aplicar el modelo para analizar sintácticamente (permitiendo sólo análisis consistentes con las anotaciones semánticas) Aumentar el árbol 3. Reentrenar el modelo con el resultado

8 Extracción y Categorización de Información - 2004 - PLN - InCo8 SIFT: Modelo a nivel de oración 1. Entrenar el modelo sobre los árboles sintácticos del corpus Constraints: Al hacer el análisis, las entidades con nombre y sus descriptores no pueden subdividirse Cuando hay coreferencia entre entidades que aparecen juntas o separadas por una coma, estas entidades sólo pueden separarse en el análisis si de otra forma no hay parsing posible

9 Extracción y Categorización de Información - 2004 - PLN - InCo9 SIFT: Modelo a nivel de oración 2. Aumentar el arbol sintáctico con anotaciones semánticas Insertar nodos al árbol para distinguir nombres y descriptores no identificados en el parsing. Agregar etiquetas semánticas a nodos que correspondan a entidades con nombres o descriptores Agregar etiquetas semánticas para identificar relaciones entre nodos tales que uno no es modificador sintáctico del otro Insertar nodos en el árbol sintáctico para distinguir los argumentos de cada relación Insertar etiquetas puntero para asociar entidades con relaciones, cuando las entidades no son descendientes en el arbol de la relación

10 Extracción y Categorización de Información - 2004 - PLN - InCo10 Ejemplo s np vp sbar vp np pp np whnp advp np np nnp, whp vbz rb det vbn nn to nnp nnp, vbd Nance, who is also a paid consultant to ABC News, said

11 Extracción y Categorización de Información - 2004 - PLN - InCo11 Ejemplo s np vp sbar vp per-desc-r/np pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

12 Extracción y Categorización de Información - 2004 - PLN - InCo12 Ejemplo s per/np vp sbar vp per-desc-r/np pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

13 Extracción y Categorización de Información - 2004 - PLN - InCo13 Ejemplo s per/np vp per-desc-of/sbar-lnk sbar vp per-desc-r/np emp-of/pp-lnk pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

14 Extracción y Categorización de Información - 2004 - PLN - InCo14 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

15 Extracción y Categorización de Información - 2004 - PLN - InCo15 SIFT: Modelo a nivel de oración 3.Reentrenar el modelo con el resultado

16 Extracción y Categorización de Información - 2004 - PLN - InCo16 SIFT: Modelo a nivel de oración Modelo Estadístico Los árboles de análisis se generan eligiendo cada nodo a partir de una distribución estadística Se genera primero el head Se generan luego los modificadores Se generan las heads de cada modificador, con sus etiquetas POS y sus características semánticas El proceso se repite hasta generar el árbol

17 Extracción y Categorización de Información - 2004 - PLN - InCo17 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

18 Extracción y Categorización de Información - 2004 - PLN - InCo18 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

19 Extracción y Categorización de Información - 2004 - PLN - InCo19 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

20 Extracción y Categorización de Información - 2004 - PLN - InCo20 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

21 Extracción y Categorización de Información - 2004 - PLN - InCo21 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

22 Extracción y Categorización de Información - 2004 - PLN - InCo22 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, vbd Nance, who is also a paid consultant to ABC News, said

23 Extracción y Categorización de Información - 2004 - PLN - InCo23 Ejemplo s per/np vp per-desc-of/sbar-lnk per-desc-ptr/sbar per-desc-ptr/vp per-desc-r/np emp-of/pp-lnk org-ptr/pp per-r/np whnp advp per-desc/np org-r/np per/nnp, whp vbz rb det vbn per-desc/nn to org/nnp org/nnp, Nance, who is also a paid consultant to ABC News,

24 Extracción y Categorización de Información - 2004 - PLN - InCo24 SIFT: Modelo a nivel de oración Estructura de Probabilidades Cada categoría se predice basada en los elementos ya generados. Ej: P(t m |c m,c hp,c m-1,w p ) P(per/nnp|per/np,vbd,said) En general P(tree)=Productoria(P(e|h)), con e en tree

25 Extracción y Categorización de Información - 2004 - PLN - InCo25 SIFT: Modelo a nivel de oración Entrenamiento del Modelo Las estimaciones de probabilidades se realizan observando las frencuencias en el corpus de entrenamiento. Como los datos son demasiado escasos, estas probabilidades se suavizan utilizando estimadores de menor nivel. Por ejemplo, para los modificadores P’(c m |c p,c hp,c m-1,w p ) = 1 P(c m |c p,c hp,c m-1,w p ) + 2 P(c m |c p,c hp,c m-1 )

26 Extracción y Categorización de Información - 2004 - PLN - InCo26 SIFT: Modelo a nivel de oración Búsqueda en el modelo Dada una oración a analizar, el programa busca la interpretación sintáctico/semántica más probable (el árbol aumentado más probable). La salida de este proceso es una estructura de árbol que codifica tanto la estructura sintáctica como la semántica de la oración, por lo que las entidades y relaciones pueden extraerse directamente de este árbol

27 Extracción y Categorización de Información - 2004 - PLN - InCo27 SIFT: Modelo inter-oración Este modelo utiliza información estructural y contextual para identificar relaciones entre elementos no mencionados en la oración. Busca el 10-20% de las relaciones Considera parejas de entidades en un mensaje que podrían estar relacionadas. Estima la probabilidad de que estén relacionadas y de que no lo estén, basado en ciertas características. Si la relación entre ambas es mayor a 1, descubre una relación

28 Extracción y Categorización de Información - 2004 - PLN - InCo28 SIFT: Modelo inter-oración Características consideradas Características estructurales Distancia: las entidades aparecen en la misma oración, en oraciones adyacentes, o en oraciones más remotas Topic Sentence: una de las entidades de la relación aparece en la primera oración del texto Características de contenido Las entidades ya aparecieron relacionadas en el entrenamiento Una entidad que comparte un descriptor con el primer argumento, estuvo relacionada en el entrenamiento con otra que comparte un descriptor con el segundo (Ej: General/Army) Uno de los argumentos estuvo relacionado con una entidad que no comparte un descriptor con la segunda (Ej: empleado/IMM)

29 Extracción y Categorización de Información - 2004 - PLN - InCo29 SIFT: Resultados Template Extraction: precision: 84% recall: 83% F: 83.49% Relation Extraction precision: 81% recall: 64% F: 71.23%

30 Extracción y Categorización de Información - 2004 - PLN - InCo30 IDENTIFINDER Sistema para extraer entidades con nombre Basado en HMM PERSON ORG NOT-A-NAME start end

31 Extracción y Categorización de Información - 2004 - PLN - InCo31 IDENTIFINDER Utiliza un modelo estadístico basado en bigramas Utiliza el algoritmo Viterbi para buscar, entre todas las asignaciones nombre/clase, la que maximiza la probabilidad conjunta de palabras/características/clases

32 Extracción y Categorización de Información - 2004 - PLN - InCo32 IDENTIFINDER Interesante: cada clase tiene sus probabilidades. Las clases tienen ciertos comportamientos estereotípicos respecto a las palabras y como aparecen (ej: los montos incluyen una moneda) Algunas palabras sugieren límites y clases de expresiones (ej: Sr. en general indica comienzo de un nombre)

33 Extracción y Categorización de Información - 2004 - PLN - InCo33 Resultados F: 90.44 Otras pruebas: Sin mayúsculas 87.6% Speech Normalized Orthographic Representation 85.5% Efecto del tamaño del corpus de entrenamiento 91.000 a 176.000 – 92.5% a 94% 176.000 al doble - 94% a 95%

34 Extracción y Categorización de Información - 2004 - PLN - InCo34 Conclusiones NE: 89% R 92% P 90.44% F TE: 83% R 84% P 83.49% F TR: 64% R 81% P 71.23% F Parece que anduvo bien... Parece que no les llevó demasiado tiempo...


Descargar ppt "Algoritms that learn to Extract Information BBN: Description of the SIFT System as used for MUC-7 (Scot Miller et al.)"

Presentaciones similares


Anuncios Google