Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porÁlvaro Casado Blázquez Modificado hace 7 años
1
Treebanks: introducción estado de la cuestión
desarrollo del treebank CLiC-TALP
2
Esquema de la presentación:
Qué es un treebank? Utilidades de un treebank? Metodologías de desarrollo Estado de la cuestión Dos ejemplos paradigmáticos Propuesta para el español: problemas concretos
3
Definición y utilidades de un treebank
corpus anotado con información de estructura de frase (McEnery) Definición inferencia / extracción de conocimiento lingüístico aplicaciones PLN: inferencia de gramáticas aprendizaje para la desambiguación automática Utilidades
4
Anotación semi-automática:
Metodología Anotación manual Anotación semi-automática: Gramática etiquetación corrección / validación manual Gramática a etiquetación corrección / validación manual Gramática b
5
Tipos de análisis sintàctico:
Shallow parsing: análisis superficial Sin recursividad Sin funciones Deep parsing: análisis en profundidad Nodos recursivos Dependencias Funciones
6
Estrategias de análisis
Constituyentes Grupos sintácticos por categorías Mantenimiento del orden superficial Dependencias Centrado en las palabras Alteración de orden superficial Información morfológica rica
7
Ejemplo de anotación dependencias: Emilio perdió la titularidad
en el Real_Madrid . S PERDIÓ (pred) EN (AuxP) EMILIO (sujeto) TITULARIDAD (objeto) REAL_MADRID (adv) LA (atrib) EL (atrib)
8
Ejemplo de anotación de constituyentes: Emilio perdió la titularidad
en el Real_Madrid . S SP SN V SN EMILIO PERDIÓ REAL_MADRID LA TITULARIDAD EN EL (S( SN(EMILIO)) (V(PERDIO)) (SN (DET( LA)) (N( TITULARIDAD)) (SP(P( EN )) (SN (DET(EL)) (N ( REAL MADRID)))
9
Estado de la cuestión (1): Treebanks existentes
(principales treebanks: listado no exhaustivo) NEGRA / TIGER (alemán; tokens) PDT: Prague Dependency Treebank (checo; tok.) French Treebank ( tokens) TUT: Turin University Treebank (italiano; oraciones) Spanish Treebank (UAM) (1.500 oraciones) ISST: Italian Syntactic-Semantic Treebank ( tok.) Penn Treebank (inglés; 3mill. / 2 mill) Susanne Corpus (inglés; tokens)
10
Estado del Arte (2): conceptos básicos
Nivel de anotación: morfología / sintaxis / (semántica) Sintaxis: Constit. Funcio. Depend. Mixto NEGRA (+) + PDT French TUT Spanish ISST Penn Susanne
11
Dos ejemplos paradigmáticos
PDT: dependencias 3 niveles de anotación morfológico ATS (Analytical Tree Structure) TGTS (TectoGrammatical Tree Structure) NEGRA / French: constituyentes y funciones 3 niveles de anotación -morfológico -constituyentes -funciones sintácticas
12
PDT (1) morfología: 3030 etiquetas 187 clases de ambigüedad ATS: relaciones de dependencia superficiales 60 etiquetas básicas (x 3: coord / apos. / parent.) 25 funciones analíticas funciones para nodos auxiliares estructura head -- modificador problemas de la coordinación se admiten dobles funciones (casos dudosos)
13
PDT (2) ATS: representación palabra / signo puntuación nodo no hay cruce de ramas TAGs de cada nodo: forma etiqueta morfológica etiqueta sintáctica
14
Ejemplo de anotación ATS: Emilio perdió la titularidad
PDT (3) Ejemplo de anotación ATS: Emilio perdió la titularidad en el Real_Madrid . AuxS PERDIÓ (pred) EMILIO (sujeto) TITULARIDAD (objeto) EN (AuxP) REAL_MADRID (adv) EL (atrib) . (AuxK) LA
15
PDT (4) TGTS: representaciones subyacentes de la oración sólo los nodos autosemánticos reciben tag TAGs para cada nodo: lema de la palabra autosemántica gramatemas morfológicos (sgdo. categorías morfológicas) functores: funciones tectogramaticales (actor, patient, etc.) Conversión ATS > TGTS: fase automática + fase manual
16
PDT (5) ATS > TGTS: Proceso automático: asignación de atributos modalidad oracional sujeto verbos activos = ACTOR símbolos gráficos > valores borrado cambios en la estructura del árbol fusión formas verbales analíticas > lema autosemántico fusión nodos preposiciones y conjunciones complejas cambio dirección algunas dependencias borrado nodos auxiliares Proceso manual
17
PDT (6) ATS: AuxS PERDIÓ (pred) EMILIO (sujeto) TITULARIDAD (objeto)
EN (AuxP) REAL_MADRID (adv) EL (atrib) . (AuxK) LA AuxS ATS: . (AuxK) PERDIÓ (pred) EN (AuxP) EMILIO (sujeto) TITULARIDAD (objeto) REAL_MADRID (adv) EL (atrib)
18
PDT (6) TGTS: PERDIÓ tiempo=pas pers=3 núm=sg REAL_MADRID prep= en
PERDER REAL_MADRID locative EMILIO actor TITULARIDAD patient REAL_MADRID prep= en det=el ADV
20
NEGRA (1) Anotación sintáctica de: estructura sintáctica (parentización) categorías sintácticas (etiquetas para constituyentes) funciones gramaticales No hay categorías vacías Estructuras totalmente planas (X’’ y X0) Se permite el cruce de ramas
22
French chunker clustering léxico parser marcaje constituyentes no recursivos tagger funcional asignación funciones sintácticas Marcaje de constituyentes: <NP> Marie </NP> <VN> aime </VN> <NP> les fraises </NP> <COORD> et <NP> Paul </NP> <NP> les bananes </NP> </COORD>
23
El corpus CLiC-TALP: Punto de partida: etiquetación morfológica (MACO + RELAX) chunking sintáctico (TACAT + gramática chunks) Anotación sintáctica manual
26
? (algunos) Problemas concretos (1): Sí: NEGRA / French
No: PDT, PennTB 1. Sistema teóricamente neutro? 2. Niveles de anotación a) constituyentes (fase actual French) b) constituyentes y funciones (NEGRA, French) c) dependencias (PDT, ISST) 3. Contenido de la anotación de funciones a) complementos nominales y verbales? b) distinción argumentos / adjuntos? c) sujeto = argumento? ?
27
Jerarquía de funciones (complementos verbales)
Argumentos Adjuntos C.Ag CD CI Sujeto CPred CReg Atributo Tiempo Modo Lugar
28
Jerarquía de funciones (complementos verbales)
Argumentos Adjuntos C.Ag CD CI Sujeto CPred CReg Atributo Tiempo Finalidad Lugar Causa Modo
29
Jerarquía de funciones (complementos verbales)
Argumentos Adjuntos C.Ag CD CI Sujeto CPred CReg Atributo Finalidad Tiempo Causa Lugar Modo Instrumento Cantidad Compañía
30
Jerarquía de funciones (complementos verbales)
Argumentos Adjuntos C.Ag CD CI Sujeto CPred CReg Atributo Tiempo Finalidad Lugar Causa Modo Compañía Cantidad Instrumento
31
(algunos) Problemas concretos (2):
4. Categorías vacías y elipsis: a) qué casos? b) coindización? c) tipos de coindización d) alcance de la recuperabilidad de la categoría elíptica?
32
[[ Mi marido lesi había hecho un gran favor a aquella pobre gente i ]
y [ Ø i querían agradecérselo]] referente más cercano?: [[ Mi marido les había hecho un gran favor a aquella pobre gente i ] y [ Ø i querían agradecérselo]] sujeto elíptico: ¿ Øm Quieresm un refresco? [[ Mi marido les había hecho un gran favor a aquella pobre gente i ] y [ Øi/m querían m agradecérselo]]
33
¿Quieres un refresco? He tomado tres en casa ¿Un helado, entonces? ¿ Øi Quieresj un refresco? He tomado tres en casa ¿ Øi Øj Un helado, entonces? Se rebasa el límite oracional en la búsqueda del referente? ¿ Quieres un refresco? He tomado tres en casa ¿Un helado, entonces? NO se rebasa el límite oracional en la búsqueda del referente?
34
(algunos) Problemas concretos (3):
5. Categoría predicado o sintagma verbal? 6. Alteración del orden superficial de las oraciones? 7. Elementos discontinuos? 4-6 febrero 2002 IWCL02
35
alteración orden superficial
Me gusta la cultura del pelotazo porque sacrifica la búsqueda de lo útil en favor del cultivo de lo admirable Sintagma verbal o Predicado: [verbo > argumentos > adjuntos] alteración orden superficial [la cultura del pelotazo]i Me gusta []i porque sacrifica la búsqueda de lo útil en favor del cultivo de lo admirable ... y que se crease [ algo parecido a un ataque interior] para equilibrar las cosas con Sabas
36
(algunos) Problemas concretos (4):
9. Algunas subordinadas adverbiales: a) estructuras paralelas? b) estructuras de tipo ADJUNTO?
37
que despertaba ese sucedáneo de la piedad que llamamos simpatía
Oraciones condicionales, concesivas, comparativas, consecutivas. Pero el Real_Madrid de anoche era tan terrenal, tan rural incluso, que despertaba ese sucedáneo de la piedad que llamamos simpatía. S S1 S2 que despertaba ese sucedáneo de la piedad que llamamos simpatía Pero el Real_Madrid de anoche era tan terrenal, tan rural incluso,
38
S Pero el Real_Madrid de anoche era tan terrenal, tan rural incluso, que despertaba ese sucedáneo de la piedad que llamamos simpatía
39
(algunos) Problemas concretos (5):
10. Tratamiento de dobles funciones sintácticas? 11. Tratamiento de las formas no personales del verbo 12. Distinción distintos tipos de sujeto? 13. Argumentos no realizados sintácticamente (caso particular de elipsis) 14. La coordinación y los sintagmas sin núcleo 4-6 febrero 2002 IWCL02
40
Si la señora Aguirre quiere castigar la suciedad de Madrid en general
Sujeto ¿Qué te gustaría ser cuando seas mayor? te OI Sujeto
41
(algunos) Problemas concretos (5):
10. Tratamiento de dobles funciones sintácticas? 11. Tratamiento de las formas no personales del verbo 12. Distinción distintos tipos de sujeto? 13. Argumentos no realizados sintácticamente (caso particular de elipsis) 14. La coordinación y los sintagmas sin núcleo 4-6 febrero 2002 IWCL02
42
Tengo que ganar dinero para mantener a mis hijos
grup-verb sn-OD grup-sp-ADJFIN prep Snf Øi v-nofin sp-OI mantener a mis hijos
43
Tengo que ganar dinero para mantener a mis hijos
grup-verb sn-OD grup-sp- ADJFIN prep sn-inf infinitiu sp-OI mantener a mis hijos
44
(algunos) Problemas concretos (5):
10. Tratamiento de dobles funciones sintácticas? 11. Tratamiento de las formas no personales del verbo 12. Distinción distintos tipos de sujeto? 13. Argumentos no realizados sintácticamente (caso particular de elipsis) 14. La coordinación y los sintagmas sin núcleo 4-6 febrero 2002 IWCL02
45
(algunos) Problemas concretos (4):
15. Las ambigüedades en el attach: a) hacer una por defecto (la más alta)? b) (además) marcar b1- el otro posible attach? b2- que es ambiguo? 16. Establecer distintos tipos de oración (a nivel sintáctico)
46
(algunos) Problemas concretos (5):
17. Elementos textuales 18. C. Predicativo: marcaje de la relación con el sujeto / OD ? 19. Modalidades oracionales 20. etc.
47
Jerarquía de oraciones
Principal Subordinada S Sfr Sfc Sfa Snf Finita No-finita Relativa Completiva Adverbial
48
Jerarquía de oraciones
Principal Subordinada S Sfr Sfq Sfa Snf Sfi Finita No-finita Relativa Completiva Adverbial que Interrog
49
Eran cuatro hermanas y todas fueron separadas
Los actuales cascos azules habrán de ser sustituidos por fuerzas armadas para señalar que se dan, mundo adelante, excesos folletinescos en las informaciones se les hizo una sola pregunta La entrometida decencia impediría hacer esos regalos El problema está en que el presupuesto del común de los mortales no admite grandes despilfarros
50
de a a b a b en c ir en c ir de a a b en c argumentos / adjuntos
realización argumentos el que la derriba ha ido de la insatisfacción a la violencia de a a b a veces un peón va a caballo a ver a la novia a b en c aturdida por el miedo de la oportunidad que se le iba ir el cuerpo de Clanton iba en el primer coche en c ir de a a b en c
51
antes de nada, amo, admiro y respeto a Cayetana_de_Alba
Sintagma con núcleo: (French treebank) grup-verb verbo grup-verb-coord coord amo admiro respeto y ,
52
antes de nada, amo, admiro y respeto a Cayetana_de_Alba
Sintagma sin núcleo: (PDT) grup-verb verbo verbo coord verbo amo admiro y respeto
53
Impersonales Hace años, antes de que subieran allí arriba, en diciembre no Ø llovía Sujeto elíptico sin referente oracional ¿ Øm Quieresm un refresco? Sujeto elíptico con referente oracional (indización doble???) [[ Mi marido les había hecho un gran favor a aquella pobre gente i ] y [ Øi/m querían m agradecérselo]]
54
Es que, doña Laurita, no sabe qué penalidades nos van cercando
Pero esto, con ser mucho, no fue todo. Sin_embargo, ahora te vemos distinto Etiqueta especial: E(lementos) T(extuales) Inesperadamente, los límites de su vida se habían reducido a la mínima expresión
55
La misma decisión tiene efectos distintos:
La facultad de aprender y reaccionar ante nuevas situaciones (aprender y reaccionar) (reaccionar) Dada la coordinación, generalizar no implica error ni pérdida de información Vi al hombre con el telescopio (Vi) al hombre (al hombre) Hacer el attach al nodo más alto puede implicar error
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.