Treebanks: introducción estado de la cuestión

Slides:



Advertisements
Presentaciones similares
Adverbiales impropias
Advertisements

Cuestión A: análisis sintáctico
PREDICADO NOMINAL Y PREDICADO VERBAL
Alfonso Sancho Rodríguez 1 El sintagma verbal El sintagma verbal (SV) está constituido por un verbo o una expresión compleja que funciona como tal y unos.
ANÁLISIS MORFOSINTÁCTICO
Los sintagmas y sus clases
PRESENTACIÓN DE : PAULA ANA IRIS.
El sintagma verbal El sintagma verbal (SV) está constituido por un verbo o una expresión compleja que funciona como tal y unos complementos que, en su.
LA ORACIÓN Y SUS CONSTITUYENTES
LA ORACIÓN Y SUS CONSTITUYENTES
TEMA 5. LA ORACIÓN SIMPLE (II).
TEORÍA BÁSICA DE LA SINTAXIS LA ORACIÓN SIMPLE ORACIÓN SN (sujeto) + SV (predicado)[menos las impersonales]
SINTAGMA SINTAGMA.
Pautas para analizar una oración.
2.3. Didáctica de la Sintaxis
CATEGORÍAS GRAMATICALES: EL SINTAGMA NOMINAL
Diferenciamos los sintagmas
El sintagma. Las funciones sintácticas
Unidad 6: La oración simple
Práctica de sintaxis Frases simples. Pasos para una buena sintaxis Señalar el verbo Buscar el sujeto. ¿Quién realiza la acción del verbo?
ANÁLISIS SINTÁCTICO. Las oraciones Los enunciados son grupos de palabras ordenadas y que tienen sentido. Hay dos clases: ● Frases: son enunciados que.
1 Adverbiales Se pueden sustituir por un adverbio y se integran en la estructura de la oración compleja con las funciones propias del adverbio. - propias.
Bogard, S. (2004). En Báez, G. y E. Luna Traill. Disquisiciones sobre Filología Hispánica. In memoriam Juan M. Lope Blanch. México: UNAM.
Los sintagmas y sus clases. ¿Qué es un sintagma?
El complemento circunstancial
La oración simple Miss Lady Laura Llanos.
ORACIONES COMPUESTAS COORDINADAS: - copulativas (y, e ni)
REPASO DE SINTAXIS 1 ORACIÓN SIMPLE. SUJETO/PREDICADO
Španělská syntax Téma
Seminario Elaboración y Redacción de Informes, Dictámenes y Recomendaciones FRASE Está formada por un conjunto de palabras entre las cuales no hay verbos.
COMPLEMENTOS PREDICADOS VERBAL: CD, CI, CC, ATR
Španělská syntax Téma
ORACIONES SUBORDINADAS ADVERBIALES
LA ORACIÓN SIMPLE ANÁLISIS SINTÁCTICO ¿Predicado nominal,
Oración compuesta subordinada
PROFE… ¿PARA QUÉ SIRVE LA SINTAXIS?
LA ORACIÓN Y EL SINTAGMA
                                                                                                                                                                                 
COMPLEMENTOS PREDICADOS VERBAL
Funciones sintácticas
LENGUAJE, LENGUA Y HABLA. EL SIGNO LINGÜÍSTICO.
oración sujeto predicado SINTAGMA NOMINAL SINTAGMA VERBAL VERBAL
Sintaxis: SINTAGMAS.
LAS ORACIONES SUBORDINADAS ADJETIVAS
LA ORACIÓN SIMPLE ANÁLISIS SINTÁCTICO ¿Predicado nominal,
Tema 3: Grupos Sintácticos
LAS ORACIONES SUBORDINADAS SUSTANTIVAS
Anotación morfosintáctica y sintáctica
LAS ORACIONES SUBORDINADAS ADVERBIALES
SINTAXIS 4º ESO Chano Rodríguez enero 2017.
LA ORACIÓN Y EL SINTAGMA
4º ESO D Rosana Moya Isach
La oración compuesta por subordinación adverbial
La oración Pertenece al área de la gramática denominada sintaxis y comprende el estudio de las palabras relacionadas entre sí, con el fin de establecer.
LA ORACIÓN SUBORDINADA ADJETIVA Y ADVERBIAL. DEFINICIÓN DE ORACIÓN SUBORDINADA Las oraciones subordinadas son aquellas que dependen de otra oración a.
LOS SINTAGMAS. ESTRUCTURA DE LA ORACIÓN
UNIDAD 1. LOS ENUNCIADOS Y SU ANÁLISIS
Adverbiales propias Se pueden sustituir por un adverbio y se integran en la estructura de la oración compleja con las funciones propias del adverbio.
Oración compuesta subordinada
SINTAXIS.
ENUNCIADO, FRASE Y PROPOSICIÓN
El complemento circunstancial
… (habitualmente “sujeto + predicado”).
UNIDAD 1. LOS ENUNCIADOS Y SU ANÁLISIS
COMPOSICIÓN DE ORACIONES
Juan compra libros Paso 1 Busca el verbo.
GRAMÁTICA LOS SINTAGMAS I. GRAMÁTICA En esta lección veremos… Sintagma nominalSintagma adjetivalSintagma adverbialSintagma preposicional.
Análisis lingüístico automático
LA GRAMÁTICA DEL ESPAÑOL SINTAXIS
Claves del Lenguaje Humano
Transcripción de la presentación:

Treebanks: introducción estado de la cuestión desarrollo del treebank CLiC-TALP

Esquema de la presentación: Qué es un treebank? Utilidades de un treebank? Metodologías de desarrollo Estado de la cuestión Dos ejemplos paradigmáticos Propuesta para el español: problemas concretos

Definición y utilidades de un treebank corpus anotado con información de estructura de frase (McEnery) Definición inferencia / extracción de conocimiento lingüístico aplicaciones PLN: inferencia de gramáticas aprendizaje para la desambiguación automática Utilidades

Anotación semi-automática: Metodología Anotación manual Anotación semi-automática: Gramática etiquetación corrección / validación manual Gramática a etiquetación corrección / validación manual Gramática b

Tipos de análisis sintàctico: Shallow parsing: análisis superficial Sin recursividad Sin funciones Deep parsing: análisis en profundidad Nodos recursivos Dependencias Funciones

Estrategias de análisis Constituyentes Grupos sintácticos por categorías Mantenimiento del orden superficial Dependencias Centrado en las palabras Alteración de orden superficial Información morfológica rica

Ejemplo de anotación dependencias: Emilio perdió la titularidad en el Real_Madrid . S PERDIÓ (pred) EN (AuxP) EMILIO (sujeto) TITULARIDAD (objeto) REAL_MADRID (adv) LA (atrib) EL (atrib)

Ejemplo de anotación de constituyentes: Emilio perdió la titularidad en el Real_Madrid . S SP SN V SN EMILIO PERDIÓ REAL_MADRID LA TITULARIDAD EN EL (S( SN(EMILIO)) (V(PERDIO)) (SN (DET( LA)) (N( TITULARIDAD)) (SP(P( EN )) (SN (DET(EL)) (N ( REAL MADRID)))

Estado de la cuestión (1): Treebanks existentes (principales treebanks: listado no exhaustivo) NEGRA / TIGER (alemán; 350.000 tokens) PDT: Prague Dependency Treebank (checo; 450.000 tok.) French Treebank (1.000.000 tokens) TUT: Turin University Treebank (italiano; 1.000 oraciones) Spanish Treebank (UAM) (1.500 oraciones) ISST: Italian Syntactic-Semantic Treebank (300.000 tok.) Penn Treebank (inglés; 3mill. / 2 mill) Susanne Corpus (inglés; 120.000 tokens)

Estado del Arte (2): conceptos básicos Nivel de anotación: morfología / sintaxis / (semántica) Sintaxis: Constit. Funcio. Depend. Mixto NEGRA (+) + PDT French TUT Spanish ISST Penn Susanne

Dos ejemplos paradigmáticos PDT: dependencias 3 niveles de anotación morfológico ATS (Analytical Tree Structure) TGTS (TectoGrammatical Tree Structure) NEGRA / French: constituyentes y funciones 3 niveles de anotación -morfológico -constituyentes -funciones sintácticas

PDT (1) morfología: 3030 etiquetas 187 clases de ambigüedad ATS: relaciones de dependencia superficiales 60 etiquetas básicas (x 3: coord / apos. / parent.) 25 funciones analíticas funciones para nodos auxiliares estructura head -- modificador problemas de la coordinación se admiten dobles funciones (casos dudosos)

PDT (2) ATS: representación palabra / signo puntuación  nodo no hay cruce de ramas TAGs de cada nodo: forma etiqueta morfológica etiqueta sintáctica

Ejemplo de anotación ATS: Emilio perdió la titularidad PDT (3) Ejemplo de anotación ATS: Emilio perdió la titularidad en el Real_Madrid . AuxS PERDIÓ (pred) EMILIO (sujeto) TITULARIDAD (objeto) EN (AuxP) REAL_MADRID (adv) EL (atrib) . (AuxK) LA

PDT (4) TGTS: representaciones subyacentes de la oración sólo los nodos autosemánticos reciben tag TAGs para cada nodo: lema de la palabra autosemántica gramatemas morfológicos (sgdo. categorías morfológicas) functores: funciones tectogramaticales (actor, patient, etc.) Conversión ATS > TGTS: fase automática + fase manual

PDT (5) ATS > TGTS: Proceso automático: asignación de atributos modalidad oracional sujeto verbos activos = ACTOR símbolos gráficos > valores  borrado cambios en la estructura del árbol fusión formas verbales analíticas > lema autosemántico fusión nodos preposiciones y conjunciones complejas cambio dirección algunas dependencias borrado nodos auxiliares Proceso manual

PDT (6) ATS: AuxS PERDIÓ (pred) EMILIO (sujeto) TITULARIDAD (objeto) EN (AuxP) REAL_MADRID (adv) EL (atrib) . (AuxK) LA AuxS ATS: . (AuxK) PERDIÓ (pred) EN (AuxP) EMILIO (sujeto) TITULARIDAD (objeto) REAL_MADRID (adv) EL (atrib)

PDT (6) TGTS: PERDIÓ tiempo=pas pers=3 núm=sg REAL_MADRID prep= en PERDER REAL_MADRID locative EMILIO actor TITULARIDAD patient REAL_MADRID prep= en det=el ADV

NEGRA (1) Anotación sintáctica de: estructura sintáctica (parentización) categorías sintácticas (etiquetas para constituyentes) funciones gramaticales No hay categorías vacías Estructuras totalmente planas (X’’ y X0) Se permite el cruce de ramas

French chunker  clustering léxico parser  marcaje constituyentes no recursivos tagger funcional  asignación funciones sintácticas Marcaje de constituyentes: <NP> Marie </NP> <VN> aime </VN> <NP> les fraises </NP> <COORD> et <NP> Paul </NP> <NP> les bananes </NP> </COORD>

El corpus CLiC-TALP: Punto de partida: etiquetación morfológica (MACO + RELAX) chunking sintáctico (TACAT + gramática chunks) Anotación sintáctica manual

? (algunos) Problemas concretos (1): Sí: NEGRA / French No: PDT, PennTB 1. Sistema teóricamente neutro? 2. Niveles de anotación a) constituyentes (fase actual French) b) constituyentes y funciones (NEGRA, French) c) dependencias (PDT, ISST) 3. Contenido de la anotación de funciones a) complementos nominales y verbales? b) distinción argumentos / adjuntos? c) sujeto = argumento? ?

Jerarquía de funciones (complementos verbales) Argumentos Adjuntos C.Ag CD CI Sujeto CPred CReg Atributo Tiempo Modo Lugar

Jerarquía de funciones (complementos verbales) Argumentos Adjuntos C.Ag CD CI Sujeto CPred CReg Atributo Tiempo Finalidad Lugar Causa Modo

Jerarquía de funciones (complementos verbales) Argumentos Adjuntos C.Ag CD CI Sujeto CPred CReg Atributo Finalidad Tiempo Causa Lugar Modo Instrumento Cantidad Compañía

Jerarquía de funciones (complementos verbales) Argumentos Adjuntos C.Ag CD CI Sujeto CPred CReg Atributo Tiempo Finalidad Lugar Causa Modo Compañía Cantidad Instrumento

(algunos) Problemas concretos (2): 4. Categorías vacías y elipsis: a) qué casos? b) coindización? c) tipos de coindización d) alcance de la recuperabilidad de la categoría elíptica?

[[ Mi marido lesi había hecho un gran favor a aquella pobre gente i ] y [ Ø i querían agradecérselo]]  referente más cercano?: [[ Mi marido les había hecho un gran favor a aquella pobre gente i ] y [ Ø i querían agradecérselo]]  sujeto elíptico: ¿ Øm Quieresm un refresco? [[ Mi marido les había hecho un gran favor a aquella pobre gente i ] y [ Øi/m querían m agradecérselo]]

¿Quieres un refresco? He tomado tres en casa ¿Un helado, entonces? ¿ Øi Quieresj un refresco? He tomado tres en casa ¿ Øi Øj Un helado, entonces? Se rebasa el límite oracional en la búsqueda del referente? ¿ Quieres un refresco? He tomado tres en casa ¿Un helado, entonces? NO se rebasa el límite oracional en la búsqueda del referente?

(algunos) Problemas concretos (3): 5. Categoría predicado o sintagma verbal? 6. Alteración del orden superficial de las oraciones? 7. Elementos discontinuos? 4-6 febrero 2002 IWCL02

 alteración orden superficial Me gusta la cultura del pelotazo porque sacrifica la búsqueda de lo útil en favor del cultivo de lo admirable Sintagma verbal o Predicado: [verbo > argumentos > adjuntos]  alteración orden superficial [la cultura del pelotazo]i Me gusta []i porque sacrifica la búsqueda de lo útil en favor del cultivo de lo admirable ... y que se crease [ algo parecido a un ataque interior] para equilibrar las cosas con Sabas

(algunos) Problemas concretos (4): 9. Algunas subordinadas adverbiales: a) estructuras paralelas? b) estructuras de tipo ADJUNTO?

que despertaba ese sucedáneo de la piedad que llamamos simpatía Oraciones condicionales, concesivas, comparativas, consecutivas. Pero el Real_Madrid de anoche era tan terrenal, tan rural incluso, que despertaba ese sucedáneo de la piedad que llamamos simpatía. S S1 S2 que despertaba ese sucedáneo de la piedad que llamamos simpatía Pero el Real_Madrid de anoche era tan terrenal, tan rural incluso,

S Pero el Real_Madrid de anoche era tan terrenal, tan rural incluso, que despertaba ese sucedáneo de la piedad que llamamos simpatía

(algunos) Problemas concretos (5): 10. Tratamiento de dobles funciones sintácticas? 11. Tratamiento de las formas no personales del verbo 12. Distinción distintos tipos de sujeto? 13. Argumentos no realizados sintácticamente (caso particular de elipsis) 14. La coordinación y los sintagmas sin núcleo 4-6 febrero 2002 IWCL02

Si la señora Aguirre quiere castigar la suciedad de Madrid en general Sujeto ¿Qué te gustaría ser cuando seas mayor? te OI Sujeto

(algunos) Problemas concretos (5): 10. Tratamiento de dobles funciones sintácticas? 11. Tratamiento de las formas no personales del verbo 12. Distinción distintos tipos de sujeto? 13. Argumentos no realizados sintácticamente (caso particular de elipsis) 14. La coordinación y los sintagmas sin núcleo 4-6 febrero 2002 IWCL02

Tengo que ganar dinero para mantener a mis hijos grup-verb sn-OD grup-sp-ADJFIN prep Snf Øi v-nofin sp-OI mantener a mis hijos

Tengo que ganar dinero para mantener a mis hijos grup-verb sn-OD grup-sp- ADJFIN prep sn-inf infinitiu sp-OI mantener a mis hijos

(algunos) Problemas concretos (5): 10. Tratamiento de dobles funciones sintácticas? 11. Tratamiento de las formas no personales del verbo 12. Distinción distintos tipos de sujeto? 13. Argumentos no realizados sintácticamente (caso particular de elipsis) 14. La coordinación y los sintagmas sin núcleo 4-6 febrero 2002 IWCL02

(algunos) Problemas concretos (4): 15. Las ambigüedades en el attach: a) hacer una por defecto (la más alta)? b) (además) marcar b1- el otro posible attach? b2- que es ambiguo? 16. Establecer distintos tipos de oración (a nivel sintáctico)

(algunos) Problemas concretos (5): 17. Elementos textuales 18. C. Predicativo: marcaje de la relación con el sujeto / OD ? 19. Modalidades oracionales 20. etc.

Jerarquía de oraciones Principal Subordinada S Sfr Sfc Sfa Snf Finita No-finita Relativa Completiva Adverbial

Jerarquía de oraciones Principal Subordinada S Sfr Sfq Sfa Snf Sfi Finita No-finita Relativa Completiva Adverbial que Interrog

Eran cuatro hermanas y todas fueron separadas Los actuales 20.000 cascos azules habrán de ser sustituidos por fuerzas armadas para señalar que se dan, mundo adelante, excesos folletinescos en las informaciones se les hizo una sola pregunta La entrometida decencia impediría hacer esos regalos El problema está en que el presupuesto del común de los mortales no admite grandes despilfarros

de a a b a b en c ir en c ir de a a b en c argumentos / adjuntos realización argumentos el que la derriba ha ido de la insatisfacción a la violencia de a a b a veces un peón va a caballo a ver a la novia a b en c aturdida por el miedo de la oportunidad que se le iba ir el cuerpo de Clanton iba en el primer coche en c ir de a a b en c

antes de nada, amo, admiro y respeto a Cayetana_de_Alba Sintagma con núcleo: (French treebank) grup-verb verbo grup-verb-coord coord amo admiro respeto y ,

antes de nada, amo, admiro y respeto a Cayetana_de_Alba Sintagma sin núcleo: (PDT) grup-verb verbo verbo coord verbo amo admiro y respeto

Impersonales Hace años, antes de que subieran allí arriba, en diciembre no Ø llovía Sujeto elíptico sin referente oracional ¿ Øm Quieresm un refresco? Sujeto elíptico con referente oracional (indización doble???) [[ Mi marido les había hecho un gran favor a aquella pobre gente i ] y [ Øi/m querían m agradecérselo]]

Es que, doña Laurita, no sabe qué penalidades nos van cercando Pero esto, con ser mucho, no fue todo. Sin_embargo, ahora te vemos distinto Etiqueta especial: E(lementos) T(extuales) Inesperadamente, los límites de su vida se habían reducido a la mínima expresión

La misma decisión tiene efectos distintos: La facultad de aprender y reaccionar ante nuevas situaciones (aprender y reaccionar) (reaccionar) Dada la coordinación, generalizar no implica error ni pérdida de información Vi al hombre con el telescopio (Vi) al hombre (al hombre) Hacer el attach al nodo más alto puede implicar error