Análisis sintáctico GRIAL – UB KNOW
Análisis sintàctico Situación actual del análisis sintáctico del español Desarrollo de una gramática Adquisición de información para guiar el análisis sintáctico
Situación actual Analizadores existentes ‘asequibles’ análisis total Hispal Conexor Freeling Evaluación cualitativa Análisis comparativo de los resultados - constituyentes, oraciones subordinadas - mala identificación de la función sintáctica - sintagmas preposicionales - complementos directos con ‘a’ - identificación de constituyentes coordinados - multiword expressions - adverbiales vs. objeto directo - elipsis del verbo principal en una cláusula
Comparación Fenómeno observadoHISPALFreeLingConnexor Syntactic Function Misidentification (1. El partido se convirtió en la pesadilla que había pronosticado Luís. 2. Papel fundamental han desempeñado en esta recuperación los evangelios… ) OKNo Luis, los evangelios – objeto directo No Luis, los evangelios – objeto directo Grouping of Constituents ( E sa expresi ó n del deseo de ver convertida en candidata a alcaldesa de Madrid a la vicepresidenta del Gobierno refleja la realidad. ) NO impossibility of the three parsers to group the constituent s of compound subjects. NO impossibility of the three parsers to group the constituents of compound subjects. NO impossibility of the three parsers to group the constituents of compound subjects. Prepositional Phrases with a (1. Ven a la tienda oficial esta tarde. 2. Pero el colmo es ver a Lucio subiendo al ataque..) OKNO1. si 2. no
Comparación Ellipsis of the main verb in a clause ( Juan bebió vino y María cerveza.) OKNO grup-verb/top/(bebió beber VMIS3S0) sn/subj/(Juan juan NP00000) coor-n/obj/(y y CC) sn/co-n/(vino vino NCMS000) sn/co-n/(María maría NP00000) sn/obj/(cerveza cerveza NCFS000) NO 1 Juan juan N MSC SG Prop 2 bebi ó beber V IND PRET SG P3 3 vino vino N MSC SG 4 y CC 5 Mar í a mar í a N FEM SG Prop 6 cerveza N FEM SG Inversion of objects and subjects ( Averigua en qué lugar está la casa.) No especifica qué es casa NO (casa – objeto directo)No especifica qué es casa Treatment of multiword names (1. Ángel Amor se llama el individuo. 2. Anier García le dio el lunes a Cuba su primera medalla dorada.) 1. no analiza ángel amor como un todo, quiza porque Amor coincide con el sustantivo amor 2. Anier_garcia (un todo) 1. no analiza ángel amor como un todo 2. Anier_garcia (un todo) 1. OK ángel modifica a amor 2. El mismo análisis como en 1. Yes / No Questions ( ¿Renuncia España al veto en los fondos de cohesión?) OKNO, renuncia como sustantivo y no como verbo
Gramática RASP Constituyentes básicos : sn, sv, sadj, sadv,sp, coordinación léxica y sintagmática Construcciones principales Oraciones subordinadas relativas y completivas Metarreglas??? Gramática completa
Gramática del español RASP gramática de unificación: GPSG rasgos reglas de estructura de frase metarreglas ? no incluye lemas código cerrado gramática completa FREELING gramática de dependencias clases reglas a pares funciones de situación en el árbol incluye lemas código “abierto” gramática de la oración
Adquisición de Patrones de Subcategorización Objetivo Obtener clases de comportamiento sintáctico de los verbos a partir de SENSEM Extrapolar estos comportamientos a verbos desconocidos adquisición Fases Crear una clasificación inducida a partir de los ejemplos / sentidos de SENSEM Aprender el clasificador Aplicar el clasificador sobre verbos no conocidos
Metodología Corpus etiquetado manualmente Reducción de los casos PS Inducción de clases clasificación Evaluación y selección de la solución Clasificador a partir de los ejemplos Analizados manual/automáticamente Agrupación por sentidos /ejemplos Asignación de clases a ejemplos no vistos
SenSem Corpus etiquetado: Delimitación de constituyentes Categoría sintáctica Función sintáctica Rol semántico Clase eventiva
Reducción Patrones de Subcats Argumentos Sin variedad de orden Compactación de categorías sn v sp sn(sto) v sp(oprep) sn(sto-exp) v sp(oprep-tema)
Patrones 998 sentidos 250 lemas verbales Patrones todos> 5>10 C C+F C+F+R
Clasificación sentido verbal cada sentido se representa como un vector las dimensiones de los vectores son todos los esquemas de subcategorización que se dan en el corpus los valores de cada vector para cada dimensión son el número de veces que ocurre el sentido con el esquema anotación manual ejemplos individuales cada ejemplo se representa como un vector las dimensiones de los vectores son todos los esquemas de subcategorización que se dan en el corpus los valores de cada vector para cada dimensión son binarios: o el ejemplo tiene el esquema de la dimensión o no lo tiene anotación automática
Clasificación Clustering Simple Kmeans Expectation-Maximization Clusters Subclusters
Evaluación de las clasificaciones Evaluación Tienen sentido los vectores: diátesis (compactadas) Distribución de la población en clases Parejas de verbos similares Distinguibilidad de sentidos Overlap de patrones Aplicación de diferentes clasificadores con diferentes configuraciones
Solucion C+F 3 clases Clase 1: 704 sentidos verbales. Clase mixta 83% alternante: omisión de complemento 16% único patrón: trans, intrans y prep Subclustering: 5 clases una clase mayoritaria con esquemas de subcategorización muy dispares diversas clases más pequeñas que agrupan verbos con comportamientos mucho más definidos. Clase 2: 153 sentidos verbales esquemas transitivos. Diátesis: trans intrans trans ditrans Clase 3: 39 sentidos verbales esquemas preposicionales y alta frecuencia de atributivos/circunstanciales/predicativos diátesis se caracterizan por la omision/elisión de algunos preposicionales preposicional - intransitiu
Solución C+F >10 subcluster clase 5 (477) Diatesis: transitivos e intransitivos y en algún caso con preposicionales. subclases las subclases 5.5, 5.3 y 5.2 esquemas transitivos e intransitivos, las subclases 5.4, 5.6, 5.7 y 5.8 la alternancia intransitivo/preposicional clase 2 (163) Diatesis: preps intrans y ditrans preps subclases 2.2 esquemas ditranstivos 2.1.esquemas con circunstanciales.
Solución C+F >10 sublcuster Clase 1 (103) y clase 3 (68) Diatesis; transtiva/ditransitiva/intransitiva Estas clases no presentan subclases. Clase 4 Diatesis: preposicionales intransitivos presencia de atributos. subclases 4.1 Diatesis: preposicional/intransitiva con atributos 4.2 Totalmente preposicional 4.3 Diatesis: transitivos preposicionales.
Aplicación del Classificador
Porcentaje de sentidos bien clasificados en el primer nivel de clustering para la aproximación con esquemas de función y categoría que ocurren más de 10 veces 5 clases
Porcentaje de sentidos bien clasificados en el segundo nivel de clustering para la aproximación con esquemas de función y categoría que ocurren más de 10 veces. 12 clases
Pendiente… Decidir el mejor clasificador Reconsiderar la clasificación en función de los resultados del clasificador? Compactar clases? evaluación WSD automática sobre SenSem Aplicación y evaluación de WSD Aplicación del clasificador Aplicación del clasificador sobre corpus desambiguados automáticamente adquisición Estudiar la posible generalización de los vectores (alternancias de diátesis)