La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007.

Presentaciones similares


Presentación del tema: "Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007."— Transcripción de la presentación:

1 Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

2 Esquema Treebank: Treebank: Principios de anotación Principios de anotación Metodología Metodología Datos y media Datos y media Anotación semántica Anotación semántica Euskal wordnet / EuSemcor Euskal wordnet / EuSemcor Roles (Euskal propbank) Roles (Euskal propbank)

3 Treebank. Principios de anotación Punto de partida: Punto de partida: Corpus anotado manualmente a nivel de segmentación (cat. subcat., det., num., caso), y con MLWs, Entidades y posposiciones complejas Corpus anotado manualmente a nivel de segmentación (cat. subcat., det., num., caso), y con MLWs, Entidades y posposiciones complejas Etiquetado superficial, pero más completo: árbol completo de aquellos elementos presentes en el texto -> No se marcan: Etiquetado superficial, pero más completo: árbol completo de aquellos elementos presentes en el texto -> No se marcan: la elipsis la elipsis PRO/pro PRO/pro

4 Treebank. Principios de anotación Unidad de tratamiento: oración Unidad de tratamiento: oración De punto (o principio de párrafo) a punto De punto (o principio de párrafo) a punto De punto (o principio de párrafo) a signo de interrogación De punto (o principio de párrafo) a signo de interrogación De punto (o principio de párrafo) a signo de exclamación De punto (o principio de párrafo) a signo de exclamación De punto (o principio de párrafo) a dos puntos De punto (o principio de párrafo) a dos puntos Cabeza de sintagma: elemento con significado léxico -> punto de vista semántico Cabeza de sintagma: elemento con significado léxico -> punto de vista semántico Los cimientos principales de la casa vieja

5 Treebank. Principios de anotación Una sola etiqueta para cada elemento de dependencia. Excepción: las conjunciones coordinantes Una sola etiqueta para cada elemento de dependencia. Excepción: las conjunciones coordinantes 28 etiquetas de dependencia, con la siguiente jerarquía (basada en Carroll et al., 1998b, 1999) 28 etiquetas de dependencia, con la siguiente jerarquía (basada en Carroll et al., 1998b, 1999)

6

7 Treebank. Metodología Fase de prueba: 2 meses (abril-mayo). Todos los etiquetadores Fase de prueba: 2 meses (abril-mayo). Todos los etiquetadores Familiarización con la herramienta informática (Abar-Hitz) Familiarización con la herramienta informática (Abar-Hitz) Ajustes de la herramienta Ajustes de la herramienta Formación lingüistica Formación lingüistica Etiquetado masivo: Etiquetado masivo: Equipo de trabajo: Equipo de trabajo: 2 etiquetadores (a tiempo parcial) 2 etiquetadores (a tiempo parcial) 1 revisor (a tiempo parcial) 1 revisor (a tiempo parcial) 2 técnicos informáticos de la herramienta (a tiempo parcial) 2 técnicos informáticos de la herramienta (a tiempo parcial)

8 Treebank. Metodología Elección de oraciones: Elección de oraciones: Partiendo de la lista de verbos por frecuencia, comenzar por el más frecuente. Observaciones: se plantea etiquetar empezando por los menos frecuentes Etiquetado: Etiquetado: Un etiquetador por arriba y otro por abajo. Un etiquetador por arriba y otro por abajo. El revisor va guardando los ficheros en una carpeta (revisados) No se etiquetan aquella oraciones que: No se etiquetan aquella oraciones que: son errores gramaticales son errores gramaticales no están bien delimitadas no están bien delimitadas son demasiado largas (a posteriori sí) son demasiado largas (a posteriori sí)

9 Treebank. Datos y media Hasta ahora se han etiquetado 55.000 palabras Hasta ahora se han etiquetado 55.000 palabras Media en el etiquetado masivo: 200 palabras / h Media en el etiquetado masivo: 200 palabras / h Se ha hecho un manual de anotación Se ha hecho un manual de anotación En un futuro se prevé que: En un futuro se prevé que: no haya revisor y éste comience a etiquetar no haya revisor y éste comience a etiquetar se incorpore otro etiquetador se incorpore otro etiquetador

10 Semántica: Euskal Wordnet / EuSemcor EuSemcor EGINDAEGINGABEGUZTIRA Hitzak Agerpenak Hitzak Agerpenak Hitzak Agerpenak Polisemikoak44239.2082.88829.6633.33068.871 Monosemikoak 1927.2811.6189.3251.81016.606 EusWN-en ez daude 8348710.98739.44911.07039.936 Guztira71746.97615.49378.43716.210125.413 Euskal Wordnet GuztiraIzenakAditzak Adierak50.67041.1609.510 Lemak26.56526.0693.496 Synset-ak32.45628.7053.751 Hutsune lexikalak2.4992.198301 Izen bereziak722 0

11 Semántica: roles (Euskal Propbank) Se ha hecho un estudio preliminar para la validación del modelo Propbank en euskera: Se ha hecho un estudio preliminar para la validación del modelo Propbank en euskera: Agirre et al. 2006. A Preliminary Study for Building the Basque PropBank. In Proceedings of the 5th International Conference on Language Resources and Evaluations (LREC) http://ixa.si.ehu.es/Ixa/Argitalpenak/Artikuluak/1141750676/publikoak/Basque_PropBank.pdf En este estudio: En este estudio: se ha establecido una metodología de trabajo se ha establecido una metodología de trabajo se han etiquetado tres verbos: esan (‘decir’), adierazi (‘expesar’), eskatu (‘pedir’) se han etiquetado tres verbos: esan (‘decir’), adierazi (‘expesar’), eskatu (‘pedir’) se ha demostrado que Propbank es un modelo válido para el euskera se ha demostrado que Propbank es un modelo válido para el euskera se han establecido estrategias de etiquetado semiautomático se han establecido estrategias de etiquetado semiautomático

12 Semántica: roles (Euskal Propbank) Se preve empezar con el etiquetado semántico después del etiquetado sintáctico, y dependiendo de los recursos Se preve empezar con el etiquetado semántico después del etiquetado sintáctico, y dependiendo de los recursos


Descargar ppt "Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007."

Presentaciones similares


Anuncios Google