Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007.

Slides:



Advertisements
Presentaciones similares
EL SIGNO LINGÜÍSTICO.
Advertisements

Coordinación Yuxtaposición Subordinación
Know T2. Procesadores lingüísticos UPV/EHU
SINTAGMAS.
Animación del segundo ejercicio de la práctica 12 opcional (herramienta ANTLR)
LA COHERENCIA Es la propiedad por la que organizamos un texto para transmitir una idea. Se debe ajustar: Intención: debe responder a su intención comunicativa.
UNIDAD 8: LA TRANSMISIÓN DE LA INFORMACIÓN
Lingüística: ciencia que estudia la lengua
Programa de Estudio Tercer Año Medio.
METÁFORA DEL URBANISMO.
La lengua como sistema Desde el punto de vista de la lengua como sistema, los niveles de indagación y formalización lingüísticas se distinguen 4 pilares.
MAPAS CONCEPTUALES.
Lenguaje Lic. Carlos Marenales
Los sintagmas y sus clases
Propiedades textuales
Ramas de la Lingüística
GENERADOR SEMIAUTOMÁTICO DE DIAGRAMAS DE SECUENCIA A PARTIR DE ESCENARIOS REPRESENTADOS COMO GRAFOS DE SOWA Por: CLAUDIA MARÍA GÓMEZ FLÓREZ Director:
Repaso de sintaxis Tema 4 – Morfosintaxis: sintaxis
EVALUACIÓN -Individual/Grupal -Oral/Escrito. PRETAREA Fase de presentación ordenada de información ajustada al conocimiento previo del alumno. Fase de.
Introducción al desarrollo de proyectos RIA.
Las oraciones compuestas I: Yuxtapuestas y coordinadas
MAPAS CONCEPTUALES.
DESARROLLO MORFOSINTACTICO
Lic. Alicia Magali Samamé Núñez
Texto propio 6 Es poco probable que suspendáis la selectividad funciones sintácticas a) Explique las funciones sintácticas que se establecen entre los.
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
SPAN 595 – Morfosintaxis Verano 2011 Dr. Waltermire.
El sintagma nominal y verbal
SenSemCat:. Corpus de la lengua catalana. anotado con información
Vicaría para la Educación Área Académica Red Colegios del Arzobispado de Santiago Taller de Lenguaje y Comunicación Escritura y Producción de Textos Noviembre.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Alumnos: Sebastián Ávila Curso: 7°B Gastón Morales Benjamín Leiva David Castillo Matías Palma.
2.1. Didáctica de la Fonología Fonología y Fonética -Definiciones - Unidades básicas - Diferencias entre Fonología y Fonética - Nuestro objetivo:
TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero
9.4 ACTIVIDADES DE LAS PRUEBAS Describe las actividades de las pruebas dentro de las que están: Inspección de componentes Pruebas unitarias Pruebas de.
“Las palabras se las lleva el viento” (habla) “El hombre tiene el bello don de la palabra” (lenguaje) “Conviene buscar qué significa esta palabra” (signo)
PROCESOS DEL PENSAMIENTO
Cuando leíste y después elaboraste cuentos, te enteraste de que se habla de alguien; ese alguien puede ser:
Modelo cognitivo de procesamiento y comprensión lingüística Docente: Magaly Quiroga.
Cuando leíste y después elaboraste cuentos, te enteraste de que se habla de alguien; ese alguien puede ser:
INFORMATICA VII (Programación e implementación de sistemas)
Modelo de la Gramática Generativa Transformacional (1965)

LA MORFOLOGÍA.
Estrategias de Comprensión
La comunicación y el lenguaje
USO DE LOS SIGNOS DE PUNTUACIÓN Y REFERENCIAS ANAFORICAS
CLASES DE PALABRAS O CATEGORÍAS GRAMATICALES
COMENTARIO DE TEXTO 1º BACHILLERATO.
CONJUNCIONES.
ESTRUCTURA DE LA LENGUA:
LA CONJURACIÓN DE LAS PALABRAS
2.3. Didáctica de la Sintaxis
Aproximaciones a los estudios del verbo: problemas y aplicaciones
Lingüística computacional unidad 2. análisis semántico
Profesora: Mª Elena Pérez Rodríguez
Textos personales.
COHESIÓN Y COHERENCIA Son dos propiedades que facilitan la comprensión de los textos. La cohesión es la relación sintáctica que puede establecerse entre.
Erendira Rodríguez Estrada
O 3-4 años o Abandono progresivo de lenguaje infantil y vocabulario especifico → construcciones más de lenguaje adulto. o Combinación de cláusulas en distintos.
Componentes de la oración, categorías gramaticales y signos de pausa Profesora M. Soto ESPA 3101.
Word of the day (Palabra del día) : 1 – Copien las palabras del día (PDD) y escriban las definiciones en inglés en la sección PALABRA DEL DÍA del cuaderno.
Rasgos particulares de los lenguajes especializados de las disciplinas
PRÁCTICA TRADOS Memorias de traducción. Objetivo El objetivo de esta práctica es aprender a crear memorias de traducción.
Comentario de textos: El texto periodístico 3ºESO.
1 MÁS QUE PALABRAS. 2 Más que palabras ¿Qué han de aprender a manipular mentalmente los niños para ser competentes gramaticalmente hablando?
Niveles de la lengua: Sintáctico
Análisis de fenómenos de fusión en los niveles de la arquitectura gramatical. Sevilla, mayo de 2007.
{ Participante: Alexander Rivero CI Cátedra: Redacción Jurídica SAIA D.
Los Signos de Puntuación
Transcripción de la presentación:

Treebank y anotación semántica en euskara Grupo Ixa, UPV-EHU KNOW. Workshop de sintaxis Mayo, 2007

Esquema Treebank: Treebank: Principios de anotación Principios de anotación Metodología Metodología Datos y media Datos y media Anotación semántica Anotación semántica Euskal wordnet / EuSemcor Euskal wordnet / EuSemcor Roles (Euskal propbank) Roles (Euskal propbank)

Treebank. Principios de anotación Punto de partida: Punto de partida: Corpus anotado manualmente a nivel de segmentación (cat. subcat., det., num., caso), y con MLWs, Entidades y posposiciones complejas Corpus anotado manualmente a nivel de segmentación (cat. subcat., det., num., caso), y con MLWs, Entidades y posposiciones complejas Etiquetado superficial, pero más completo: árbol completo de aquellos elementos presentes en el texto -> No se marcan: Etiquetado superficial, pero más completo: árbol completo de aquellos elementos presentes en el texto -> No se marcan: la elipsis la elipsis PRO/pro PRO/pro

Treebank. Principios de anotación Unidad de tratamiento: oración Unidad de tratamiento: oración De punto (o principio de párrafo) a punto De punto (o principio de párrafo) a punto De punto (o principio de párrafo) a signo de interrogación De punto (o principio de párrafo) a signo de interrogación De punto (o principio de párrafo) a signo de exclamación De punto (o principio de párrafo) a signo de exclamación De punto (o principio de párrafo) a dos puntos De punto (o principio de párrafo) a dos puntos Cabeza de sintagma: elemento con significado léxico -> punto de vista semántico Cabeza de sintagma: elemento con significado léxico -> punto de vista semántico Los cimientos principales de la casa vieja

Treebank. Principios de anotación Una sola etiqueta para cada elemento de dependencia. Excepción: las conjunciones coordinantes Una sola etiqueta para cada elemento de dependencia. Excepción: las conjunciones coordinantes 28 etiquetas de dependencia, con la siguiente jerarquía (basada en Carroll et al., 1998b, 1999) 28 etiquetas de dependencia, con la siguiente jerarquía (basada en Carroll et al., 1998b, 1999)

Treebank. Metodología Fase de prueba: 2 meses (abril-mayo). Todos los etiquetadores Fase de prueba: 2 meses (abril-mayo). Todos los etiquetadores Familiarización con la herramienta informática (Abar-Hitz) Familiarización con la herramienta informática (Abar-Hitz) Ajustes de la herramienta Ajustes de la herramienta Formación lingüistica Formación lingüistica Etiquetado masivo: Etiquetado masivo: Equipo de trabajo: Equipo de trabajo: 2 etiquetadores (a tiempo parcial) 2 etiquetadores (a tiempo parcial) 1 revisor (a tiempo parcial) 1 revisor (a tiempo parcial) 2 técnicos informáticos de la herramienta (a tiempo parcial) 2 técnicos informáticos de la herramienta (a tiempo parcial)

Treebank. Metodología Elección de oraciones: Elección de oraciones: Partiendo de la lista de verbos por frecuencia, comenzar por el más frecuente. Observaciones: se plantea etiquetar empezando por los menos frecuentes Etiquetado: Etiquetado: Un etiquetador por arriba y otro por abajo. Un etiquetador por arriba y otro por abajo. El revisor va guardando los ficheros en una carpeta (revisados) No se etiquetan aquella oraciones que: No se etiquetan aquella oraciones que: son errores gramaticales son errores gramaticales no están bien delimitadas no están bien delimitadas son demasiado largas (a posteriori sí) son demasiado largas (a posteriori sí)

Treebank. Datos y media Hasta ahora se han etiquetado palabras Hasta ahora se han etiquetado palabras Media en el etiquetado masivo: 200 palabras / h Media en el etiquetado masivo: 200 palabras / h Se ha hecho un manual de anotación Se ha hecho un manual de anotación En un futuro se prevé que: En un futuro se prevé que: no haya revisor y éste comience a etiquetar no haya revisor y éste comience a etiquetar se incorpore otro etiquetador se incorpore otro etiquetador

Semántica: Euskal Wordnet / EuSemcor EuSemcor EGINDAEGINGABEGUZTIRA Hitzak Agerpenak Hitzak Agerpenak Hitzak Agerpenak Polisemikoak Monosemikoak EusWN-en ez daude Guztira Euskal Wordnet GuztiraIzenakAditzak Adierak Lemak Synset-ak Hutsune lexikalak Izen bereziak722 0

Semántica: roles (Euskal Propbank) Se ha hecho un estudio preliminar para la validación del modelo Propbank en euskera: Se ha hecho un estudio preliminar para la validación del modelo Propbank en euskera: Agirre et al A Preliminary Study for Building the Basque PropBank. In Proceedings of the 5th International Conference on Language Resources and Evaluations (LREC) En este estudio: En este estudio: se ha establecido una metodología de trabajo se ha establecido una metodología de trabajo se han etiquetado tres verbos: esan (‘decir’), adierazi (‘expesar’), eskatu (‘pedir’) se han etiquetado tres verbos: esan (‘decir’), adierazi (‘expesar’), eskatu (‘pedir’) se ha demostrado que Propbank es un modelo válido para el euskera se ha demostrado que Propbank es un modelo válido para el euskera se han establecido estrategias de etiquetado semiautomático se han establecido estrategias de etiquetado semiautomático

Semántica: roles (Euskal Propbank) Se preve empezar con el etiquetado semántico después del etiquetado sintáctico, y dependiendo de los recursos Se preve empezar con el etiquetado semántico después del etiquetado sintáctico, y dependiendo de los recursos