La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Anotación morfosintáctica y sintáctica

Presentaciones similares


Presentación del tema: "Anotación morfosintáctica y sintáctica"— Transcripción de la presentación:

1 Anotación morfosintáctica y sintáctica
Lingüística de corpus

2 sintaxis y morfosintaxis
estudia las reglas que gobiernan la forma en que las palabras se organizan en sintagmas y, a su vez, estos sintagmas en oraciones estudia forma y función de los elementos lingüísticos dentro de la oración permite estudiar las categorías gramaticales en su contexto sintáctico

3 etiquetado morfosintáctico
cada palabra gráfica y cada unidad léxica tiene una categoría gramatical/clase de palabras/parte de la oración (Part of Speech) asignación de una etiqueta de este tipo a cada palabra se conoce como etiquetado POS (POS Tagging)

4 etiquetado morfosintáctico
Identificación de palabras o unidades léxicas definición de las clases de palabras pertinentes definición de las etiquetas que representan dichas clases procedimiento de etiquetado

5 PUEBLA PEROTE JALAPA VERACRUZ
La palabra PUEBLA PEROTE JALAPA VERACRUZ

6 la palabra palabra gráfica palabras y unidades léxicas
¿lo que ocurre entre dos espacios? puntuación, números, siglas palabras y unidades léxicas diversas definiciones de “palabra” fronteras convencionales de las palabras (clíticos o afijos) “me la dio”, “dámela” pero *“me no la dio” ¿concordancia con argumentos del verbo? problemas tipológicos: lenguas analíticas vs sintéticas en lenguas poco estudiadas no siempre es claro si algo es un modificador/clítico o marca de flexión

7 la palabra Multipalabras (varias palabras gráficas  unidad léxica)
sentido total diferente a la suma de los sentidos de las partes (“por favor”, “de acuerdo a”, “vuestra merced” , “San Luis Potosí”, “Comisión Nacional del Agua”, etc.) nombres propios (lugares, personas, instituciones) fechas términos (denotan conceptos de especialización)

8 la palabra Composición método de formación de unidades léxicas
sacacorchos, sociocultural, etc. veces son multipalabras (hombre rana) muy productivo en muchas lenguas blackbird, black-bird, black bird Begriffsinhaltsbeschreibung

9 la palabra Acortamientos (mergers): una palabra gráfica  varias unidades léxicas enclíticos del español: cómetelo = come+te+lo contracciones (portmanteaus) gramaticales: del, al, desta; dunno, gonna, gotta,.. idiomáticas: pa’l, mi’jo; don’t siglas (UNAM) y acrónimos (Conacyt) Abreviaturas y notaciones R.S.V.P; H2O punto de las abreviaturas

10 definición de las clases
consenso inexistente depende del objetivo específico del corpus el conjunto de clases puede ser pequeño (las más elementales) 10 ó 12; o muy grande (varios cientos) con detalles descriptivos de fenómenos específicos tres niveles posibles de clases obligatorias: verbo, sustantivo, etc. recomendadas: accidentes gramaticales, casos, etc. opcionales: concreto, abstracto, sarcasmo, etc.

11 definición de las etiquetas
características deseables brevedad claridad de interpretación estructura analizable ejemplos Penn Treebank EAGLES Etiquetario morfosintáctico (corpus IULA)

12 Métodos de etiquetado Basados en reglas Estadísticos Híbridos
gramáticas y autómatas Estadísticos n-gramas y probabilidad condicional Híbridos

13 ejemplos Analizador morfológico, etiquetador y parser del Grupo de PLN de la UPC Memory Based Tagging Demo

14 lematización lema lematización vs stemming
forma canónica del diccionario; lexema; raíz o tema lematización vs stemming métodos: Porter, entropía, etc. palabras gráficas lemas somos, soy, eres, fueron ser voy, fui, irán ir poder, pudieron, podrán poder

15 ejemplos Muestra (corpus IULA)

16 análisis sintáctico (parsing)
análisis de las relaciones entre constituyentes de la oración se generan árboles sintácticos categorías: sujeto, nodo verbal, complemento directo, sintagma circunstancial, etc. poco preciso y ambiguo muy costoso [O [SN El_Art hombre_Sust SN] [SV vio_Vb [SP a_Prep [SN la_Art nena_Sust SN] SP] [SP en_Prep [SN el_Art parque_Sust SN] SP] [SP con_Prep [SN el_Art telescopio_Sust SN] SP] SV] O]

17 análisis sintáctico parcial
análisis superficial (shallow) o chunking chunks: regiones del texto que no se intersectan En [un lugar] de [la Mancha] de [cuyo nombre] no quiero acordarme idea: determinar los constituyentes principales que sirven de argumentos verbales, sin especificar etiquetas


Descargar ppt "Anotación morfosintáctica y sintáctica"

Presentaciones similares


Anuncios Google