Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porTrinidad Iglesias Soriano Modificado hace 6 años
1
Anotación morfosintáctica y sintáctica
Lingüística de corpus
2
sintaxis y morfosintaxis
estudia las reglas que gobiernan la forma en que las palabras se organizan en sintagmas y, a su vez, estos sintagmas en oraciones estudia forma y función de los elementos lingüísticos dentro de la oración permite estudiar las categorías gramaticales en su contexto sintáctico
3
etiquetado morfosintáctico
cada palabra gráfica y cada unidad léxica tiene una categoría gramatical/clase de palabras/parte de la oración (Part of Speech) asignación de una etiqueta de este tipo a cada palabra se conoce como etiquetado POS (POS Tagging)
4
etiquetado morfosintáctico
Identificación de palabras o unidades léxicas definición de las clases de palabras pertinentes definición de las etiquetas que representan dichas clases procedimiento de etiquetado
5
PUEBLA PEROTE JALAPA VERACRUZ
La palabra PUEBLA PEROTE JALAPA VERACRUZ
6
la palabra palabra gráfica palabras y unidades léxicas
¿lo que ocurre entre dos espacios? puntuación, números, siglas palabras y unidades léxicas diversas definiciones de “palabra” fronteras convencionales de las palabras (clíticos o afijos) “me la dio”, “dámela” pero *“me no la dio” ¿concordancia con argumentos del verbo? problemas tipológicos: lenguas analíticas vs sintéticas en lenguas poco estudiadas no siempre es claro si algo es un modificador/clítico o marca de flexión
7
la palabra Multipalabras (varias palabras gráficas unidad léxica)
sentido total diferente a la suma de los sentidos de las partes (“por favor”, “de acuerdo a”, “vuestra merced” , “San Luis Potosí”, “Comisión Nacional del Agua”, etc.) nombres propios (lugares, personas, instituciones) fechas términos (denotan conceptos de especialización)
8
la palabra Composición método de formación de unidades léxicas
sacacorchos, sociocultural, etc. veces son multipalabras (hombre rana) muy productivo en muchas lenguas blackbird, black-bird, black bird Begriffsinhaltsbeschreibung
9
la palabra Acortamientos (mergers): una palabra gráfica varias unidades léxicas enclíticos del español: cómetelo = come+te+lo contracciones (portmanteaus) gramaticales: del, al, desta; dunno, gonna, gotta,.. idiomáticas: pa’l, mi’jo; don’t siglas (UNAM) y acrónimos (Conacyt) Abreviaturas y notaciones R.S.V.P; H2O punto de las abreviaturas
10
definición de las clases
consenso inexistente depende del objetivo específico del corpus el conjunto de clases puede ser pequeño (las más elementales) 10 ó 12; o muy grande (varios cientos) con detalles descriptivos de fenómenos específicos tres niveles posibles de clases obligatorias: verbo, sustantivo, etc. recomendadas: accidentes gramaticales, casos, etc. opcionales: concreto, abstracto, sarcasmo, etc.
11
definición de las etiquetas
características deseables brevedad claridad de interpretación estructura analizable ejemplos Penn Treebank EAGLES Etiquetario morfosintáctico (corpus IULA)
12
Métodos de etiquetado Basados en reglas Estadísticos Híbridos
gramáticas y autómatas Estadísticos n-gramas y probabilidad condicional Híbridos
13
ejemplos Analizador morfológico, etiquetador y parser del Grupo de PLN de la UPC Memory Based Tagging Demo
14
lematización lema lematización vs stemming
forma canónica del diccionario; lexema; raíz o tema lematización vs stemming métodos: Porter, entropía, etc. palabras gráficas lemas somos, soy, eres, fueron ser voy, fui, irán ir poder, pudieron, podrán poder
15
ejemplos Muestra (corpus IULA)
16
análisis sintáctico (parsing)
análisis de las relaciones entre constituyentes de la oración se generan árboles sintácticos categorías: sujeto, nodo verbal, complemento directo, sintagma circunstancial, etc. poco preciso y ambiguo muy costoso [O [SN El_Art hombre_Sust SN] [SV vio_Vb [SP a_Prep [SN la_Art nena_Sust SN] SP] [SP en_Prep [SN el_Art parque_Sust SN] SP] [SP con_Prep [SN el_Art telescopio_Sust SN] SP] SV] O]
17
análisis sintáctico parcial
análisis superficial (shallow) o chunking chunks: regiones del texto que no se intersectan En [un lugar] de [la Mancha] de [cuyo nombre] no quiero acordarme idea: determinar los constituyentes principales que sirven de argumentos verbales, sin especificar etiquetas
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.