Descargar la presentación
La descarga está en progreso. Por favor, espere
1
LINGÜÍSTICA COMPUTACIONAL
01 NOCIONES BÁSICAS
2
NOCIONES BÁSICAS 1. Definición 2. Corpus 3. Treebanks 4. Wordnet
5. Token/Type/Lemma 6. Hapax 7. Ley de Zipf 8. Colocaciones 9. Concordancias
3
1. Definición La lingüística computacional es un campo multidisciplinar de la lingüística y la informática que utiliza la informática para estudiar y tratar el lenguaje humano. Para lograrlo, intenta modelar de forma lógica el lenguaje natural desde un punto de vista computacional. Dicho modelado no se centra en ninguna de las áreas de la lingüística en particular, sino que es un campo interdisciplinar, en el que participan lingüistas, informáticos especializados en inteligencia artificial, psicólogos cognoscitivos y expertos en lógica, entre otros. Algunas de las áreas de estudio de la lingüística computacional son: Corpus lingüístico asistido por ordenador. Diseño de analizadores sintácticos (en inglés: parser), para lenguajes naturales. Diseño de etiquetadores o lematizadores (en inglés: tagger), tales como el POS-tagger. Definición de lógicas especializadas que sirvan como fuente para el Procesamiento de Lenguajes Naturales. Estudio de la posible relación entre lenguajes formales y naturales. Traducción automática. WIKIPEDIA
4
2. Corpus Un corpus es una colección de textos.
En Lingüística Computacional un corpus es una colección electrónica de texto, que se encuentra indexado de alguna manera y que incluye metadatos. Brown (1MM) British National Corpus (100MM) CORDE, CREA (250MM) CODICACh (900MM)
5
3. Treebanks Un treebank es un corpus de textos analizados sintácticamente. Penn UAM (5000 oraciones)
6
4. Wordnet Wordnet es un diccionario establecido sobre una red semántica.
7
5. Token/Type/Lemma Un token es una entrada o palabra en un corpus.
Un type es cada palabra diferente de un corpus. Un lemma es cada raíz diferente en un corpus. La oración: La niña y los niños se la jugaron. Tiene: 8 tokens 7 types (la se cuenta solo una vez) 6 lemmas (la y los se cuenta solo una vez)
8
6. Hapax Un hapax es una palabra que solo ocurre una vez en un corpus
9
7. Ley de Zipf
10
8. Colocaciones Una colocación es una combinación de dos o más palabras seguidas o no en un corpus que tienden a aparecer juntas.
11
9. Concordancias Una concordancia es un desarrollo de todas las apariciones de una palabra en un corpus contextualizadas.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.