4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

Slides:



Advertisements
Presentaciones similares
Todo lo que necesitas saber del HOM-BOT Square de LG El único robot cuadrado que llega donde otros ni se acercan.
Advertisements

Aspectos metodológicos 2 Metodología, Categorías y herramientas
TERMINOLOGÍA EN ESPAÑOL
Unidad I - Programación. Como están escritos los programamas de computadoras.
SOLUCIONES PARA BÚSQUEDA DE TEXTO EN AUDIO Y TRANSCRIPCIÓN DE VOZ A TEXTO Octubre de
¿Qué son Los Lenguajes de Programación?
Ingeniería de Software
Plan de estudios 2011 Competencias para la vida Perfil de egreso
Understanding SOA Design Patterns
Términos Básicos y Conceptos
Programación 1 Introducción
PRESENTADO POR: LUZ ADRIANA ARIZA STEPHANIE BOLAÑOS ANGELICA OSPINA
Presentación informática Roberto Plaza 1º Bachillerato
ETAPAS DE LA PLANEACIÓN
Buneder poblete karim david Saldaña ortiz alejandro ssd4
MOODLE ASPECTOS BÁSICOS
MODELOS DE BASES DE DATOS
Actividad 6. Requisitos del software, referente a la estructura y base de datos. M.C. Juan Carlos Olivares Rojas Syllabus May,
Ingeniería de Software
Biblioteca Virtual Ocenet Consulta ¡Bienvenidos!.
Sistemas Expertos.
INTRODUCCIÓN A LA SIMULACIÓN DE EVENTOS DISCRETOS
Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá
Diseño de algoritmos La computadora puede realizar procesos y darnos resultados, sin que tengamos la noción exacta de las operaciones que realiza. Con.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Diccionario de Datos.
ASESORA: ASTRID MOLINA LONDOÑO.  Sistematizar la práctica pedagógica desde experiencias innovadoras y significativas aplicando métodos y técnicas de.
Filminas Décima Semana CI-1322 Autómatas y Compiladores Elaborado por: Sergio Pastrana Espinoza A33888.
Sistemas Basados en Conocimiento (Knowledge Based Systems) Lic. Mario G. Oloriz Agosto 2004.
Ingeniería de Software

Ing. Rodolfo Junior Miranda Saldaña CIP: Chimbote- 2013
Servicio de sindicación
Gabriel Montañés León. RSS es el acrónimo de Really Simple Sindication (Sindicación Realmente Simple). Es un formato basado en el lenguaje XML que permite.
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) TRADUCTORES Y ANALIZADOR LEXICOGRÁFICO.
Elaboración automática de resúmenes Nahiko Arraiza Eguillor 17-V-2006.
Diseño de Sistemas.
Heiner Mercado Curso de Lingüística Computacional
1 ¿Qué es Usabilidad? Disciplina que estudia: distintos aspectos de la comunicación los factores humanos la ergonomía, con el objetivo de diseñar productos.
Introducción al análisis de sistemas
7/24/2015Lingüística Computacional1 LINGÜÍSTICA COMPUTACIONAL Carlos Mario Zapata J.
Ingeniería de Requisitos
El aprendizaje de la lengua
Posgrado en Sistemas Computacionales Heurísticas de usabilidad MC Luz María Moreno Aguilar Noviembre 2009.
P R O Y E C T O S.
C ONCEPTOS GENERALES DE LA LINGÜÍSTICA COMPUTACIONAL Ana María Tangarife Patiño.
Lingüística computacional unidad 2. análisis semántico
Lingüística computacional unidad 2. lexicones y corpus
Tecnologías del lenguaje
Minería de texto Análisis Documental.
Mejores Prácticas para el Desarrollo de Software Omar de Jesús Rosales Hernández.
FORMATO MARC21 FORMATO MARC: UN FORMATO BIBLIOGRAFICO. AUTOMATIZAR INFORMACIÓN BIBLIOGRÁFICA La automatización ha demostrado ser el medio más adecuado.
Modelos del Proceso Omar de Jesús Rosales Hernández.
Análisis de Requerimientos
SOFTWARE.  programas de computadoras. Son las instrucciones responsables de que el hardware (la máquina) realice su tarea.  Existen dos tipos  Programación.
Owens, R. (2003). Investigación y análisis del lenguaje, Desarrollo del lenguaje (pp ), Madrid: Pearson-Prentice Hall. 5ª ed.
DESARROLLO DE SOFTWARE Cuando se va desarrollar un software intervienen muchas personas como lo es el cliente quien es el que tiene el problema en su.
Elementos Conceptuales de proyectos: ¿Qué es un proyecto
DATA WAREHOUSE.
Computer Assisted Audit Techniques (CAATs)
Conveniencia entre compra o desarrollo a medida SOFTWARE A MEDIDA VENTAJASDESVENTAJAS. 1. Se ha diseñado específicamente para las necesidades empresariales.
Al finalizar el proceso de capacitación las y los formadores serán capaces de diseñar e implementar planificaciones didácticas que contemplen el conocimiento.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Fundamentos de Computación
Es un antivirus gratuito basado en cloud computing, especialmente diseñados para ofrecer protección desde la nube. Es un software de protección, como los.
Conalep 150 Tehuacán inmi 309 soma
Definición de Conceptos Evidencia 4 Recursos digitales Aniffrid Medina Gamboa Grupo: C13 Carlos Alberto Rodríguez Salazar Evidencia 4 Recursos.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (III)
Transcripción de la presentación:

4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.

4/27/2015Lingüística Computacional2 EJEMPLOS DE LEXICONES Diccionario: –Merriam-Webster. Lexicones: –EuroWordNet –Proyecto Aries –Universidad de Maryland –CIC-IPN

4/27/2015Lingüística Computacional3 LEXICON VS. CORPUS La calidad de los sistemas de PLN se mide con la calidad del lexicón asociado. Algunas palabras suelen escapar al alcance de los diccionarios convencionales y los legibles por máquina. Solución: Generación de lexicones, a partir de textos en lenguaje natural. Se realiza un proceso de adquisición léxica que se realiza con corpus anotados.

4/27/2015Lingüística Computacional4 ADQUISICIÓN DE CONOCIMIENTO LÉXICO Se deben poblar los lexicones. Se requieren miles de entradas, con muchas características cada entrada. Las fuentes son relativamente limitadas: existen pocos lexicones y no son muy completos; además, suelen ser costosos. La información ingresada al lexicón debería ser consistente y completa.

4/27/2015Lingüística Computacional5 FORMAS DE ADQUISICIÓN DE CONOCIMIENTO LÉXICO Manual: –Es la más costosa. –Muy usada para poblar lexicones. –Costos iniciales bajos. –La mayoría de aplicaciones en Lingüística Computacional son relativamente pequeñas y sólo requieren precisión en las palabras.

4/27/2015Lingüística Computacional6 FORMAS DE ADQUISICIÓN DE CONOCIMIENTO LÉXICO Diccionarios Legibles por Máquina: –La información requerida por los lexicones se encuentra en los diccionarios convencionales. –No es posible simplemente “citar” un diccionario. –Los diccionarios convencionales se producen con el usuario humano en mente (¿Sistemas de bases de datos?). –Los diccionarios convencionales pueden tener problemas de plenitud, consistencia y coherencia. –Se requiere una estructura para leer e incorporar la información en el lexicón (¿Se requeriría un sistema de PLN para leer el lexicón?).

4/27/2015Lingüística Computacional7 LINGÜÍSTICA DE CORPUS Corpus: Cuerpo de evidencia lingüística compuesta típicamente por usos probados del lenguaje. Ej: Conversaciones diarias, publicidad radial, escritos publicados, etc. Generalmente en formato legible por máquina. Colecciones bien organizadas de datos, recogidas mediante un marco de ejemplos diseñado para permitir la exploración de cierta característica lingüística mediante los datos recogidos

4/27/2015Lingüística Computacional8 TIPOS DE CORPUS Monolingüe: De un solo lenguaje. Comparable: Varios corpus monolingües recogidos en distintos lenguajes pero bajo ejemplificación similar. Paralelo: Un corpus monolingüe y sus traducciones a otros lenguajes. Hablados: Colecciones de grabaciones, pero que tienen mayor valor computacional cuando se acompañan de transcripciones.

4/27/2015Lingüística Computacional9 ANOTACIÓN DE CORPUS Mejoramiento de la información de un corpus con información de tipo lingüístico. Proceso manual (con analistas humanos), semiautomático o automático (haciendo uso de ciertas herramientas como lematizadores y etiquetadores de habla (part-of-speech taggers). La calidad de la anotación automática es inferior a la anotación manual.

4/27/2015Lingüística Computacional10 VENTAJAS DE LA ANOTACIÓN DE CORPUS Facilidad de explotación: Los corpus anotados tienen más utilidad que los corpus no anotados. Reusabilidad. Multifuncionalidad: surge de la reusabilidad, la cual genera nuevas formas de uso y funciones para los corpus anotados. Análisis explícito: se pueden analizar características lingüísticas específicas, e incluso recolectar el corpus con ellas en mente.

4/27/2015Lingüística Computacional11 CRÍTICAS A LA ANOTACIÓN DE CORPUS La anotación produce corpus impuros, puesto que la interpretación del analista se plasma en el corpus cuando lo anota. Existen diferencias apreciables en precisión y consistencia entre anotaciones automáticas y manuales. Las primeras son menos precisas pero más consistentes.

4/27/2015Lingüística Computacional12 USOS DE LOS CORPUS ANOTADOS Etiquetado de habla. Desambiguación. Extracción de Términos. Construcción de Bases de Conocimientos. Evaluación de Sistemas de Procesamiento del lenguaje. Anotación automática a partir de anotación manual.

4/27/2015Lingüística Computacional13 EJEMPLOS DE CORPUS Google. MICASE.