Los corpus lingüísticos y la industria del lenguaje

Slides:



Advertisements
Presentaciones similares
El CSIC en la encrucijada de los lenguajes documentales Luis Rodríguez Yunta – CSIC, Unidad ISOC.
Advertisements

Introducción a la minería de datos
Programa de Estudio Tercer Año Medio.
TERMINOLOGÍA EN ESPAÑOL
7. LA TRADUCCIÓN Y LA TERMINOLOGÍA
TERMINOLOGÍA EN ESPAÑOL
5. LA TERMINOGRAFÍA: FUNDAMENTOS, MATERIALES Y METODOLOGÍA
María Simarro Vázquez 4. LA DOCUMENTACIÓN ESPECIALIZADA.
Módulo Profesional: Idioma Extranjero. Inglés
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
Herramientas para la Investigación
La web semántica y su impacto en la recuperación de información
¿Cómo hacer para que una máquina comprenda el LN?
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
LENGUA A CRITERIOS DE EVALUACIÓN PAI
Buscar bibliografía en
INTERFAZ DE ACCES DISEÑO DE BASE DE DATOS
Software La buena programación no se aprende de generalidades, sino viendo cómo los programas significativos pueden hacerse claros, “fáciles” de leer,
Muestra: Recolección de Datos: Análisis de Datos:
04. Título, resumen y palabras clave
HERRAMIENTAS CASE.
MUESTRA Implica DEFINIR la unidad de análisis (personas, situaciones, individuos, eventos, fenómeno, ensayo)
INVESTIGACIÓN CUANTITATIVA Y CUALITATIVA
Características de un Data Warehouse
1. Introducción El objetivo final del proyecto piloto es probar el uso de la tecnología XBRL para el intercambio de información financiera entre el Banco.
Sistemas Evolutivos Introduccion.
INTELIGENCIA DE NEGOCIOS
El análisis y recuperación de información
NIVELES COMPETENCIALES
Sistemas de Información IS95872
Business Intelligence y Data Mining
Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.
Dime con quién andas: Las Bases de Datos Bibliográficas como Herramientas de Medición Jane M. Russell Barnard Instituto de Investigaciones Bibliotecológicas.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.
Plan de Sistemas de Información (PSI)
RECOMENDACIONES PARA EL ANÁLISIS DE LOS RESULTADOS
Presenta: Lic. Gloria Concepción Tenorio Sepúlveda. Asesor Tutor: Mtro. Fernando Gustavo Lozano Martínez. Asesor Titular: Dra. María Soledad Ramírez Montoya.
INFORMATICA VII (Programación e implementación de sistemas)
Técnicas de Indización y Resumen Félix del Valle Gastaminza 5º A Licenciatura en Documentación Curso
Diseño De Sistemas Catedrático: Ing. Ezequiel Santillán A. Miércoles, Febrero09, 2011 T í t u l o: ANALISIS DE SISTEMAS (REQUERIMIENTOS)
“Introducción a las Ciencias de la Informática”
Tecnologías para el Aprendizaje
Web Semántica La Web Semántica es la nueva generación de la Web, que intenta realizar un filtrado automático preciso de la información. Para ello, es necesario.
FUNDAMENTOS DE MARKETING
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) TRADUCTORES Y ANALIZADOR LEXICOGRÁFICO.
EL ANALISIS DE CONTENIDO
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Heiner Mercado Curso de Lingüística Computacional
Revisión de literatura y construcción del marco teórico
Proceso de investigación científica: Diseño de un perfil de investigación Nikolay Aguirre, Ph.D. Director del Programa de investigación: Biodiversidad,
GreenData © Tel Soporte para la implantación de ISI WEB OF KNOWLEDGE Formación de usuarios Parte III.
C ONCEPTOS GENERALES DE LA LINGÜÍSTICA COMPUTACIONAL Ana María Tangarife Patiño.
Estrategias eficientes para buscar y encontrar
Lingüística computacional unidad 2. lexicones y corpus
Auditoria Computacional
LENGUA Y LITERATURA Curso
Estrategias efectivas para buscar y encontrar información Dr. Valentino Morales López Investigador INFOTEC Centro de Investigación.
Owens, R. (2003). Investigación y análisis del lenguaje, Desarrollo del lenguaje (pp ), Madrid: Pearson-Prentice Hall. 5ª ed.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
TECNICATURA ANALISTA PROGRAMADOR
Algunas anotaciones sobre las TIC y los procesos de investigación Vivian Rivera R. Setiembre, 2015.

Taller de investigación 1
Traducción Científico-Periodística Año 2014
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Sanders, T. (2006). “Text and Text Analysis Encyclopedia of Language and Linguistics.
Transcripción de la presentación:

Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL

Los corpus lingüísticos ¿Qué es un corpus? Una recopilación de palabras/textos ¿Teoría o metodología lingüística?

Los corpus lingüísticos ¿Por qué usar corpus? Indican/corroboran tendencias/normalidad sobre el uso real de la lengua Indican usos raros (textos aislados) Método objetivo (humano/ordenador)

Los corpus lingüísticos ¿Cómo compilar un corpus? Gran volumen de texto Representativo (lenguaje general, fines específicos, género literario, autor, etc. Formato digitalizado y estandarizado Referencia o estándar Anotaciones (partes de la oración, etc.)

Los corpus lingüísticos Texto sin anotar

Los corpus lingüísticos Marcadores de título y párrafos

Los corpus lingüísticos Marcadores oracionales

Los corpus lingüísticos Marcadores de puntuación

Los corpus lingüísticos Macadores de palabras

Los corpus lingüísticos Marcadores de categorías gramaticales

Tipología de corpus lingüísticos Corpus especializados: Géneros (literarios, lenguaje periodístico, etc.) Cronológicos (2000-2005, etc.) Topográficos (textos en español publicados en China, etc.) Corpus generalistas: Mayor tamaño que los especializados (BNC: 100M, EBr oral y escrito)

Tipología de corpus lingüísticos

Tipología de corpus lingüísticos Corpus multilingües (español-inglés, etc.) Corpus paralelos (CRATER, etc.) Corpus de “aprendices” (International Corpus of Learner English, etc.) Corpus históricos/diacrónicos (Helsinki Corpus 700-1700) Corpus monitor (Bank of English)

Concepto de cuantificación “WASH” Frecuencia 2415 Distribución/textos 952 Fuente (BNC) 97.626.093 Frecuencia relativa/mil. 24,74

Concepto de cuantificación

Concepto de cuantificación

Concepto de cuantificación

Concepto de cuantificación “WASH” Categoría Palabras Frecuencia Frecuencia relativa/M Femeninos 3.267.444 298 91,2 Masculinos 4.920.742 178 36,17 Total 8.188.186 476 58,13

Aplicaciones a la industria del lenguaje Lexicografía, EL y terminología Lingüística forense y clínica Ingeniería lingüística Resumen automático de textos Memorias de traducción y traducción automática Comprensión/generación automática del discurso Anotación automática del corpus Respuesta automática a preguntas Reconocimiento de tema Desambiguación automática …

Aplicaciones a la industria del lenguaje Lexicografía Descripción del vocabulario de una lengua -> diccionarios Fuentes de información tradicionales Intuición Otros diccionarios Citas de autores reconocidos en libros/ periódicos, etc.

Aplicaciones a la industria del lenguaje Lexicografía Problemas: Parcialmente válidas Plagio Insuficientes para compilación de diccionarios No dan una visión actualizada y completa del uso lingüístico real

Aplicaciones a la industria del lenguaje Lexicografía Córpora: Posibilidades de análisis lingüístico se multiplican Análisis detallado de la lengua tal y como es usada: Descubrir regularidades (e irregularidades) Amplio espectro del uso real: Perspectiva más amplia y Con índices de frecuencia relativa más fiables

Aplicaciones a la industria del lenguaje Lexicografía Iniciativa pionera: Universidad de Birmingham y editorial Collins (ahora Harper-Collins), Proyecto COBUILD Collins COBUILD Dictionary of English Language supuso una revolución: Ámbitos del estudio lingüístico y lexicológico Construcción del corpus Creación de la base de datos Compilación del diccionario

Aplicaciones a la industria del lenguaje Lexicografía Examen detallado de muestras representativas orales y escritos (de 20 millones de palabras) Profundo análisis empírico de la lengua Evidencia mensurable: metodología cuantitativa y cualitativa

Aplicaciones a la industria del lenguaje Lexicografía Extraer información sobre Significado de las palabras Usos Patrones sintácticos que caracterizan cada una de las diferentes acepciones Colocaciones más frecuentes Diccionario innovador: Estructura de las definiciones Organización de las entradas

Aplicaciones a la industria del lenguaje Lexicografía Córpora: Herramienta lexicográfica fundamental: Diferentes acepciones Colocaciones y fraseología Información decisiva sobre: Diferencias de uso entre lengua oral vs. escrita Frecuencia relativa de uso de determinadas palabras y acepciones Inclusión/exclusión de entradas o acepciones

Aplicaciones a la industria del lenguaje Lexicografía Análisis exhaustivo de grandes cantidades de texto computerizado: Información indispensable sobre la gramática Relaciones semánticas Aceptabilidad de determinados usos Usos innovadores u obsoletos de palabras Palabras o expresiones de nueva creación Aspectos pragmáticos La macroestructura de los diccionarios ha cambiado. Cada vez se incluye más información sobre la lengua y su uso

Aplicaciones a la industria del lenguaje

Aplicaciones a la industria del lenguaje Lexicografía Un corpus no es de utilidad: Si no se cuenta con las herramientas de análisis adecuadas (software/técnicas): Procesar los textos de formas diferentes Ofrecer un alto nivel de flexibilidad en el tipo de búsquedas

Aplicaciones a la industria del lenguaje

Aplicaciones a la industria del lenguaje

Aplicaciones a la industria del lenguaje

Aplicaciones a la industria del lenguaje

Aplicaciones a la industria del lenguaje

Aplicaciones a la industria del lenguaje Terminología Textos especializados Unidades léxicas relevantes Frecuencia o de prominencia temática Unidades de significación especializada Unidades terminológicas

Aplicaciones a la industria del lenguaje Terminología El conocimiento es un continuo, integra Conocimiento de un área de especialidad De otras áreas afines Conocimiento general Propuesta de representarlo en una ontología de conceptos Relaciona conceptos específicos con otros De otras áreas afines o Del conocimiento general

Aplicaciones a la industria del lenguaje Terminología Ontología: ámbito de la ingeniería del conocimiento: Conjunto de conceptos organizados jerárquicamente Representados en algún sistema informático Sirve de soporte a aplicaciones que requieren de conocimiento específico sobre la materia que la ontología representa Cuerpo estructurado de conocimiento

Aplicaciones a la industria del lenguaje

Aplicaciones a la industria del lenguaje

Aplicaciones a la industria del lenguaje

Lingüística clínica y forense

Lingüística clínica y forense Las alteraciones del lenguaje es una de las manifestaciones más habituales de la EA Los trastornos del lenguaje suelen aparecer después de la afectación de la memoria En fases tempranas de la EA pueden aparecer dificultades de lenguaje incluso antes de evidenciarse ninguna de las manifestaciones clínicas

Lingüística clínica y forense Objetivo: Identificar potenciales variables lingüísticas susceptibles de alterarse en la fase incipiente de Alzheimer

Lingüística clínica y forense Variables:

Lingüística clínica y forense For instance, suppose we have a speech sample of Harold Wilson

Lingüística clínica y forense Depresión: Estado anímico muy negativo: Baja estima Falta de interés Hipomanía: Estado anímico muy positivo: Euforia y energía Creatividad

Lingüística clínica y forense Variables: Técnicas/metodología de lingüística de corpus Medidas léxicas estándar de lingüística de corpus (8): Riqueza léxica: (1) Ratio tipo-token estándarizada (Tweedie and Baayen 1998) (2) Ratio palabras de contenido (Stubbs 2002) Rasgos léxicos del léxico mental: (3) Longitud media de palabras (Nam et al. 2004) (4) Palabras “largas” (>10 caractéres; Biber and Jones 2005) (5) Hapax legomena (Oaks 2009) (6) Hapax legomena exclusivas Dificultad léxico-semántica de los textos: (7) Longitud media oraciones (palabras: Kelih et al. 2006). (8) Automated readability index (Bruce and Rubin 1988).

Lingüística clínica y forense Atención en … Datos “no” normales (más allá ± 2 DS) Grandes fluctuaciones

Lingüística clínica y forense Abnormalities:

Lingüística clínica y forense Conclusiones Periodo 1: alternaciones en léxico y sintaxis Periodo 2: gran variabilidad en las alternaciones Period 3: alternaciones en exclusión mutua en dos sub- periodos: (i) med.1842 (palabras “raras”) y (ii) fin 1842 – princ.1843 (variabilidad léxica) Period 4: alteraciones más notables; siguen patrón (menor especificidad léxica, variabilidad léxica y sintáctica)

Lingüística clínica y forense Delta de Burrows: Medir diferencias léxicas entre textos (determinar autorías, lingüística forense…) Se basa en el perfil léxico de las frecuencias relativas de las palabras funcionales

Lingüística clínica y forense Rank Word Main set Suspect Unknown play Mean SD Score Z-score Z-Score Diff. Abs.Diff 1 The 4.242 0.630 4.719 0.757 4.901 -0.239 -0.996 0.996 2 And 3.770 0.501 4.407 1.272 4.165 0.789 -0.483 0.483 3 Of 1.821 0.315 2.420 1.905 2.769 3.015 1.110 4 A 1.601 0.430 0.893 -1.645 0.696 -2.103 -0.458 0.458 5 To 1.419 0.272 1.247 -0.634 1.289 -0.480 0.154 …

Lingüística clínica y forense Rank Word Main set Suspect Unknown play Mean SD Score Z-score Z-Score Diff. Abs.Diff 1 The 4.242 0.630 4.719 0.757 4.091 -0.239 -0.996 0.996 2 And 3.770 0.501 4.407 1.272 4.165 0.789 -0.483 0.483 3 Of 1.821 0.315 2.420 1.905 2.769 3.015 1.110 4 A 1.601 0.430 0.893 -1.645 0.696 -2.103 -0.458 0.458 5 To 1.419 0.272 1.247 -0.634 1.289 -0.480 0.154 … 1

Lingüística clínica y forense Rank Word Main set Suspect Unknown play Mean SD Score Z-score Z-Score Diff. Abs.Diff 1 The 4.242 0.630 4.719 0.757 4.091 -0.239 -0.996 0.996 2 And 3.770 0.501 4.407 1.272 4.165 0.789 -0.483 0.483 3 Of 1.821 0.315 2.420 1.905 2.769 3.015 1.110 4 A 1.601 0.430 0.893 -1.645 0.696 -2.103 -0.458 0.458 5 To 1.419 0.272 1.247 -0.634 1.289 -0.480 0.154 … 1 2

Lingüística clínica y forense Rank Word Main set Suspect Unknown play Mean SD Score Z-score Z-Score Diff. Abs.Diff 1 The 4.242 0.630 4.719 0.757 4.091 -0.239 -0.996 0.996 2 And 3.770 0.501 4.407 1.272 4.165 0.789 -0.483 0.483 3 Of 1.821 0.315 2.420 1.905 2.769 3.015 1.110 4 A 1.601 0.430 0.893 -1.645 0.696 -2.103 -0.458 0.458 5 To 1.419 0.272 1.247 -0.634 1.289 -0.480 0.154 … 1 3 2

Lingüística clínica y forense Burrows’ Delta Suspects ∆ Candidate 1 0.6402 1st 2 1.205 4th 3 1.075 2nd 4 1.087 3rd 5 2.632 5th …

Lingüística clínica y forense Linguistic Inquiry and Word Count (LIWC; Pennebaker, Francis y Booth, 2001): 2.200 palabras y raíces léxicas agrupadas en 75 categorías y Clasificadas en cuatro grandes dimensiones: Procesos lingüísticos estándares Procesos psicológicos Relatividad y Asuntos personales

Lingüística clínica y forense

Lingüística clínica y forense Medida F1 (media armónica de precisión y exhaustividad): Dimensión 2 (procesos psicológicos 68,3%); mejor clasificador independiente (verdad: pensar/saber; mentira: siempre/nunca). Dimensión 3: bajo rendimiento como dim. única. Dimensión 1+2+3 resulta más exitosa (73,1%) Los mejores resultados obtenidos sobre el conjunto de datos de las corridas de toros se consiguen con la combinación 1_3 (68%) Saturación factorial de las cuatro dimensiones y su correlato con la temática juegan un papel importante

Ingeniería lingüística Objetivo: Facilitar la comunicación hombre-máquina y máquina-máquina Se nutre de diferentes disciplinas: Terminología Lingüística computacional Traducción Otras disciplinas relacionadas con la informática y la lengua

Ingeniería lingüística Se orienta a aplicaciones diversas: Generación de textos Localización de ontologías Recuperación de información Traducción automática o asistida Analizadores sintácticos Análisis de contenido multilingüe ….etc.

Ingeniería lingüística Memorias de traducción: Depósito de textos en una lengua con sus correspondientes traducciones a una o más lenguas Memorias de traducción = corpora paralelos Una memoria de traducción es básicamente un tipo especial de base de datos

Ingeniería lingüística Memorias de traducción: Traducción automática: Crea traducciones automáticas a partir de segmentos Recupera traducciones anteriores

Ingeniería lingüística Memorias de traducción: Evita tener que traducir de nuevo un segmento ya traducido Ayuda notable para la traducción de textos repetitivos Manuales técnicos, documentos administrativos, partes meteorológicos o financiares,... → Reducción de los costes de uso

Ingeniería lingüística Memorias de traducción: Aumento de la productividad (10-30%) Ahorro de tiempo y de dinero Aumento de la coherencia: ayuda para traducir los segmentos de la misma manera que han sido traducidos antes Plazo de entrega reducido

Ingeniería lingüística Traducción automática Google Translate: No utiliza algoritmo de traducción No extrae el significado de las frases a partir del vocabulario y de normas gramaticales Parte de la suposición de que toda frase ha podido ser dicha/traducida antes No funcionaría sin el trabajo de miles de horas de quienes ya han traducido en el pasado.

Ingeniería lingüística Traducción automática Google Translate: Dispone de enorme base de datos (corpus) para consultar frases registradas anteriormente en el idioma requerido: Documentos UE, ONU, agencias (varios idiomas oficiales) Incluyen distintos registros (tribunales internacionales, informes de empresa, etc.) Artículos y libros en formato bilingüe

Ingeniería lingüística Traducción automática Google Translate: Busca en toda esa información Si encuentran varias traducciones para un texto: Selecciona la versión más aceptable a través de métodos estadísticos Ofrece traducciones hasta en 58 idiomas (doble vía)

Ingeniería lingüística Resumen automático de textos Localizar los fragmentos más relevantes (según las necesidades del usuario): Segmentos, oraciones, párrafos o pasajes Ordenación de estos fragmentos por relevancia Producción del resumen

Ingeniería lingüística Resumen automático de textos Tres pasos: Identificación temática: extracción de términos/palabras clave Identificación de oraciones/segmentos con dichos términos/palabras clave Generación del resumen (coherencia…)

Ingeniería lingüística

Ingeniería lingüística

Ingeniería lingüística Minería de textos Tecnología emergente Objeto: Descubrir a partir de texto/datos Conocimiento/información no trivial, desconocida y potencialmente útil; que no está literalmente en dichos documentos Buscar tendencias, opiniones, promedios, desviaciones, dependencias, etc.

Ingeniería lingüística Minería de textos Área multidisciplinar, convergen diferentes paradigmas de computación: Construcción de árboles de decisión Inducción de reglas Redes neuronales artificiales Descubrimiento basado en instancias Programación lógica Algoritmos estadísticos, etc.

Ingeniería lingüística Minería de textos: ejemplos Comercio/Marketing Identificación de patrones de compra de los clientes Búsqueda de asociaciones entre clientes y características demográficas Predicción de respuesta a campañas de correo Análisis de cestas de la compra

Ingeniería lingüística Minería de textos: ejemplos Banca Detección de patrones de uso fraudulento de tarjetas de crédito Identificación de clientes leales Predicción de clientes con probabilidad de cambiar su afiliación Determinación del gasto de tarjeta de crédito por grupos

Ingeniería lingüística Minería de textos: ejemplos Medicina Identificación de terapias médicas adecuadas para diferentes enfermedades Asociación de síntomas y clasificación diferencial de patologías Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo

Ingeniería lingüística Big Data Disciplina que se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos Dificultades más habituales: Captura Almacenamiento Búsqueda Análisis Visualización

Ingeniería lingüística “There are more things in heaven and earth, Horatio, than are dreamt of in your philosophy.” (Hamlet, Act 1, Scene V)

Epílogo El estudio de la lengua real/en uso para potenciales aplicaciones comerciales precisa irremediablemente de los corpus lingüísticos. No se concibe una industria del lenguaje sin corpus lingüísticos y/o grandes conjuntos de datos lingüísticos.

Muchas Gracias