Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porRaquel Salmeron Modificado hace 9 años
1
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Carlos Mario Zapata J. 4/14/2017 Lingüística Computacional
2
SUMARIZACIÓN DE TEXTOS
No hay unidad en cuanto a las definiciones de “Resumen” Un resumen es un texto que se produce a partir de uno o más textos, que contiene una porción significativa de la información de los textos originales, y cuya extensión es menos de la mitad del texto original. Los textos pueden ser documentos multimediales, hipertextos, etc. 4/14/2017 Lingüística Computacional
3
SUMARIZACIÓN DE TEXTOS
Tipos de resumen: Indicativos: que proveen una idea de qué es el texto sin entregar contenidos. Informativos: que proveen una versión corta del contenido. Extractos: son resúmenes creados reutilizando porciones del original. Abstractos: son resúmenes creados regenerando el contenido extraído. 4/14/2017 Lingüística Computacional
4
SUMARIZACIÓN DE TEXTOS
Etapas: Identificación de Tópicos: Tópico es un sujeto particular de lo que se escribe o discute. Son los resúmenes más simples. Se identifican las unidades más importantes (palabras, frases, párrafos, etc.). Se listan o se diagraman esas unidades. 4/14/2017 Lingüística Computacional
5
SUMARIZACIÓN DE TEXTOS
Etapas: Interpretación: Fusión de conceptos, evaluación y otros tipos de procesamiento. Generalmente se hace después de la identificación. Requiere de fuentes adicionales al documento de entrada. Existen pocos modelos del dominio que permitan interpretación. 4/14/2017 Lingüística Computacional
6
SUMARIZACIÓN DE TEXTOS
Etapas: Generación de resúmenes: Se busca producir textos legibles por humanos. Generalmente sólo se logra mejorar un poco la coherencia y densificar el fraseo. Se procura mejorar la coherencia, encadenar las referencias, restablecer los vínculos del discurso, eliminar material repetido y completar el material omitido. 4/14/2017 Lingüística Computacional
7
SUMARIZACIÓN DE TEXTOS
Métodos de sumarización: Identificación de tópicos: Se suelen emplear varios módulos independientes. Cada módulo asigna un marcador a cada unidad de entrada (palabra, oración o pasaje). Un módulo adicional combina los marcadores de cada unidad para darles un marcador final. Se organizan los marcadores de mayor a menor y se muestra hasta un umbral asignado. Criterio de posición: usar el primer párrafo como resumen. Se han desarrollado algoritmos para encontrar otras posiciones importantes. 4/14/2017 Lingüística Computacional
8
SUMARIZACIÓN DE TEXTOS
Métodos de sumarización: Identificación de tópicos: Criterio del indicador de frases clave: Extraer frases que contengan palabras especiales (“significativo”, “en este artículo se muestra”). Criterio de frecuencia de frases y palabras: Si un texto contiene algunas palabras inusualmente frecuentes, esas oraciones contienen palabras que son probablemente importantes. 4/14/2017 Lingüística Computacional
9
SUMARIZACIÓN DE TEXTOS
Métodos de sumarización: Identificación de tópicos: Criterio de traslapo de búsqueda y título. Criterio de conexión léxica o cohesiva: Las palabras más importantes son aquellas que estén más conectadas. Criterio de la estructura del discurso: asignar marcadores con base en la estructura. Combinación de varios marcadores de módulos. 4/14/2017 Lingüística Computacional
10
SUMARIZACIÓN DE TEXTOS
Métodos de sumarización: Interpretación o fusión de tópicos: Se fusionan los tópicos identificados como importantes, se representan en nuevos términos y se expresan en una nueva formulación, usando conceptos o palabras que no están en el texto original. Requiere conocimiento previo del dominio. Se ha usado extracción de información. Se ha intentado abstracción conceptual. 4/14/2017 Lingüística Computacional
11
SUMARIZACIÓN DE TEXTOS
Métodos de sumarización: Generación de resúmenes: La identificación y la interpretación generan resúmenes legibles por máquina que deben ser traducidos a textos legibles por humanos. Se usan técnicas de generación del lenguaje natural. La compresión de textos ha sido una de las técnicas usadas para producir árboles sintácticos únicos a partir de varios árboles sintácticos. 4/14/2017 Lingüística Computacional
12
SUMARIZACIÓN DE TEXTOS
Métricas: Tasa de compresión: TC = Longitud del resumen / Longitud del texto. Tasa de retención: TR = información en el resumen / información en el texto. Buen resumen: TC pequeño con TR grande. 4/14/2017 Lingüística Computacional
13
SUMARIZACIÓN DE TEXTOS
Métricas: Comparación con un resumen hecho por humanos: Correcto = número de sintagmas extraídos por el sistema y el humano. Erróneo = número de sintagmas extraídos por el sistema y no por el humano. Perdido = número de sintagmas extraídos por el humano y no por el sistema. Precisión = correcto / (correcto + erróneo) Similitud = correcto / (correcto + perdido) 4/14/2017 Lingüística Computacional
14
SUMARIZACIÓN DE TEXTOS
Herramientas de sumarización online: 4/14/2017 Lingüística Computacional
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.