La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)

Presentaciones similares


Presentación del tema: "APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)"— Transcripción de la presentación:

1 APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Carlos Mario Zapata J. 4/14/2017 Lingüística Computacional

2 SUMARIZACIÓN DE TEXTOS
No hay unidad en cuanto a las definiciones de “Resumen” Un resumen es un texto que se produce a partir de uno o más textos, que contiene una porción significativa de la información de los textos originales, y cuya extensión es menos de la mitad del texto original. Los textos pueden ser documentos multimediales, hipertextos, etc. 4/14/2017 Lingüística Computacional

3 SUMARIZACIÓN DE TEXTOS
Tipos de resumen: Indicativos: que proveen una idea de qué es el texto sin entregar contenidos. Informativos: que proveen una versión corta del contenido. Extractos: son resúmenes creados reutilizando porciones del original. Abstractos: son resúmenes creados regenerando el contenido extraído. 4/14/2017 Lingüística Computacional

4 SUMARIZACIÓN DE TEXTOS
Etapas: Identificación de Tópicos: Tópico es un sujeto particular de lo que se escribe o discute. Son los resúmenes más simples. Se identifican las unidades más importantes (palabras, frases, párrafos, etc.). Se listan o se diagraman esas unidades. 4/14/2017 Lingüística Computacional

5 SUMARIZACIÓN DE TEXTOS
Etapas: Interpretación: Fusión de conceptos, evaluación y otros tipos de procesamiento. Generalmente se hace después de la identificación. Requiere de fuentes adicionales al documento de entrada. Existen pocos modelos del dominio que permitan interpretación. 4/14/2017 Lingüística Computacional

6 SUMARIZACIÓN DE TEXTOS
Etapas: Generación de resúmenes: Se busca producir textos legibles por humanos. Generalmente sólo se logra mejorar un poco la coherencia y densificar el fraseo. Se procura mejorar la coherencia, encadenar las referencias, restablecer los vínculos del discurso, eliminar material repetido y completar el material omitido. 4/14/2017 Lingüística Computacional

7 SUMARIZACIÓN DE TEXTOS
Métodos de sumarización: Identificación de tópicos: Se suelen emplear varios módulos independientes. Cada módulo asigna un marcador a cada unidad de entrada (palabra, oración o pasaje). Un módulo adicional combina los marcadores de cada unidad para darles un marcador final. Se organizan los marcadores de mayor a menor y se muestra hasta un umbral asignado. Criterio de posición: usar el primer párrafo como resumen. Se han desarrollado algoritmos para encontrar otras posiciones importantes. 4/14/2017 Lingüística Computacional

8 SUMARIZACIÓN DE TEXTOS
Métodos de sumarización: Identificación de tópicos: Criterio del indicador de frases clave: Extraer frases que contengan palabras especiales (“significativo”, “en este artículo se muestra”). Criterio de frecuencia de frases y palabras: Si un texto contiene algunas palabras inusualmente frecuentes, esas oraciones contienen palabras que son probablemente importantes. 4/14/2017 Lingüística Computacional

9 SUMARIZACIÓN DE TEXTOS
Métodos de sumarización: Identificación de tópicos: Criterio de traslapo de búsqueda y título. Criterio de conexión léxica o cohesiva: Las palabras más importantes son aquellas que estén más conectadas. Criterio de la estructura del discurso: asignar marcadores con base en la estructura. Combinación de varios marcadores de módulos. 4/14/2017 Lingüística Computacional

10 SUMARIZACIÓN DE TEXTOS
Métodos de sumarización: Interpretación o fusión de tópicos: Se fusionan los tópicos identificados como importantes, se representan en nuevos términos y se expresan en una nueva formulación, usando conceptos o palabras que no están en el texto original. Requiere conocimiento previo del dominio. Se ha usado extracción de información. Se ha intentado abstracción conceptual. 4/14/2017 Lingüística Computacional

11 SUMARIZACIÓN DE TEXTOS
Métodos de sumarización: Generación de resúmenes: La identificación y la interpretación generan resúmenes legibles por máquina que deben ser traducidos a textos legibles por humanos. Se usan técnicas de generación del lenguaje natural. La compresión de textos ha sido una de las técnicas usadas para producir árboles sintácticos únicos a partir de varios árboles sintácticos. 4/14/2017 Lingüística Computacional

12 SUMARIZACIÓN DE TEXTOS
Métricas: Tasa de compresión: TC = Longitud del resumen / Longitud del texto. Tasa de retención: TR = información en el resumen / información en el texto. Buen resumen: TC pequeño con TR grande. 4/14/2017 Lingüística Computacional

13 SUMARIZACIÓN DE TEXTOS
Métricas: Comparación con un resumen hecho por humanos: Correcto = número de sintagmas extraídos por el sistema y el humano. Erróneo = número de sintagmas extraídos por el sistema y no por el humano. Perdido = número de sintagmas extraídos por el humano y no por el sistema. Precisión = correcto / (correcto + erróneo) Similitud = correcto / (correcto + perdido) 4/14/2017 Lingüística Computacional

14 SUMARIZACIÓN DE TEXTOS
Herramientas de sumarización online: 4/14/2017 Lingüística Computacional


Descargar ppt "APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)"

Presentaciones similares


Anuncios Google