La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

TÉCNICAS DE DECONSTRUCCIÓN APLICADAS A LAS TECNOLOGÍAS DEL LENGUAJE HUMANO TIN2012-31224 Octubre 2014: Informe Evaluación de resúmenes Grupo de Procesamiento.

Presentaciones similares


Presentación del tema: "TÉCNICAS DE DECONSTRUCCIÓN APLICADAS A LAS TECNOLOGÍAS DEL LENGUAJE HUMANO TIN2012-31224 Octubre 2014: Informe Evaluación de resúmenes Grupo de Procesamiento."— Transcripción de la presentación:

1 TÉCNICAS DE DECONSTRUCCIÓN APLICADAS A LAS TECNOLOGÍAS DEL LENGUAJE HUMANO TIN2012-31224 Octubre 2014: Informe Evaluación de resúmenes Grupo de Procesamiento del Lenguaje y Sistemas de Información Dpto. Lenguajes y Sistemas Informáticos ACTIVIDAD: EVALUACIÓN Informe Técnico LEGOLANG-UAge 03/2014 Autora: Elena Lloret

2 Evaluación aplicada a la Generación de Resúmenes Referencias relevantes: 1. Mani, I. 2001. Summarization Evaluation: An Overview. In: Proceedings of the North American chapter of the Association for Computational Linguistics. (NAACL), Workshop on Automatic Summarization, 2001 2. Fernandes de Oliveira P.C, 2014. “Evaluation Metrics for the Summarization Task”. Chapter 5 in Innovative Document Summarisation Techniques, IGI Global, January 2014 3. Lloret E., Plaza L., Aker A. 2014. The Challenging task of Summary Evaluation: An overview. Submitted to Artificial Intelligence Review, 2014.

3 Evaluación aplicada a la Generación de Resúmenes La evaluación de resúmenes depende de la finalidad para la que se quiera utilizar el resumen Tarea no trivial Subjetividad de la evaluación Creación de corpus de resúmenes de referencia: alto coste y no objetivo Investigación en esta área aún por desarrollar: sobre todo métricas que determinen la calidad de un resumen

4 Evaluación intrínseca Automática Contenido (cuantitativa) Calidad (cualitativa) Manual Contenido Calidad Evaluación extrínseca Valorar los resúmenes en función de un escenario o tarea concreta Recuperación de información Búsqueda de respuestas Proporcionar feedback Clasificación de textos Simplificación de textos … Tipos de evaluación Según: (Mani, 2001; Llloret et al., 2014)

5 Tipos de evaluación Evaluación intrínseca Eval. Manual y directa sobre el resumen generado Los usuarios comprueban la calidad y el contenido el resumen Ejemplos: protocolos FAN (legibilidad) y MLUCE (contenido) (Minel, Nugier and Piat, 1997) Direct Evaluación intrínseca Evaluación del resumen comparándolo con un resumen de referencia Se mide cómo de similar el resumen generado es al resumen modelo Ejemplo: herramienta SEE (Lin 2001) Target- based Evaluación extrínseca Se mide lo bueno/apropiado que es un resumen para ayudar a otra tarea Ejemplo: evaluar resúmenes en el contexto de la tarea de recuperación de información o búsqueda de respuestas. Task-based Evaluación intrínseca Se diseñan métricas automátcas que permitan evaluar el contenido y la calidad del resumen Ejemplo: ROUGE, (Lin and Hovy, 2003) BE,wT-E (Tratz and Hovy, 2008) ROSE (Conroy and Dang, 2008) Automatic Según: (Fernandes de Oliveira,2014)

6 Métricas intrínsecas Evaluación automática Contenido Calidad Evaluación manual Contenido Calidad

7 Métricas intrínsecas Evaluación automática Contenido Necesario un o varios resumen/es de referencia (modelo) Precisión, cobertura, medida F Analizando similitud (ej. Coseno) entre frases del resumen y las del resumen de referencia ROUGE Analizando similitud basada en N-GRAMAS entre frases del resumen y las del resumen de referencia Variantes: ROUGE-C (comparación directa con el documento original y no con los resúmenes modelo) JROUGE: implementación en Java

8 Métricas intrínsecas Evaluación automática Contenido Necesario un o varios resumen/es de referencia (modelo) Basic Elements (BE) Analizando similitud basada en tripletas “HEAD-MODIFIER- RELATION” entre frases del resumen y las del resumen de referencia a partir de un conjunto de paráfrasis Variantes: BE with transformations for evaluation (BEwT-E), incluye reglas para identificar algunos casos de paráfrasis. Otras herramientas bajo la misma idea: DEPEVAL (summ) AutoSummENG Analizando similitud basada en N-GRAMAS de caracteres entre frases del resumen y las del resumen de referencia

9 Métricas intrínsecas Evaluación automática Calidad No hay una métrica que predomine sobre las demás. Se ha estudiado en diferentes escenarios proponiendo varios enfoques ROSE Se basa en la métrica ROUGE pero intenta además captar aspectos lingüísticos a partir de obtener los resúmenes que mejor se correlacionan con las métricas lingüísticas (ej. Responsiveness)

10 Métricas intrínsecas Evaluación manual Contenido SEE Entorno para comparar resúmenes automáticos con resúmenes modelo Pyramid method Método semi-automático Identificación de SCUs (Summary Content Units) extraídas a partir de información común en resúmenes modelo hechos por varias personas Cada SCU tendrá una puntuación indicando su relevancia

11 Métricas intrínsecas Evaluación manual Calidad Escala Likert en base a criterios lingüísticos DUC/TAC Corrección gramatical Ausencia de redundancia Claridad referencial Foco del resumen Coherencia

12 Métricas intrínsecas Evaluación manual Contenido y calidad Métodos de Crowdsourcing Moda pasajera? Problemas con la calidad de las evaluaciones y con la selección de evaluadores Plataformas Mechanical Turk Crowdflower

13 Conclusiones Evaluación de resúmenes Evaluación intrínseca Contenido Evaluación automática ROUGE Calidad Evaluación manual Criterios lingüísticos DUC/TAC Evaluación extrínseca Determinar escenario y metodología de evaluación

14 TÉCNICAS DE DECONSTRUCCIÓN APLICADAS A LAS TECNOLOGÍAS DEL LENGUAJE HUMANO TIN2012-31224 Octubre 2014: Informe Evaluación de resúmenes Grupo de Procesamiento del Lenguaje y Sistemas de Información Dpto. Lenguajes y Sistemas Informáticos ACTIVIDAD: EVALUACIÓN Informe Técnico LEGOLANG-UAge 01/2014


Descargar ppt "TÉCNICAS DE DECONSTRUCCIÓN APLICADAS A LAS TECNOLOGÍAS DEL LENGUAJE HUMANO TIN2012-31224 Octubre 2014: Informe Evaluación de resúmenes Grupo de Procesamiento."

Presentaciones similares


Anuncios Google