SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor Peinado, Felisa Verdejo Grupo de Recuperación de Información y Procesamiento del Lenguaje Natural Universidad Nacional de Educación a Distancia nlp.uned.es

2 Índice  Introducción (15 min.)  Implicación Textual (15 min.)  Answer Validation Exercise (20 min.)  Técnicas y retos (25 min.)  Conclusión (5 min.)  Preguntas (10 min.) Validación de Respuestas

3 QA system architecture Question Answer Question Analysis Pre-processing / indexing Answer type / structure Key-terms Passage retrieval Answer extraction Answer validation / scoring Documents

4 Validación de Respuestas  Consulta con palabras clave + respuesta  Más ocurrencias -> mejor candidata Respuesta 1 … Respuesta 2 Respuesta n Oráculo (Google) Ranking

5 Validación de Respuestas  Validación como ranking Problema procesamiento en cascada  ¿Es necesario cambiar de arquitectura? Question Answer Question Analysis Passage retrieval Answer extraction Answer validation / scoring 1.00.7 0.49xx= Not enough evidence

6 QA with Spanish as target (evolution)  Top results around 50%

7 2006 81% preguntas contestadas por algún sistema Mejor sistema responde el 52,5% 65% de las contestadas Mejor en organizaciones Mejor en definiciones y personas Mejor en fechas

8 ¿Arquitecturas colaborativas?  Sistemas diferentes responden mejor tipos de preguntas diferentes Especialización Colaboración  ¿Criterios de selección? Valor de confianza en la respuesta Mejorar la validación de respuestas

9 ¿Por qué no se ha hecho ya?  Problema en la definición de la tarea de evaluación Sólo cuentan los aciertos No se penalizan los fallos Validación como ranking de respuestas No se construyen respuestas completas  60 dólares (significado únicamente en presencia de la pregunta)  El barril de petróleo asciende a 60 doláres

10 Marco de evaluación  Difícil cambiar la metodología o las medidas de evaluación  Nueva tarea de evaluación Answer Validation Exercise  2006  2007

11 Validación de Respuestas  Definición Entrada  Pregunta  Respuesta  Texto que soporta la respuesta Salida  Aceptación/rechazo de la respuesta

12 Validación de Respuestas  ¿Cuántas personas viven en Madrid? Más de 6 millones  ¿Es correcta la respuesta? ¿?  ¿Es correcta de acuerdo con el texto? Según el último censo de la CAM, la población de la comunidad asciende a 6.122.435 habitantes Sí

13 Validación de Respuestas  Cambio de aproximación Validación basada en recursos externos y redundancias (web) Validación basada en el análisis textual de:  Pregunta  Respuesta  Texto que soporta la respuesta  Efecto Introducir aprendizaje automático +PLN Atraer comunidad de investigación en Implicación Textual

14 Índice  Introducción  Implicación Textual  Answer Validation Exercise  Técnicas utilizadas  Conclusión  Preguntas

15 Implicación Textual ¿De T se infiere H? T: El precio del barril de petróleo se alzó hasta los 60 dólares H: El precio del petróleo ha subido

16 Implicación Textual Definición  La verdad de un enunciado implica la verdad de otro enunciado: T  H Primer enunciado: Texto T (contexto) Segundo enunciado: Hipótesis H  Relación dirigida

17 Implicación Textual ¿De T se infiere H? T: El éxito tecnológico conocido como GPS se incubó en la mente de Ivan Getting H: I. Getting inventó el Sistema de Posicionamiento Global La verdad de un enunciado implica la verdad de otro enunciado ¿En cualquier interpretación posible? (implicación estricta) ¿En alguna interpretación?

18 Implicación Textual Definición Un humano que leyera T inferirá que H seguramente es cierto

19 Implicación Textual ¿De T se infiere H? T: El precio del barril de petróleo se alzó hasta los 60 dólares H: El precio del petróleo ha subido ¿Ha subido el precio del contenedor? El barril es una unidad de medida del petróleo

20 Implicación Textual Involucra conocimiento externo del mundo... T  H Conocimiento  H... pero en el contexto de T T AND conocimiento  H Confirmar H en el contexto que proporciona T

21 Ambigüedad  Redefinición del problema de desambiguación  Interrelación texto-contexto: T -> H Desambigua(T) -> Desambigua(H)  Desambiguación: aquella que habilita la implicación (Matching)  Procesamiento lingüístico en contexto  Cambio de perspectiva Desambigua(T -> H)

22 Implicación Textual Definición Existe una interpretación del contexto que permite afirmar una de las interpretaciones de la hipótesis Del problema de la ambigüedad al problema de la variación

23 Implicación Textual Variación lingüística Verdadero reto en Implicación Textual T: El éxito tecnológico conocido como GPS se incubó en la mente de Ivan Getting H: I. Getting inventó el Sistema de Posicionamiento Global

24 ¿Por qué Implicación Textual?  Necesidad de introducir inferencia en aplicaciones textuales Aplicaciones -> Validación de Respuestas  Investigación en semántica deslabazada: WSD, NER, SRL, Lexical Semantics, etc.  Necesidad de un marco común de investigación en semántica

25 Planteamiento empírico  Desde los textos Un humano que leyera T inferirá que H seguramente es cierto  Un humano es capaz de realizar esta tarea semántica  ¿Cómo podría resolverlo una máquina?

26 Evaluación  Marco de Evaluación actual: PASCAL Recognizing Textual Entailment Challenge (RTE)  Intrínseca y Global Pares Texto-Hipótesis 50-50% YES/NO Proporción de aciertos (accuracy) Baseline 50%  Grupos participantes 17 grupos en RTE1 23 grupos en RTE2 25 grupos en RTE3

27 Implicación Textual Aplicaciones T: La adquisición de Overture por Yahoo ha finalizado  Extracción de Información  Resumen Automático  Comprensión de lectura  Búsqueda de respuestas ¿Quién compró a Overture? H: Yahoo compró a Overture

28 Índice  Introducción  Implicación Textual  Answer Validation Exercise  Técnicas utilizadas  Conclusión  Preguntas

29 Answer Validation Exercise  Ligar la evaluación a la tarea principal de QA Aprovechar los juicios humanos ya realizados en la tarea principal Activar la tarea en todos los idiomas de la tarea principal  Inglés, Francés, Español, Alemán, Italiano, Portugués, Holandés

30 Answer Validation Exercise Objective Validate the correctness of the answers Given by real QA systems......the participants at CLEF QA

31 AVE 2006 If the text semantically entails the hypothesis, then the answer is expected to be correct. Question Supporting snippet & doc ID Exact Answer QA system Hypothesis Into affirmative form Text

32 AVE 2006  Question: Who is the President of Mexico?  Answer (obsolete): Vicente Fox  Hypothesis: Vicente Fox is the President of Mexico  Supporting Text: “...President Vicente Fox promises a more democratic Mexico...”  Exercise Supporting Text entails Hypothesis? Answer: YES | NO

33 Answer Validation Exercise (AVE) Question Answering Question Candidate answer Supporting Text Textual Entailment Answer is not correct or not enough evidence Automatic Hypothesis Generation Question Hypothesis Answer is correct AVE 2006 AVE 2007 Answer Validation

34 Answer Validation Exercise  Conversión en problema RTE  Asumiendo que es posible construir automáticamente las hipótesis AVE 2006  Hipótesis construidas por la organización  Semi-automáticamente  Instanciando patrones de hipótesis  Estudio de error  200 patrones diferentes por idioma (7 idiomas) AVE 2007  Construcción automática de hipótesis  Parte de la tarea de evaluación

35 Hypothesis generation Question “Which is the capital of Croatia?” Pattern “ is the capital of Croatia” Answer Zagreb Hypothesis Zagreb is the capital of Croatia

36 Hypothesis Generation Question “Which is the capital of Croatia?” Answer Zagreb was then seen as the political center Hypothesis Zagreb was then seen as the political center is the capital of Croatia  Wrong semantics but also wrong syntactic structure  Syntactic criteria for detecting wrong answers  [Criteria for assessing Inexact answers in QA]

37 Hypothesis Generation  Question: “Which is the capital of Croatia?”  Answer: placed in the continental part of Croatia  Supporting text “The capital of Croatia is placed in the continental part of Croatia and has one million inhabitants”.  Pattern 1: The capital of Croatia is The capital of Croatia is placed in the continental part of Croatia [Correct hypothesis: a non-responsive answer must be validated]  Pattern 2: is the capital of Croatia placed in the continental part of Croatia is the capital of Croatia [More robust pattern]

38 Hypothesis Generation  Question: What is Deep Blue?  Answer: developed by IBM  QA assessment: Wrong  Hypothesis: Deep Blue is developed by IBM  Supporting text:... Deep Blue, developed by IBM, was the first machine to win...  Entailment: YES

39 Hypothesis Generation  Question: “Where did the Titanic sink?”  Pattern: “The Titanic sank in ”  Answer 1: “Atlantic Ocean”  Answer 2: “1912”  Both can generate correct hypotheses entailed by a text  Pattern The Titanic sank in (1) is a location (2)  Compressed way: “The Titanic sank in ”

40 Tipo de respuesta Problemas desde la perspectiva de la evaluación Consenso difícil en las taxonomías  Tipos de pregunta y de respuesta Documentalistas vs. (Li & Roth, COLING 2002) Conocimiento implícito del mundo  Atlantic Ocean es un lugar  ¿Ontologías bien pobladas y consistentes con las taxonomías de tipos de respuestas?

41 Completitud de la respuesta  Conocimiento implícito del mundo “¿Qué compañía adquirió Nokia en 1998?”  Vienna Systems  De acuerdo con: “Vienna Systems fue adquirida por Nokia en 1998”  “Vienna Systems is a company” (presupuesto)  ¿Qué presupuestos son aceptables?

42 ACCEPT AVE Assessment Mapping Correct Incorrect REJECT Unsupported REJECT Non-exact UNKNOWN QA assessments AVE assessments

43 AVE 2006 Collections Available for CLEF participants atnlp.uned.es/QA/ave/ TestingTraining English2088 (10% YES)2870 (15% YES) Spanish2369 (28% YES)2905 (22% YES) German1443 (25% YES) French3266 (22% YES) Italian1140 (16% YES) Dutch807 (10% YES) Portuguese1324 (14% YES)

44 AVE 2006 Evaluation  Not balanced collections  Approach: Detect if there is enough evidence to accept an answer  Measures: Precision, recall and F over pairs YES (where text entails hypothesis)  Baseline system: Accept all answers, (give always YES)

45 AVE 2006 Participants and runs DEENESFRITNLPT Fernuniversität in Hagen2 2 Language Computer Corporation 11 2 U. Rome "Tor Vergata" 2 2 U. Alicante (Kozareva)222222113 U. Politecnica de Valencia 1 1 U. Alicante (Ferrández) 2 2 LIMSI-CNRS 1 1 U. Twente122112110 UNED (Herrera) 2 2 UNED (Rodrigo) 1 1 ITC-irst 1 1 R2D2 project 1 1 Total5119434238

46 AVE 2006 Results LanguageBaseline (F) Best (F) Reported Techiques English.27.44Logic Spanish.45.61Logic German.39.54Lexical, Syntax, Semantics, Logic, Corpus French.37.47Overlapping, Learning Dutch.19.39Syntax, Learning Portuguese.38.35Overlapping Italian.29.41Overlapping, Learning

47 AVE 2007  Problema en AVE 2006 No fue posible cuantificar la ganancia potencial de los sistemas QA si incorporan los módulos de AV  Cambio de metodología en AVE 2007 Agrupar respuestas por pregunta  Eliminando respuestas repetidas Sistemas deben seleccionar una respuesta

48 AVE 2007 Collections What is Zanussi? was an Italian producer of home appliances Zanussi For the Polish film director, see Krzysztof Zanussi. For the hot-air balloon, see Zanussi (balloon). Zanussi was an Italian producer of home appliances that in 1984 was bought who had also been in Cassibile since August 31 Only after the signing had taken place was Giuseppe Castellano informed of the additional clauses that had been presented by general Ronald Campbell to another Italian general, Zanussi, who had also been in Cassibile since August 31. 3 (1985) 3 Out of 5 Live (1985) What Is This?

49 Comparing AV systems performance with QA systems in German GroupSystem Type QA accuracy % of perfect selection Perfect selection QA 0.54 100% FUHiglockner_2 AV 0.50 93.44% FUHiglockner_1 AV 0.48 88.52% DFKI dfki071dedeQA 0.35 65.57% FUH fuha071dedeQA 0.32 59.02% Random AV 0.28 51.91% DFKI dfki071endeQA 0.25 45.9% FUH fuha072dedeQA 0.21 39.34% DFKI dfki071ptdeQA 0.05 9.84%

50 AVE 2007 Results  9 groups, 16 systems, 4 languages  All systems based on Textual Entailment  5 out of 9 groups participated in QA Introduction of RTE techniques in QA  Systems based on syntactic or semantic analysis perform Automatic Hypothesis Generation Combination of the question and the answer Some cases directly in a logic form

51 Índice  Introducción  Implicación Textual  Answer Validation Exercise  Técnicas y retos  Conclusión  Preguntas

52 Técnicas utilizadas en AVE 2007  10 informes (Overview AVE 2007) Generates hypotheses 6 Wordnet 3 Chunking 3 n-grams, longest common Subsequences 5 Phrase transformations 2 NER 5 Num. expressions 6 Temp. expressions 4 Coreference resolution 2 Dependency analysis 3 Syntactic similarity 4 Functions (sub, obj, etc) 3 Syntactic transformations 1 Word-sense disambiguation 2 Semantic parsing 4 Semantic role labeling 2 First order logic representation 3 Theorem prover 3 Semantic similarity 2

53 Nivel Léxico T: El precio del barril de petróleo se alzó hasta los 60 dólares H: El precio del petróleo ha subido Precio  precio Petróleo  petróleo alzar  subir

54 Nivel Léxico  Representación de los textos Bolsas de términos  Implicación Si los términos de H están implicados por los términos de T  Solapamiento léxico  Sustitución léxica (sinónimos, hiperónimos,...)

55 Nivel Léxico Contar proporción de solapamientos  Lemas, unigramas  n-gramas  Subsecuencias  Derivaciones morfológicas Han censado -> censo

56 WordNet (inferencia)  Synonymy Obtain receive Lift rise Allow grant  Hyponymy (encadenada, distancia) Glucose -> sugar Crude -> oil  Antonymy Neg(change) stay continue

57 WordNet (inferencia)  Verb Entailment Kill -> death  Part meronymy Italy -> Europe  Pertainymy Italian -> Italy  Multiwords Melanoma -> skin_cancer

58 Nivel Léxico T: Sacrificaron al perro que mordió a la niña H: Sacrificaron a la niña Sacrificar  sacrificar Niña  niña   Necesidad de considerar sintaxis

59 Nivel Léxico T: Bill Gates visita Valencia H: La Comunidad Valenciana recibe al fundador de Microsoft (X) comunidad (X) fundador (X) Microsoft   Necesidad de reconocer entidades

60 Entidades T: Según el último censo de la CAM, la población de la comunidad asciende a 6.122.435 habitantes H: En Madrid viven más de 6 millones de personas Expresiones numéricas: 6.122.435 -> más de 6 millones Entidades nombradas: CAM -> Madrid Correferencia: comunidad -> CAM Paráfrasis: población asciende -> viven Reordenación de constituyentes Implicación léxica: habitante -> persona

61 Implicación numérica (rangos) 17 million citizensMore than 15 million people TextoHipótesis recognize Lím. inferior: 17,000,000 Lím. superior: 17,000,000 Unidad: citizen Lím. inferior: 15,000,000 Lím. superior: infinite Unidad: person normalize Entailment is TRUE if [17,000,000.. 17,000,000]  [15,000,000.. Infinite) and citizen entails person entailment

62 Entidades con nombre T: Bill Gates visita Valencia H: La Comunidad Valenciana recibe al fundador de Microsoft Bill Gates -> fundador de Microsoft Valencia -> Comunidad Valenciana  Conocimiento del mundo

63 Resolución de correferencia T: Desde su formación en 1948, Israel… H: Israel fue establecida en 1948

64 Nivel sintáctico  Representación de los textos Árboles de dependencias (generalmente)  Implicación Si el árbol de H es similar, está incluido o se puede obtener por transformación del árbol de T

65 Example: graph alignment T:CNN reported that thirteen soldiers lost their lives in today’s ambush. H:Several troops were killed in the ambush. lost soldierslivesambush thirteentheirtoday’s reported CNN dobj innsubj nndepposs nsubjccomp killed troopswereambush severalthe aux innsubjpass amoddet © Stanford

66 Nivel Sintáctico  Distancia de edición entre árboles Cuantificar coste de borrar, insertar o sustituir un nodo Medida de similitud sintáctica  Coincidencia léxica y de funciones Sujeto, objeto, modificador  Facilita algunas transformaciones Activa/pasiva Negación

67 Etiquetado de Roles Semánticos T: Sacrificaron al perro que mordió a la niña H: Sacrificaron a la niña T: Sacrificaron [al [perro] A0 que mordió a [la niña] A1 ] A1 H: Sacrificaron a [la niña] A1 perro -/-> niña

68 Etiquetado de Roles Semánticos Paradójicamente un análisis lingüístico más profundo hace más difícil tratar la variación T: The diplomat visited Iraq in September H: The diplomat was in Iraq T: [The diplomat]/ARG0 visited [Iraq]/ARG1 [in September]/AM_TMP H: [The diplomat]/ARG0 was [in Iraq]/AM_LOC

69 Etiquetado de Roles Semánticos  Diferencias en la estructura de los verbos provocan falta de coincidencia entre el tipo de los argumentos  Necesidad de procesar los sintagmas verbales T: David McCool took the money and decided to start Muzzy Lane in 2002 H: David McCool is the founder of Muzzy Lane T: David McCool took the money and started Muzzy Lane in 2002 H: David McCool founded Muzzy Lane

70 Parsing semántico (LCC) The Muslim Brotherhood, Egypt's biggest fundamentalist group established in 1928, advocates turning Egypt into a strict Muslim state by political means, setting itself apart from militant groups that took up arms in 1992. AGENT(Muslim Brotherhood, advocate) PURPOSE(turning Egypt into a strict Muslim state, advocate) TEMPORAL(1928, establish) TEMPORAL(1992, took up arms) PROPERTY(strict, Muslim state) MEANS(political means, turning Egypt into a strict Muslim state) SYNONYMY(Muslim Brotherhood, Egypt's biggest fundamentalist group)

71 Hickl (RTE 2006)  75% accuracy

72 Monotonía  “Upward monotonity”. Generalizaciones en la hipótesis preservan la implicación. T: Algunos historiadores coreanos piensan que… H: Algunos historiadores piensan que...  “Downward monotonity”. Generalizaciones en la hipótesis rompen la implicación. T: La mayoría de los historiadores coreanos piensan que… H: La mayoría de los historiadores piensan que… © Stanford

73 Monotonía y adjuntos  Si un adjunto presente en T desaparece en H se preserva la implicación  Si aparece en H, se rompe la implicación T:Zerich compró petróleo de Irak por valor de 422 millones de dólares H: Zerich compró petroleo de Irak durante el embargo  Salvo en contextos downward monotone T:Zerich no compró petróleo Iraquí H: Zerich no compró petróleo Iraquí durante el embargo © Stanford

74 Verbos factuales e implicativos T: Libia ha intentado desarrollar su propio misil SCUD H: Libia ha desarrollado un misil Clases de implicatividad Unknown: say, tell, suspect, try, … Fact: know, acknowledge, ignore, … True: manage to, … False: fail to, forget to, … © Stanford

75 Presupuestos T 1 : Juan ama a su mujer T 2: Juan no ama a su mujer  Ambos presuponen que H: Juan tiene mujer  El oyente incorpora el presupuesto: acomodación

76 Hickl (RTE 2007)

77 Hickl (RTE 2007)

78 Hickl (RTE 2007)  80% accuracy

79 Nivel Lógico  Nutcracker (Johan Bos) Herramientas disponibles  Parsing semántico (Clark and Curran, 2004) Combinatory Categorial Grammar  Obtener Estructuras de Representación del Discurso (DRS, Boxer) (Bos 2005)  Convertir DRSs a Lógica de Primer Orden  Demostrador de teoremas: T -> H Introducción natural de WordNet

80 Nivel Lógico  La demostración de “T->H” suele fallar en un demostrador de teoremas  Necesidad de valorar la proximidad a completar la demostración Comparar tamaño entre modelos lógicos (Bos) Relajar predicados sucesivamente (Tatu & Moldovan)

81 Estrategias generales  Demostrar que no hay implicación Implicación por defecto Desarrollo de tests de fallo Aplicaciones como validación de respuestas  Demostrar que sí hay implicación No hay implicación por defecto Representación lógica e inferencia Transformaciones léxicas y sintácticas Generación de proposiciones atómicas, presupuestos, compromisos de discurso

82 Estrategias generales  Detectar similitud Características de similitud (léxicas, sintácticas, semánticas…)  Clasificador entrenado con toda la información obtenida Aprender el peso relativo de cada rasgo Entrenamiento: colecciones de desarrollo, adquisición de corpus

83 Índice  Introducción  Implicación Textual  Answer Validation Exercise  Técnicas utilizadas  Conclusiones  Preguntas

84 Conclusiones  Es posible reformular la Validación de Respuestas en términos de Implicación Textual Introduce un 4% de error en representaciones textuales de la hipótesis ¿Representación conceptual?  Investigación abierta Consensuar taxonomías de tipos de preguntas y respuestas Consideración de conocimiento implícito (enciclopédico)

85 Conclusiones  Análisis superficial Modelo léxico Baseline fácil de alcanzar  Análisis profundo Mayoría de sistemas no mejoran el baseline del modelo léxico Sin embargo, los mejores sistemas realizan un análisis profundo

86 Investigación abierta  Adquirir grandes bases de conocimiento (lingüístico y del mundo) Reglas de transformación sintáctica Conjuntos de paráfrasis Relaciones léxicas Entidades y su variación terminológica …  Adquirir grandes corpus de entrenamiento para Implicación Textual

87 Investigación abierta  Adquisición de conocimiento No supervisada A partir de corpus general y web Representación del conocimiento Población de ontologías  Inferencia Interacción de niveles de información Más allá de vectores de características y entrenar un modelo

88 Investigación abierta  Implicación textual es un problema todavía demasiado amplio  Validación de respuestas Subproblema Permite evaluación extrínseca (mejora de una aplicación: QA)  ¿Modelos semánticos capaces de tratar la variabilidad del lenguaje?

89 Preguntas? Gracias! AVE: http://nlp.uned.es/QA/AVE/http://nlp.uned.es/QA/AVE/ QA@CLEF: http://clef-qa.itc.it/http://clef-qa.itc.it/ CLEF: http://www.clef-campaign.orghttp://www.clef-campaign.org PASCAL RTE:http://www.pascal-network.org/Challenges/RTE/http://www.pascal-network.org/Challenges/RTE/

SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

Presentaciones similares

Presentación del tema: "SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor.

Presentaciones similares

Presentación del tema: "SEPLN 2007 Validación de Respuestas Evaluación y Retos para las Tecnologías del Lenguaje Anselmo Peñas Álvaro Rodrigo, Jesús Herrera, Valentín Sama, Víctor."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback