La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Guillermo Jorge-Botana Ricardo Olmos Albacete José A. León

Presentaciones similares


Presentación del tema: "Guillermo Jorge-Botana Ricardo Olmos Albacete José A. León"— Transcripción de la presentación:

1 VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS
Guillermo Jorge-Botana Ricardo Olmos Albacete José A. León Francisco Molinero

2 1. ¿Qué hace LSA? LSA puede:
+simular como puede estar representado el conocimiento

3 2. ¿Qué no hace LSA? Pero: +No es una teoría de procesamiento (Burguess, 2000) +Es una representación estática de cómo se distribuye el conocimiento +Para simular cualquier proceso: Como: Juicios de semejanzas Comprensión de estructuras textuales Constricciones del contexto +Es necesario formalizar algún tipo de operación sobre lo que LSA representa.

4 3. Objetivos +Extraer términos vecinos de algunas palabras aisladas (estructura simple) y grupos de palabras (estructura compleja). +Aplicar el algoritmo de predicación (Kintsch, 2001) a ciertas estructuras frecuentes en corpus científicos.

5 4. Extracción de contenidos
Una forma: + Tomar el vector de una palabra y extraer una lista de sus n primeros vecinos semánticos. + Lista: se compara el vector de dicha palabra con todos los demás vectores-términos del espacio semántico. + Comparación: coseno del ángulo A Semejanza = Cos(A,I) I

6 5. Extracción de contenidos
Un posible problema: + En ocasiones, los primeros términos de la lista son: Términos de poca relevancia Que sólo concurren con el término de referencia Ejemplo: (A)Ciudad (I)País (I)Transporte (I)Alcalde (A) Ciudad (I) Deportiva (I)Condal (I) Real Y quizás también queremos

7 6. Extracción de contenidos
Una posible solución: + Ponderar el coseno del ángulo con la longitud de vector Longitud de Vector-término: puede denotar la importancia de un término dentro del dominio semántico. Semejanza = Cos(A,I) x log (1 + longitudVector(I))

8 Nuestro corpus: psicopatología.

9 7. Lista de “fobia” “Fobia” Coseno Coseno + long.vector
Longitud de vector 21 primeros vecinos Semejanza con “fobia”

10 8. Lista de “tormentas” “Tormentas” Coseno Coseno + long.vector
Longitud de vector Semejanza con “tormentas” 21 primeros vecinos

11 ESTRUCTURAS COMPLEJAS
(estructuras de dos términos)

12 9. Extracción del sentido de estructuras complejas
+ Estructuras complejas: formadas por más de una palabra. + Estructuras predicativas: “Este partido es de centro” + Estructuras predicativas <<taxonómicas>>: “Este pájaro es un pelícano”

13 10. Extracción del sentido de estructuras complejas
+ Estructuras predicativas “taxonómicas” en corpus científicos: P(A) Fobia (Tormentas) “Fobia a las tormentas” “Personalidad de la pistola” Personalidad (Pistola)

14 11. Suma centroide Un forma: el centroide o la suma
Vector Predicado(Fobia) + Vector Argumento (tormentas)

15 12. Suma centroide Problema: el centroide Gente Timidez Social
Precipicios

16 13. Algoritmo de predicación
Necesitamos

17 14. Algoritmo de predicación
LSA + Algoritmo de predicación (Kintsch, 2001) El sentido final de la predicación se forma sumando el predicado, el argumento y los n primeros vecinos del predicado pertinentes para el argumento.

18 15. “Fobia a las tormentas”
(LSA + Algoritmo de predicación + Corrección con la longitud de vector) “fobia a las tormentas”: un fenómeno natural designa una fobia específica Coseno Coseno + long.vector Sin Predicación Con Predicación Sin Predicación Con Predicación Social Precipicios Social Social Sociales Específica Público Timidez Serpientes Específica Serpientes 21 primeros vecinos Específica Subtipo Timidez

19 16. “Personalidad de la pistola”
(LSA + Algoritmo de predicación + Corrección con la longitud de vector) “personalidad de la pistola”: un objeto designa personalidad antisocial Coseno Coseno + long.vector Sin Predicación Con Predicación Sin Predicación Con Predicación Disocial Esquizoide Disocial Antisocial Antisocial Antisocial Esquizotípico Esquizotípico Robos Navaja 21 primeros vecinos Límite evitación Violencia Esquizoide Narcisista

20 16. Conclusiones +LSA proporciona una representación objetiva y mensurable de conocimiento estático. +LSA es una buena base para simular procesos mediante algoritmos que tengan en cuenta las constricciones del contexto. +LSA y los algoritmos que provienen de la psicolingúística tiene muchas aplicaciones en el ámbito de la industria lingüística (buscadores, interpretadores de intenciones del usuario, web semántica, indexadores de información diagnóstica, visualización, etc) .

21 18. Muchas gracias

22 VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS
Guillermo Jorge-Botana Ricardo Olmos Albacete José A. León

23 Aux. Listados vs. definiciones reales
Comparación de los listados con textos reales Similitud de cada uno de los métodos con muestras de definiciones reales basados en DSM-IV ( Concepto general d fobia, Fobia social, Fobia específica Ansiedad generalizada)

24 Aux. Listados vs. definiciones reales
Comparación de los listados con textos reales Similitud de cada uno de los métodos con muestras de definiciones reales basados en DSM-IV ( Concepto general d fobia, Fobia social, Fobia específica Ansiedad generalizada)


Descargar ppt "Guillermo Jorge-Botana Ricardo Olmos Albacete José A. León"

Presentaciones similares


Anuncios Google