La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción

Presentaciones similares


Presentación del tema: "Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción"— Transcripción de la presentación:

1 Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción http://www.inf.udec.cl/~andrea

2 Modelos Non-Overlapping Lists Proximal Nodes Structured Models Retrieval: Adhoc Filtering Browsing U s e r T a s k Classic Models boolean vector probabilistic Set Theoretic Fuzzy Extended Boolean Probabilistic Inference Network Belief Network Algebraic Generalized Vector Lat. Semantic Index Neural Networks Browsing Flat Structure Guided Hypertext

3 Modelo Vector Generalizado Modelos clásicos asumen la independencia de los términos índices. Para el modelo vector: El conjunto de vectores de términos {k1, k2,..., kt} are linealmente independientes, los cuales forman la base para el subespacio de interes. Esto se interpreta también como una ortogonalidad:  i,j  ki  kj = 0 En 1985, Wong, Ziarko, y Wong propusieron una interpretación en la cual los vectores de términos son linealmnete independientes, pero no ortogonales.

4 Idea Base: En el modelo vector generalizado, dos vectores de términos índices pueden ser no ortogonales y son representados en base a componentes más pequeños (minterms). Tal como antes, sea, wij el peso asociado con [ki,dj] {k1, k2,..., kt} sea el conjunto de todos los términos Si estos pesos son todos binarios, todos los patrones de ocurrencia de los términos puden ser representados por:: m1 = (0,0,..., 0) m5 = (0,0,1,..., 0) m2 = (1,0,..., 0) …. m3 = (0,1,..., 0) m4 = (1,1,..., 0) m2 t =(1,1,1,…..1) Aquí, m2 indica documentos en los cuales sólo el término k1 occurre.

5 Idea Base: La base para el modelo vector generalizado está formado por un conjunto de vectores definidos sobre el conjunto de minterms (que son ortogonales), como sigue: 0 1 2... 2 t m1 = (1, 0, 0,..., 0, 0) m2 = (0, 1, 0,..., 0, 0) m3 = (0, 0, 1,..., 0, 0) m2 t = (0, 0, 0,..., 0, 1) Note que,  i,j  mi  mj = 0 e.i., ortogonales

6 Idea Base: Vectores minterm son ortogonales, pero no necesariamente independientes: El minterm m4 está dado por: m4 = (1, 1, 0,..., 0, 0) Este minterm indica la ocurrencia de los términos k1 y k2 en el mismo documento. Si tal documento existe en una colección, se dice que el mintem m4 está activo y que una dependencia entre estos términos está inducida. Se asume que la co-ocurrencia de términos en documentos induce dependencias entre ellos.

7 El vector asociado con el término ki es computado: El peso c con el par [ki,mr] suma los pesos de los términos ki en todos lo documentos en los cuales tiene un patrón de ocurrencia dado por mr. Note que para una colección de tamaño N, sólo N minterms afectan el ranking. Formando el Vector de Términos t

8 Un grado de correlación entre términos entre ki y kj puede ser determinado por: Este grado de correlación suma (en una forma ponderada) las dependencias entre ki y kj inducido por los documentos en la colección (representado por el mr minterms). Luego se aplica el modelo vectorial: Dependencia entre Términos Índices

9 Ejemplo d1 d2 d3 d4d5 d6 d7 k1 k2 k3 k1k2k3 d1201 d2100 d3013 d4200 d5124 d6122 d7050 q123

10 Cálculo de C i,r k1k2k3 d1201 d2100 d3013 d4200 d5124 d6122 d7050 q123 k1k2k3 d1=m6101 d2=m2100 d3=m7011 d4=m2100 d5=m8111 d6=m7011 d7=m3010 q=m8111 c1,rc2,rc3,r m1000 m2300 m3050 m4000 m5000 m6201 m7035 m8124

11 Cálculo de vector de términos índices c1,rc2,rc3,r m1000 m2300 m3050 m4000 m5000 m6201 m7035 m8124

12 Cálculo de vector de documentos k1k2k3 d1201 d2100 d3013 d4200 d5124 d6122 d7050 q123

13 Calculo de Ranking

14 Conclusiones El modelo considera correlación entre términos índices. No es claro cuánto mejor es con respecto al modelo vector clásico. Costo computacional mayor Ideas nuevas e interesantes

15 Latent Semantic Indexing IR clásica puede llevar a una recuperación deficiente por: Documentos no relacionados pueden ser incluidos en la respuesta. Documentos relevantes que no contienen al menos un térmico índice no son considerados. Razonamiento: recuperación basada en términos índices es vaga y afectada por “ruido”. El usuario está más relacionado a conceptos e ideas que a términos índices. Un documento que comparte conceptos con otro documento conocido de ser relevante puede ser de ínteres también.

16 Latent Semantic Indexing La clave es mapear documentos y consultas a un espacio de dimensión menor (e.i. un espacio compuesto de conceptos de mayor nivel con un conjunto menor de términos índices). Recuperar en este espacio reducido de conceptos puede ser mejor para recuperar que un espacio de términos índices.

17 Latent Semantic Indexing Definiciones Sea t el número total de términos índices Sea N el número de documentos Sea (Mij) una matriz de documento-término con t filas y N columnas Cada elemento de esta matriz está asociada con un peso wij asociado con el par [ki,dj] El peso wij puede basarse en el esquema tf-idf

18 Latent Semantic Indexing La matriz (Mij) puede ser descompuesta en 3 matrices (decomposición de valor singular) como sigue: (Mij) = (K) (S) (D) t (K) es la matriz de vectores propios derivada de (M)(M) t (D) t es la matriz de vectores propios derivada de (M) t (M) (S) es una matriz diagonal r x r de valores singulares donde r = min(t,N) que es el rango de (Mij)

19 Ejemplo Sea (Mij) la matriz dada por determinar las matrices (K), (S), y (D) t k1k2k3q*dj d12015 d21001 d301311 d42002 d512417 d61225 d705010 q123

20 Latent Semantic Indexing En la matriz (S), seleccionar sólo los s valores singulares mayores mantenga las correspondientes columnas en (K) y (D) t La matriz resultante es llamada (M) s y está dada por (M)s = (K) s (S) s (D) t donde s, s < r, es la dimensionalidad del espacio de conceptos El parámetro s debe ser suficientemente grande para permitir la caracterización de los datos suficientemente pequeño para filtrar datos no relevantes. s

21 Latent Ranking La consulta puede ser modelada como un seudo-documento en la matriz original (M) Asuma que la consulta es numerada como un documento 0 in la matriz La matriz cuantifica la relación entre cualquier par de documentos en el espacio reducido La primera fila de la matriz da el ranking de todos los documentos con respecto a la consulta del usuario.

22 Conclusiones Latent semantic indexing otorga una conceptualización interesante de recuperación de información Permite reducir la complejidad de la representación, el cual puede ser explorado,por ejemplo, con el propósito de interacción con el usurario.

23 Modelo de Redes Neuronales IR clásica: Términos son usados parta indexar documentos y consultas Recuperación está basada en el matching de términos índices. Motivación: Redes neuronales son conocidas por ser buenas para realizar matching.

24 Modelo de Redes Neuronales Redes Neuronales: El cerebro humano está compuesto de billones de neuronas Cada neurona puede ser vista como una unidad de procesamiento Un neurona es estimulada por una señal de entrada y emite una señal de salida como reacción Una cadena de reacción de propagación de señales es llamada spread activation process Como resultado de este proceso, el cerebro puede controlar el cuerpo para lograr reacciones físicas.

25 Una red neuronal es una simplificación de la interacción de neuronas en el cerebro humano. Nodos son unidades de procesamiento Arcos son conexiones sinápticas La fuerza de propagación es modelada como un peso asignado a cada arco El estado de un nodo es definido por su nivel de activación Dependiendo de su nivel de activación, un nodo puede generar una señal de salida. Modelo de Redes Neuronales

26 Redes Neuronales para IR Basado en el trabajo de Wilkinson & Hingston, SIGIR’91 Document Terms Query Terms Documents kaka kbkb kckc kaka kbkb kckc k1k1 ktkt d1d1 djdj d j+1 dNdN

27 Redes de tres niveles Las señales se propagan a través de la red Primer nivel de propagación: Los términos de la consulta inician la señal Estas señales se propoagan a través de la red hasta alcanzar los nodos documentos Segundo nivel de propagación: Los nodos documentos pueden ellos por sí mismos generar nuevas señales las cuales afectan los términos de los documentos Los nodos de términos de documentos pueden responder con nuevas señales Redes Neuronales para IR

28 Cuantificación de la Señal Normalizar la fuerza de la señal (MAX = 1) Términos de consulta emiten una señal igual a 1 Pesos asociados a cada arco desde un nodo término de consulta ki a un nodo término documento ki: Wiq Wiq = wiq sqrt (  i wiq ) Pesos asociados a cada arco desde un nodo término de un document ki a un nodo documento dj: Wij Wij = wij sqrt (  i wij ) 2 2

29 Después del primer nivel de propación, el nivel de activación de un nodo documento dj está dado por: WiqWij  i Wiq Wij =  i wiq wij sqrt (  i wiq ) * sqrt (  i wij ) el cual es exactamente el ranking del modelo vectorial Nuevas señales pueden ser intercambiadas entre nodos términos de documento y nodos documento en un proceso análago a un ciclo de feedback Un threshold mínimo debe ser asegurado para evitar generación de señales perturbadoras. 22 Cuantificación de la Señal

30 Conclusiones El modelo da una formulación interesante al problema de IR El modelo no ha sido evaluado extensiblemente No es claro las mejoras que otorga

31 Modelo Alternativos Probabilísticos Teoría de Probabilidad Semánticamente clara Computacionalmente enrredada Por qué Redes Bayesianas? Es un formalismo claro que combina evidencias Comparticiona el mundo (dependencias) Redes Bayesianas para IR Redes de Inferencia (Turtle & Croft, 1991) Redes de Creencia (Ribeiro-Neto & Muntz, 1996)

32 Inferencia Bayesiana Escuelas de pensamiento en probabilidad Frecuencia: noción estadística relacionada con las leyes de cambios Epistemología: interpreta la probabilidad como grado de creencia

33 Inferencia Bayesiana Axiomas básicos: 0 < P(A) < 1 ; P(sure)=1; P(A V B)=P(A)+P(B) Si A y B son mutuamente exclusivos

34 Inferencias Bayesianas Otras formulaciones P(A)=P(A  B)+P(A  ¬B) P(A)=   i P(A  B i ), donde B i,  i es un conjunto exhaustivo y mutuamente exclusivo P(A) + P(¬A) = 1 P(A|K) creencia en A dado el conocimiento de K if P(A|B)=P(A), A y B son independientes if P(A|B  C)= P(A|C), A y B son condicionalmente independientes, dado C P(A  B)=P(A|B)P(B) P(A)=   i P(A | B i )P(B i )

35 Inferencia Bayesiana Regla de Bayes: El corazón de la técnica Bayesiana P(H|e) = P(e|H)P(H)/ P(e) donde, H : una hipótesis y e es una evidencia P(H) : Probabilidad anterior P(H|e) : Probabilidad posterior P(e|H) : Probabilidad de e si H es verdadero P(e) : una constante normalizadora, entonces escribimos: P(H|e) ~ P(e|H)P(H)

36 Redes Bayesianas Definición: Son grafos dirigidos acíclicos en los cuales nodos representan variables aleatorias, los arcos representan relaciones de causalidad entre estas variables, y la fuerza de estas causalidades son expresadas por probabilidaddes condicionales.

37 Redes Bayesianas y i : Nodos padres (en este caso, nodos de raíz) x : nodo hijo y i causa x Y el conjunto de padres de x La enfuencia de Y en x puede ser cuantificada por cualquier función F(x,Y) tal que   x F(x,Y) = 1 0 < F(x,Y) < 1 Por ejemplo, F(x,Y)=P(x|Y) y1y2y3 x1

38 Redes Bayesianas Dada la dependencia declarada en una red Bayesiana, la expresión para la probabilidad conjunto puede ser calculada como un producto de probabilidad condicional local, por ejemplo, P(x 1, x 2, x 3, x 4, x 5 )= P(x 1 ) P(x 2 | x 1 ) P(x 3 | x 1 ) P(x 4 | x 2, x 3 ) P(x 5 | x 3 ). P(x 1 ) : probabilidad anterior del nodo raíz x1 x2x3 x4 x5

39 Redes Bayesianas En una red Bayesiana cada variable es condicionalmente dependiente de todos los no descendientes, sus padres Por ejemplo, P(x 4, x 5 | x 2, x 3 )= P(x 4 | x 2, x 3 ) P( x 5 | x 4 ) x1 x2x3 x4 x5

40 Modelo de Redes de Inferencia Vista Epistemológica del problema de IR Variables aleatorias asociadas con documentos, términos índices y consultas Una variable aleatoria asociada con un documento d j representa el evento de observar tal documento

41 Modelo de Redes de Inferencia Nodos documentos (d j ) términos índices (k i ) consultas (q, q 1, y q 2 ) necesidad de información del usuario (I) Arcos desde d j, su nodo de término índice k i indica que la observación de d j aumenta la creencia en la variable k i dj k1k2 q q2 q1 I kikt or and

42 d j tiene términos k 2, k i, y k t q tiene términos k 1, k 2, y k i q 1 y q 2 es una formulación Boolean q 1 =((k 1  k 2 ) v k i ); I = (q v q 1 ) Modelo de Redes de Inferencia dj k1k2 q q2 q1 I kikt or and

43 Definiciones: k 1, d j,, son q variables aleatorias k=(k 1, k 2,...,k t ) un vector t-dimensional k i,  i  {0, 1}, entonces k tiene 2 t posibles estados d j,  j  {0, 1};  q  {0, 1} El ranking de un documento d j es calculado como P(q  d j ) q y d j, son representación cortas para q=1 y d j =1 (d j representa un estado donde d j = 1 and  l  j  d l =0, porque se observa un documento en cada momento) Modelo de Redes de Inferencia

44 P(q  d j )=   k P(q  d j | k) P(k) =   k P(q  d j  k) =   k P(q | d j  k) P(d j  k) =   k P(q | k) P(k | d j ) P( d j ) P(¬(q  d j )) = 1 - P(q  d j ) Modelo de Redes de Inferencia

45 Como la instanciación de d j hace todos los nodos de términos índices mutuamente independientes P(k | d j ),entonces P(q  d j )=   k [ P(q | k) x (   i|g i (k)=1 P(k i | d j ) ) x (   i|g i (k)=0 P(¬k i | d j ) ) x P( d j ) ] recuerde que: g i (k)= 1 si k i =1 en el vector k 0 en otro caso Modelo de Redes de Inferencia

46 Probabilidad anterior P(d j ) refleja la probabilidad asociado a un evento de observación a un documento d j Uniforme para N documentos P(d j ) = 1/N P(¬d j ) = 1 - 1/N Basada en la norma del vector d j P(d j )= 1/|d j | P(¬d j ) = 1 - 1/|d j | Modelo de Redes de Inferencia

47 Para el modelo Boolean P(d j ) = 1/N 1 if g i (d j )=1 P(k i | d j ) = 0 otro caso P(¬k i | d j ) = 1 - P(k i | d j )  solo los nodos asociados con los términos índices del documento d j son activados Modelo de Redes de Inferencia

48 Para el modelo Boolean 1 if  q cc | (q cc  q dnf )  (  k i, g i (k)= g i (q cc ) P(q | k) = 0 otherwise P(¬q | k) = 1 - P(q | k)  uno de los componentes conjuntivos de la consulta debe ser igualado por los términos índices activos en k Modelo de Redes de Inferencia

49 Para una estrategia tf-idf P(d j )= 1 / |d j | P(¬d j ) = 1 - 1 / |d j |  probabilidad anterior refleja la importancia de normalización de documento Modelo de Redes de Inferencia

50 Para la estrategia tf-idf P(k i | d j ) = f i,j P(¬k i | d j )= 1- f i,j  La relevancia del término k i es determinada por su factor de frecuencia de término normalizada f i,j = freq i,j / max freq l,j Modelo de Redes de Inferencia

51 Para estrategia tf-idf Define un vector k i dado por k i = k | ((g i (k)=1)  (  j  i g j (k)=0))  en el estado k i sólo el nodo k i está activo y todos los otros inactivos Modelo de Redes de Inferencia

52 Para la estrategia tf-idf idf i if k = k i  g i (q)=1 P(q | k) = 0 if k  k i v g i (q)=0 P(¬q | k) = 1 - P(q | k)  sumamos las contribuciones individuales de cada término por su normalizado idf Modelo de Redes de Inferencia

53 Para la estrategia tf-idf Como P(q|k)=0  k  k i, se reescribe P(q  d j ) como P(q  d j ) =   ki [ P(q | k i ) P(k i | d j ) x (   l|l  i P(¬k l | d j ) ) x P( d j ) ] = (   i P(¬k l | d j ) ) x P( d j )x   ki [ P(k i | d j ) x P(q | k i ) / P(¬k i | d j ) ] Modelo de Redes de Inferencia

54 Para una estrategia tf-idf Aplicando la probabilidad,se tiene que P(q  d j ) = C j (1/|d j |)   i [ f i,j idf i (1/(1- f i,j )) ]  C j cambia de documento en documento  El ranking es distinto del cual dado por el modelo vectorial Modelo de Redes de Inferencia

55 Combinando evidencia Sea I = q v q 1 P(I  d j )=   k P(I | k) P(k | d j ) P( d j ) =   k [1 - P(¬q|k)P(¬q 1 | k)] P(k| d j ) P( d j )  Puede llevar a un rendimiento de recuperación el cual sobrepasa el rendimiento de los nodos de consulta individuales (Turtle & Croft) Modelo de Redes de Inferencia

56 Modelo de Redes de Creencia Como el Modelo de Redes de Inferencia Una vista epistemológica Variables aleatorias para docuementos,índices y consultas Contrario a Redes de Inferencia Espacio de muestreo bien definido Vista de teoría de conjuntos Diferente topología de red

57 El espacio de probabilidad Define: K={k 1, k 2,...,k t } el espacio de muestreo (un espacio conceptual) u  K un subconjunto de K (un concepto) k i un término índice (un concepto elemental) k=(k 1, k 2,...,k t ) un vector asociado a cada u tal que g i (k)=1  k i  u k i una variable binaria aleatoria asociada con el término índice k i, (k i = 1  g i (k)=1  k i  u) Modelo de Redes de Creencia

58 Un vista de teoría de conjunto Define: un documento d j y una consulta q como conceptos en K un concepto genérico c en K una probabilidad de distribución P sobre K, como P(c)=   u P(c|u) P(u) P(u)=(1/2) t P(c) es el grado de cobertura del espacio por c Modelo de Redes de Creencia

59 Topología de Red consultas documentos Modelo de Redes de Creencia q k1k2kikt dndjd1

60 Asume P(d j |q) es adoptado como un ranking del documento d j con respecto a la consulta q. Refleja el grado de cobertura que da el concepto d j para el concepto q. Modelo de Redes de Creencia

61 El ranking de d j P(d j |q) = P(d j  q) / P(q) ~ P(d j  q) ~   u P(d j  q | u) P(u) ~   u P(d j | u) P(q | u) P(u) ~   k P(d j | k) P(q | k) P(k) Modelo de Redes de Creencia

62 Para el modelo vectorial Define Define un vestor k i dado por k i = k | ((g i (k)=1)  (  j  i g j (k)=0))  en el estado k i sólo el nodo k i está activo Modelo de Redes de Creencia

63 Para el modelo vectorial Define (w i,q / |q|) if k = k i  g i (q)=1 P(q | k) = 0 if k  k i v g i (q)=0 P(¬q | k) = 1 - P(q | k)  (w i,q / |q|) es una versión normalizada del peso del término índice k i en la consulta q Modelo de Redes de Creencia

64 Para el modelo vectorial Define (w i,j / |d j |) if k = k i  g i (d j )=1 P(d j | k) = 0 if k  k i v g i (d j )=0 P(¬ d j | k) = 1 - P(d j | k)  (w i,j / |d j |) es una versión normalizada del peso del término índice k i en el documento d,j Modelo de Redes de Creencia

65 Modelode Redes Bayesianas Comparación Modelo de redes de inferencia en el primero y bien conocido Modelo de redes de creencia adopta una vista de teoría de conjunto Modelo de redes de creencia adopta un claro espacio de muestreo Modelo de redes de creencia separa claramente la consulta de los documentos Modelo de redes de creencia es capaz de reproducir el ranking derivado de una red de inferencia (pero no el inverso)

66 Modelo de Redes Bayesianas Costo Computacional Modelo de Redes de Inferencias: es lineal en el número de documentos. Redes de creencia: sólo los estados de los términos de la consulta son considerados Las redes no tienen ciclos y no imponen costos adicionales

67 Modelos de Redes Bayesianas Impacto La combinación de propiedades de distintos modelos es una idea que ayuda a la mejora en recuperación de información.


Descargar ppt "Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción"

Presentaciones similares


Anuncios Google