Búsqueda Inteligente en la Web II: ¿Búsqueda semántica o búsqueda con sentido? Julio Gonzalo Grupo de Recuperación de Información y Procesamiento del Lenguaje Natural Departamento de Lenguajes y Sistemas Informáticos UNED http://nlp.uned.es
Dos visiones del futuro de la Web Del blog de Mark Pilgrim
Buscando al hada azul (A.I.) Pinocho: “I am looking for the blue fairy” Dr. Know: “Blue fairy, escort service 24 hours, elegant and discreet. Phone number …”
Buscando un alquimista
Buscando la piedra filosofal
Puede solucionarlo una máquina más lista
O ponernos todos a hablar Esperanto++ m:mentions Julio Gonzalo UNED P:GivenName #Julio p:WorksAtOrg m:attending Seminario UIMP Sorcerer’s stone Web semántica Fuente: Miguel Rodríguez, UNED nlp.uned.es
Quiero decir, rdf <rdf:RDF xmlns="http://www.example.org/personal_details#" xmlns:m="http://www.example.org/meeting_organization#" xmlns:p="http://www.example.org/personal_details#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"> <rdf:Description rdf:about="http://meetings.example.com/cal#workshop_ATOS"> <m:mentions rdf:resource=“http://sorcery.example.org/sorcerer’s_stone"/> </rdf:Description> <rdf:Description rdf:about="http://www.example.org/people#julio"> <m:attending rdf:resource="http://meetings.example.com/cal#workshop_ATOS"/> <GivenName>Julio Gonzalo</GivenName> <WorksAtOrg rdf:resource="http://organizations.example.com#UNED"/> <hasEmail rdf:resource="mailto:julio@lsi.uned.es"/> </rdf:RDF> Ejercicio: ¿resuelve la web semántica el problema anterior?
Así que la web semántica es…
(una) premisa de la web semántica Si nos expresaramos mediante conceptos (en lugar de palabras) no ambiguos y consensuados universalmente, buscar sería incomparablemente más sencillo. ¿Es posible expresarnos mediante conceptos? Y si es posible… ¿es realmente tan magnífico?
Indexación conceptual Conceptual Index n03114639 n05727069 n09151839 Texts ...spring... ...muelle... ...fountain... ...fuente... ...springtime... ...primavera... Query spring n09151839 WSD
Indexación conceptual sin errores
¿Un 30% es suficiente? ¡Es un techo! Diez años después… los sistemas de WSD siguen en un 60% de eficacia. Un 30% no es más que un intercambio en los cuatro primeros resultados.
Más pruebas “empíricas” de que la web semántica no funcionará Los sistemas de búsqueda bibliotecarios (o la navegación de muchos sitios web) Los diccionarios La quinta de Beethoven El chocolate
Así se escribe la historia 1998: Google: la información de los hipervínculos puede catapultar la calidad de los resultados de búsqueda (Brin & Page) La indexación conceptual puede mejorar un 30% la indexación convencional (Gonzalo et. al) 2007: Los votos del PageRank podrían aquilatarse como opiniones (utilizando PLN para analizar los enlaces) Pero la información de los logs de usuario es varios órdenes de magnitud mayor que la Web (12 Tb / día) SE COMIERON EL MUNDO SE COMIERON SUS PALABRAS
El círculo vicioso de la web semántica No se generan contenidos de web semántica porque no hay buscadores capaces de aprovechar esa información. No se crean buscadores capaces de aprovechar la información que proporciona la web semántica porque no hay masa crítica de contenidos.
Un cierto paralelismo La piedra filosofal La web semántica Que dieron lugar a… La química moderna RSS, …?
Mucho más listos Personalización: google personalized search (historial de búsqueda), MyRank de Yahoo. Organización: organizadores de información (vivisimo, grokker, kartoo) -> clustering Especialización: news, scholar, kayak.com, Froogle -> categorización, extracción, web semántica. Análisis y diálogo: extracción de datos, respuestas, capacidad de resumir el contenido de fuentes diversas
Personalización
Personalización por contenido
Personalización por contenido ¡De nuevo contar palabras!
Personalización por red social
Asistencia para la exploración de resultados
Agrupación
Agrupación@UNED
Categorización de resultados
Superación de barreras idiomáticas
Sugerencias de búsqueda
Sugerencias de búsqueda
Sugerencias@UNED
Sugerencias@UNED
Más listos: multilingües
Vs. “crummy Machine Translation”
Multilingües@UNED
Especialización por dominio
Web semántica vs. Information Extraction pregunta datos Necesidad De información BD QL IE Necesidad de información constante. Objetivo: conjunto perfecto de documentos relevantes.
Ejemplo extracción: movies
Ejemplo extracción: Google Scholar
Extracción de opiniones: Swotti
No confundir con acceso a BBDD
Extracción@UNED: Multimatch Buscador vertical (Patrimonio Cultural) Búsqueda multilingüe (translingüe) y multimedia Combina clasificación automática, extracción de información y minería de textos.
MultiMatch
MultiMatch
El círculo virtuoso de MultiMatch Se añade formato de web semántica a los contenidos para mejorar el resultado de MultiMatch Multimatch es capaz de extraer automáticamente información semántica (con errores) y de aceptarla en formato web semántica (sin ellos)
Especialización por tipo de pregunta (“the need behind the query”)
Respuestas con interacción
Respuestas: definiciones
Pregunta/respuesta ¿Cuál es la montaña más grande del mundo?
Sistemas de búsqueda de respuestas en castellano: resultados CLEF
Especialización + extracción “Javier Artiles” en Google Mi buscador
Búsqueda de personas: zoominfo
Estamos en ello…
Un poco de sintaxis
Búsqueda de respuestas compleja ¿Cuáles son los factores que pueden decidir el voto en las próximas elecciones? “Google answers” necesita expertos en buscar, analizar y sintetizar información sobre un tema específico. ¿Habrá un Google answers automático? (“Síntesis de Información”) ¿Habrá un Google news que redacte automáticamente las noticias, resumiendo de varias fuentes y adaptándose al perfil de cada usuario?
Conclusiones Los motores de búsqueda comenzaron siendo un catálogo de páginas web… … pero van acumulando una parte sustancial del conocimiento del mundo… … reflejan nuestras opiniones… … ¡y están empezando a ser capaces de razonar con esa información! ¿Los motores de búsqueda serán el “cerebro del hormiguero”?
El test de Turing Una persona conversa (a ciegas) con otra persona y con una máquina. Si no es capaz de distinguir a la máquina, ésta ha pasado el test de Turing. 1990: Hugh Loebner ofrece 100.000 dólares a la primera máquina que pase el test. Hasta ahora. Los competidores tratan de codificar el conocimiento del mundo y millones de respuestas potenciales (Inteligencia Artificial) ¿Y si el enfoque correcto es un buscador capaz de utilizar páginas, enlaces, transacciones y comportamiento de los usuarios? (John Battelle, The Search).
La combinación de ambos definirá la web 3.0 And the future is… Los buscadores se apañarán para entendernos, aunque ocasionalmente seguirá pareciendo que están borrachos. Los usuarios seguirán siendo perezosos. Ocasionalmente añadirán información semántica para conseguir camisetas gratis. La combinación de ambos definirá la web 3.0