Búsqueda Inteligente en la Web II: ¿Búsqueda semántica o búsqueda con sentido? Julio Gonzalo Grupo de Recuperación de Información y Procesamiento del Lenguaje.

Slides:



Advertisements
Presentaciones similares
L. Codina UPF Estudios de Periodismo Curso Motores de Búsqueda para usos Profesionales y Académicos.
Advertisements

CAROLINA ZONA MARYELY TORRES TR 8° SEMESTRE. LA INFORMACION CRECE DE FORMA EXPONENCIAL, Y EL CONOCIMIENTO CIENTIFICO SE PUBLICA EN MUCHAS Y VARIADAS PUBLICACIONES.

Motores de busqueda.
FACULTAD DE CIENCIAS MÉDICAS CARRERA DE MEDICO Y CIRUJANO
7ª Jornada sobre la Biblioteca Digital Universitaria JBDU2009 "La biblioteca universitaria en la web" 5 y 6 de noviembre de 2009 Biblioteca Central de.
Herramientas para la Investigación
Pensiones Civiles del Estado PROYECTO: Página Web PCE
SERVICIOS DE INTERNET Introducción comenzar.
INTERNET, NAVEGADORES Y BUSCADORES
La web semántica y su impacto en la recuperación de información
MÉTODOS Y ELEMENTOS DE PROGRAMACIÓN
Para qué necesitabais esa información y concretar qué es lo que sabíais sobre el tema Vamos a aprender a buscar información útil en Internet.
Inteligencia Artificial
Iván ventura presenta.
Negocio de multinivel por internet y la generación de trafico Cuatro maneras de generación de tráfico para el negocio de multinivel por internet
República Bolivariana de Venezuela Ministerio del Poder Popular para la Defensa Universidad Nacional Experimental Politécnica de la Fuerza Armada Nacional.
WEB SEMANTICA Integrantes: Juan Carreño Ojeda Felipe Salazar Fernández.
EPO “165” CARMEN SERDAN SAN LUCAS TOTOLMALOYA
QUE ES INTERNET Podríamos decir que Internet está formado por una gran cantidad de ordenadores que pueden intercambiar información entre ellos. Es una.
Base de Datos ProQuest.
TIPOS DE WEB.
ÍNDICE 4. Contacto 3. Tarifas 2. Por click o por Posición 1. Posicionarse en Google.
Contesta Cierto o Falso (al final del módulo podrás tomar la prueba de nuevo): – Yahoo ofrece un motor de búsqueda. – Los motores de búsqueda funcionan.
Es una herramienta que permite filtrar, agrupar y compartir toda la información sobre un tema. De algún modo sustituye a las páginas que guardamos en “favoritos”
Por Diego Lozada.  La visión de la Inteligencia Artificial: La Web semántica es un conjunto de iniciativas destinadas a promover una futura Web cuyas.
Google Objetivos: comprender y conocer los beneficios que nos entrega este buscador. Nombres: -Javiera Arratia -Milena Pereira Curso: 2ºMedio B Fecha:
GOOGLE     Es el buscador más utilizado es la fuente prioritaria de sus ingresos y utilización, tienen desarrolladas.
BIENVENIDOS Vosotros vais a hablar primero, contándonos a través de una encuesta anónima, vuestros conocimientos. El aprendizaje basado en problemas es.
SEO Los términos posicionamiento en buscadores, posicionamiento web u optimización de motores de búsqueda engloban todos los procesos que se encargan de.
Manejo Eficiente de la información en el siglo XXI
Desafíos del periódico electrónico III. Valor añadido, la clave de los medios en Internet Lenta asimilación de los avances tecnológicos en los medios.
La Web 4.0 es un nuevo modelo de Web que nace con el objetivo de resolver las limitaciones de la Web actual. La Web 4.0 propone un nuevo modelo de interacción.
Clase 3 complementaria Tecnología de la Comunicación I Estrategias de búsqueda.
INTRODUCCIÓN A LA INTELIGENCIA ARTIFICIAL Y LOS SISTEMAS EXPERTOS

WEB 2.0. Una visión reflexiva ALEJANDRA BOSCO. WEB 1.0 y WEB 2.0. WEB 1.0WEB 2.0 1º fase2º fase Se convierte en una plataforma de: Distribución de servicios.
Un buscador es una página de internet que permite realizar búsquedas en la red. Su forma de utilización es muy sencilla, basta con introducir una o más.
1. Motores de búsqueda de internet más usados.. ¿Qué son los motores de búsqueda? Un motor de búsqueda, también conocido como buscador, es un sistema.
SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
Web Semántica La Web Semántica es la nueva generación de la Web, que intenta realizar un filtrado automático preciso de la información. Para ello, es necesario.
Muchas de las investigaciones sobre el comportamiento de los usuarios de la Web que se están realizando en poblaciones de personas nacidas posteriormente.
PUBLICIDAD EN INTERNET FÓRMULAS PUBLICITARIAS ON-LINE Portales corporativos. Publicidad en sedes web. Enlaces patrocinados.
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
WEB SEMÁNTICA.
EOI 2.0. Web 1.0 vs Web 2.0 Páginas estáticas Usuarios lectores Interactiva Páginas participativas Usuarios creadores Colaborativa.
WORD WIDE WEB Nace a principios de los años 90 en Suiza. Su función es ordenar y distribuir la información que existe en internet. La World Wide Web se.
Es un conjunto de redes: redes de ordenadores y equipos físicamente unidos mediante cables que conectan puntos de todo el mundo. Estos cables se presentan.
TALLER #5 GERMAN BECDACH MUÑOZ. PREGUNTAS  Qué es una pagina web? Una página web es el nombre de un documento o información electrónica adaptada para.
 Un motor de búsqueda, también conocido como buscador es un sistema informático que busca archivos almacenados en servidores web gracias a su «spider»
Las Páginas WIKI. ¿Que son? Es un sitio web colaborativo que puede ser editado por varios usuarios. Los usuarios de una wiki pueden así crear, editar,
Tecnologías de la información y comunicación.. Buscadores de informaciónBuscadores de información O Un buscador es una página web que ofrece algún sistema.
Búsqueda de Información en Internet
TRABAJO SOBRE LA DEEP WEB
Especialización en Gerencia de Servicios de Información Seminario de Investigación II.
HOLA. HOLA Las Redes son formas de interacción social, definida como un intercambio dinámico entre personas, grupos e instituciones en contextos de.
PUBLICIDAD EN INTERNET La publicidad es un tema muy complejo porque muchos anunciantes diferentes tratan de llegar a muchos tipos de audiencias.
PROCESO DE REDACCIÓN Dr. José E. García Tejada
BLOG. Que son los blogs?  Un blog es un sitio web personalizado donde un usuario comparte notas llamadas entradas, con información sobre un tema especifico.
1. Iniciación a la arquitectura de la información.
Es una web en donde se muestran varias direcciones de páginas que contienen el tema que se está buscando. Sus orígenes se remontan al año de 1994, cuando.
INTERNET SERVICIOS Y APLICACIONES
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.
En Internet: Los datos se transforman en información cuando una persona los lee, los comprende y los usa con algún fin: para estudiar, para trabajar,
¿Internet? Es un conjunto descentralizado de redes de comunicación interconectadas que utilizan la familia de protocolos TCP/IP, garantizando que las redes.
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
1.  Portada  Índice  Introducción
UNIVERSIDAD DE GUADALAJARA CUCS LICENCIATURA EN ENFERMERIA SEMIESCOLARIZADA CURSO PROPEDEUTICO AUTOEVALUACIÓN “LO QUE APRENDÍ” GRGUPO 12 ASESORA: IRMA.
Búsqueda en la Web. Razones para introducir las TIC (OECD 2001) Las TIC son una competencia básica, tal como la lectura, escritura y matemática. Las TIC.
Transcripción de la presentación:

Búsqueda Inteligente en la Web II: ¿Búsqueda semántica o búsqueda con sentido? Julio Gonzalo Grupo de Recuperación de Información y Procesamiento del Lenguaje Natural Departamento de Lenguajes y Sistemas Informáticos UNED http://nlp.uned.es

Dos visiones del futuro de la Web Del blog de Mark Pilgrim

Buscando al hada azul (A.I.) Pinocho: “I am looking for the blue fairy” Dr. Know: “Blue fairy, escort service 24 hours, elegant and discreet. Phone number …”

Buscando un alquimista

Buscando la piedra filosofal

Puede solucionarlo una máquina más lista

O ponernos todos a hablar Esperanto++ m:mentions Julio Gonzalo UNED P:GivenName #Julio p:WorksAtOrg m:attending Seminario UIMP Sorcerer’s stone Web semántica Fuente: Miguel Rodríguez, UNED nlp.uned.es

Quiero decir, rdf <rdf:RDF xmlns="http://www.example.org/personal_details#" xmlns:m="http://www.example.org/meeting_organization#" xmlns:p="http://www.example.org/personal_details#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"> <rdf:Description rdf:about="http://meetings.example.com/cal#workshop_ATOS"> <m:mentions rdf:resource=“http://sorcery.example.org/sorcerer’s_stone"/> </rdf:Description> <rdf:Description rdf:about="http://www.example.org/people#julio"> <m:attending rdf:resource="http://meetings.example.com/cal#workshop_ATOS"/> <GivenName>Julio Gonzalo</GivenName> <WorksAtOrg rdf:resource="http://organizations.example.com#UNED"/> <hasEmail rdf:resource="mailto:julio@lsi.uned.es"/> </rdf:RDF> Ejercicio: ¿resuelve la web semántica el problema anterior?

Así que la web semántica es…

(una) premisa de la web semántica Si nos expresaramos mediante conceptos (en lugar de palabras) no ambiguos y consensuados universalmente, buscar sería incomparablemente más sencillo. ¿Es posible expresarnos mediante conceptos? Y si es posible… ¿es realmente tan magnífico?

Indexación conceptual Conceptual Index n03114639 n05727069 n09151839 Texts ...spring... ...muelle... ...fountain... ...fuente... ...springtime... ...primavera... Query spring n09151839 WSD

Indexación conceptual sin errores

¿Un 30% es suficiente? ¡Es un techo! Diez años después… los sistemas de WSD siguen en un 60% de eficacia. Un 30% no es más que un intercambio en los cuatro primeros resultados.

Más pruebas “empíricas” de que la web semántica no funcionará Los sistemas de búsqueda bibliotecarios (o la navegación de muchos sitios web) Los diccionarios La quinta de Beethoven El chocolate

Así se escribe la historia 1998: Google: la información de los hipervínculos puede catapultar la calidad de los resultados de búsqueda (Brin & Page) La indexación conceptual puede mejorar un 30% la indexación convencional (Gonzalo et. al) 2007: Los votos del PageRank podrían aquilatarse como opiniones (utilizando PLN para analizar los enlaces) Pero la información de los logs de usuario es varios órdenes de magnitud mayor que la Web (12 Tb / día) SE COMIERON EL MUNDO SE COMIERON SUS PALABRAS

El círculo vicioso de la web semántica No se generan contenidos de web semántica porque no hay buscadores capaces de aprovechar esa información. No se crean buscadores capaces de aprovechar la información que proporciona la web semántica porque no hay masa crítica de contenidos.

Un cierto paralelismo La piedra filosofal La web semántica Que dieron lugar a… La química moderna RSS, …?

Mucho más listos Personalización: google personalized search (historial de búsqueda), MyRank de Yahoo. Organización: organizadores de información (vivisimo, grokker, kartoo) -> clustering Especialización: news, scholar, kayak.com, Froogle -> categorización, extracción, web semántica. Análisis y diálogo: extracción de datos, respuestas, capacidad de resumir el contenido de fuentes diversas

Personalización

Personalización por contenido

Personalización por contenido ¡De nuevo contar palabras!

Personalización por red social

Asistencia para la exploración de resultados

Agrupación

Agrupación@UNED

Categorización de resultados

Superación de barreras idiomáticas

Sugerencias de búsqueda

Sugerencias de búsqueda

Sugerencias@UNED

Sugerencias@UNED

Más listos: multilingües

Vs. “crummy Machine Translation”

Multilingües@UNED

Especialización por dominio

Web semántica vs. Information Extraction pregunta datos Necesidad De información BD QL IE Necesidad de información constante. Objetivo: conjunto perfecto de documentos relevantes.

Ejemplo extracción: movies

Ejemplo extracción: Google Scholar

Extracción de opiniones: Swotti

No confundir con acceso a BBDD

Extracción@UNED: Multimatch Buscador vertical (Patrimonio Cultural) Búsqueda multilingüe (translingüe) y multimedia Combina clasificación automática, extracción de información y minería de textos.

MultiMatch

MultiMatch

El círculo virtuoso de MultiMatch Se añade formato de web semántica a los contenidos para mejorar el resultado de MultiMatch Multimatch es capaz de extraer automáticamente información semántica (con errores) y de aceptarla en formato web semántica (sin ellos)

Especialización por tipo de pregunta (“the need behind the query”)

Respuestas con interacción

Respuestas: definiciones

Pregunta/respuesta ¿Cuál es la montaña más grande del mundo?

Sistemas de búsqueda de respuestas en castellano: resultados CLEF

Especialización + extracción “Javier Artiles” en Google Mi buscador

Búsqueda de personas: zoominfo

Estamos en ello…

Un poco de sintaxis

Búsqueda de respuestas compleja ¿Cuáles son los factores que pueden decidir el voto en las próximas elecciones? “Google answers” necesita expertos en buscar, analizar y sintetizar información sobre un tema específico. ¿Habrá un Google answers automático? (“Síntesis de Información”) ¿Habrá un Google news que redacte automáticamente las noticias, resumiendo de varias fuentes y adaptándose al perfil de cada usuario?

Conclusiones Los motores de búsqueda comenzaron siendo un catálogo de páginas web… … pero van acumulando una parte sustancial del conocimiento del mundo… … reflejan nuestras opiniones… … ¡y están empezando a ser capaces de razonar con esa información! ¿Los motores de búsqueda serán el “cerebro del hormiguero”?

El test de Turing Una persona conversa (a ciegas) con otra persona y con una máquina. Si no es capaz de distinguir a la máquina, ésta ha pasado el test de Turing. 1990: Hugh Loebner ofrece 100.000 dólares a la primera máquina que pase el test. Hasta ahora. Los competidores tratan de codificar el conocimiento del mundo y millones de respuestas potenciales (Inteligencia Artificial) ¿Y si el enfoque correcto es un buscador capaz de utilizar páginas, enlaces, transacciones y comportamiento de los usuarios? (John Battelle, The Search).

La combinación de ambos definirá la web 3.0 And the future is… Los buscadores se apañarán para entendernos, aunque ocasionalmente seguirá pareciendo que están borrachos. Los usuarios seguirán siendo perezosos. Ocasionalmente añadirán información semántica para conseguir camisetas gratis. La combinación de ambos definirá la web 3.0