Aidan Hogan aidhog@gmail.com Gestión de Datos (Masivos) Diplomado de Datos 2017 Clase 6: Recuperación de Información (II) Aidan Hogan aidhog@gmail.com.

Slides:



Advertisements
Presentaciones similares
Google como Ejemplo de M á quinas de B ú quedas M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Advertisements

Cómo hacer búsquedas académicas en internet. ¿Cuál es el objetivo? Una búsqueda bien realizada debería generar la menor cantidad posible de resultados,
Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín.
LIBRARY AND INFORMATION SCIENCE ABSTRACTS (LISA).
Pregunta orientadora de nuestro proyecto: cómo impactan en cómo impactan en Pregunta orientadora de nuestro proyecto: cómo impactan en cómo impactan en.
ESCRIBIR en el mundo digital. HIPERTEXTO E s la presentación de la información como una red de nodos enlazados a través de los cuales los lectores pueden.
Pregunta orientadora de nuestro proyecto: cómo impactan en cómo impactan en Pregunta orientadora de nuestro proyecto: cómo impactan en cómo impactan en.
Nathalia Castellanos Gómez Orfidia Ovalle Garzón Psicología 4D
PPTCEG045EM32-A16V1 Plano en el espacio EM-32. Recordemos… -¿Cómo se determina el punto medio de un segmento en el espacio? -¿Cuándo dos rectas en el.
HTM L (Hyper Text Markup Language). ¿Qué es HTML? Es el lenguaje que permite escribir texto de forma estructurada, y que está compuesto por etiquetas,
Trucos Ofimática II Trucos ofimáticas. ¿Cómo nos pueden ayudar?
Buscar y Gestionar Información con Nuevas Tecnologías
Cómo presentar trabajos académicos
CC Bases de Datos Otoño Clase 8: SQL (IV) Acceso programático
Datos Discretos y Continuos
Un poco de lo que se de WORD
Conceptos a Base de Datos
Conceptos a Base de Datos
PROBABILIDAD.
Instalación de Wiki-Ius – SAIJ
Ultima actualización 23/08/13
Incremental Methods for Context-Based Web Retrieval
FUNCIONES, PROCESAMIENTO ELEMENTAL DE DATOS
TRIGONOMETRÍA Rama de la matemática que estudia la relación
José Francisco Valverde Calderón Sitio web: Dibujo 1 I Ciclo, 2017
Motores de Búsqueda Modelo Vectorial (Taller: Ranking)
Principales criterios empleados bajo Riesgo
Estrategia de Búsqueda de Información en Bases de Datos
Metabúsqueda en .Q Metabúsqueda en .Q COMENZAR.
Apuntes de Matemáticas 3º ESO
CRE ATU PAGINA WEB CON HTML
Desarrollo Actividad Número 3
Algunas consideraciones con Redes Neuronales
Descripción e interpretación de la estadística
Anexo accesibilidad | SENADIS y Centro de Sistemas Públicos
HerraMienta: TAREAS 5 Conceptos
Como buscar información por internet
Marketing Digital para sitios web
5° Meetup 10 Tips de Usabilidad
GESTIÓN DEL RIESGO Grupo isarco.
Internet Búsqueda avanzada.
LAURA MADRIGAL CABRERIZO ALBA TIJERO CERRADA
La elasticidad de la demanda
QUE ES UN DIAGNOSTICO? Es un estudio previo a toda planificación o proyecto y que consiste en la recopilación de información, su ordenamiento, su interpretación.
Wikis H I S T O R A Los orígenes de los wikis están en la comunidad de patrones de diseño, que los utilizaron para escribir y discutir patrones. El primer.
LUZ MERY SILVA BUITRAGO
Algoritmos de reemplazo
FunciÓn PotenciaL, exponencial y logarÍtmica.
Búsqueda bibliográfica
CC Bases de Datos Otoño Clase 3: Modelo Entidad-Relación (II)
INFORME Un informe es algo tan simple como el texto a través del cual se da cuenta de los avances realizados en un proyecto en particular. Por lo general,
EJEMPLO DE BÚSQUEDA AVANZADA EN GOOGLE
Estructuras de Datos MC Beatriz Beltrán Martínez Primavera 2018
Introducción Google es el buscador más usado a nivel mundial, siendo una herramienta imprescindible para la búsqueda de datos e información que necesitamos.
Livebinders es un sitio web que funciona como un archivo virtual
CC Bases de Datos Otoño Clase 8: SQL: Acceso Programático,
Web Wordpress Autor: Ezequiel Rodolfo Tesone.
 Función cuadrática Definición Es de la forma: f(x) = ax2 + bx + c
 Son las distintas acciones que realiza una persona, marca o empresa para aparecer en los primeros lugares de los buscadores, a fin de que los usuarios.
Instructivo diligenciamiento plan de mejoramiento
WOK para investigadores: Researcher ID
aplicados a la Recuperación de Información
Nelson Baloian, José A. Pino
Funcionalidad de Búsqueda
Aidan Hogan CC Bases de Datos Otoño 2019 Clase 7: Actualizaciones, Restricciones, Formas Normales Aidan.
CC Bases de Datos Otoño Clase 9: SQL: Acceso Programático,
ING. JORGE ALBERTO CAMPOS UNIVERSIDAD EVANGELICA DE EL SALVADOR, FACULTAD DE CIENCIAS EMPRESARIALES Y ECONOMICAS.
Búsqueda Avanzada La búsqueda de precisión de Ovid
Tutorial OvidEspañol.
Valor esperado o esperanza III medio 2019
Transcripción de la presentación:

Aidan Hogan aidhog@gmail.com Gestión de Datos (Masivos) Diplomado de Datos 2017 Clase 6: Recuperación de Información (II) Aidan Hogan aidhog@gmail.com

Manejando datos de texto

¿Cómo sabe Google acerca de la Web?

Índices invertidos: Un ejemplo 1 Fruitvale Station is a 2013 American drama film written and directed by Ryan Coogler. Term List Posting List a (1,2,…) american (1,5,…) and by directed drama (1,16,…) … Índice invertido:

Apache Lucene Índice invertido La base de varios otros proyectos Open Source Java La base de varios otros proyectos

Apache Lucene

Recuperación de información: Ranking

¿Cómo Google obtiene tan buenos resultados? obama

¿Cómo Google obtiene tan buenos resultados?

Las dos caras de ranking: Relevancia ≠

Las dos caras de ranking: Importancia >

Ranking: Relevancia

Ejemplo de una consulta ¿Cuáles de las tres palabras debería pesar más en el ranking? Veremos (en más detalle) con un ejemplo ...

Coincidencias en un documento freedom 7 ocurrencias

Coincidencias en un documento freedom 7 ocurrencias movie 16 ocurrencias

Coincidencias en un documento freedom 7 ocurrencias movie 16 ocurrencias wallace 88 ocurrencias

Pesos de las palabras movie se usa muy frecuentemente freedom se usa frecuentemente wallace se usa ocasionalmente

Estimando la relevancia de un documento Palabras raras pesan más que palabras comunes wallace (49M) pesa más que freedom (198M) que a su vez pesa más que movie (835M) Palabras con más ocurrencias en un documento pesan más wallace (88) pesa más que movie (16) que a su vez pesa más que freedom (7)

Medida de relevancia: TF–IDF TF: Term Frequency (frecuencia de términos) Mide la cantidad de ocurrencias de una palabra en un documento … hay varias opciones Conteo simple de ocurrencias Escala logarítmica Normalizado con respecto al largo del documento Una combinación / otras opciones 

Medida de relevancia: TF–IDF IDF: Inverse Document Frequency (frecuencia inversa de documentos) ¿Qué tan raro es un término a través de todos los documentos? … La proporción de los documentos que contengan el término, invertida y escalada logarítmicamente

Medida de relevancia: TF–IDF TF–IDF: Combina Term Frequency e Inverse Document Frequency: Puntaje para una consulta Sea una consulta En puntaje de la consulta es: (Hay otras posibilidades)

Medida de relevancia: TF–IDF Term Frequency Inverse Document Frequency

Medida de relevancia: TF–IDF Term Frequency Inverse Document Frequency

Medida de relevancia: TF–IDF Term Frequency Inverse Document Frequency

Medida de relevancia: TF–IDF Term Frequency Inverse Document Frequency

Medida de relevancia: TF–IDF Term Frequency Inverse Document Frequency

Medida de relevancia: TF–IDF Term Frequency Inverse Document Frequency

Medida de relevancia: TF–IDF Term Frequency Inverse Document Frequency

Modelo del Espacio Vectorial

Modelo del Espacio Vectorial

Modelo del Espacio Vectorial

Modelo del Espacio Vectorial Similitud cosena Nota:

Medida de relevancia: TF–IDF TF–IDF: Combina Term Frequency e Inverse Document Frequency: Puntaje para una consulta Sea una consulta En puntaje de la consulta es: (Hay otras posibilidades) … podríamos usar la similitud cosena entre el documento y la consulta con pesos de TF–IDF

Two Sides to Ranking: Relevancia ≠

"Boosting" basado en campos Títulos deberían pesar más que el cuerpo, etc.

El texto de un enlace ("Anchor text") Como la web "etiqueta" una página externa

El texto de un enlace ("Anchor text") Como la web "etiqueta" una página externa

Apache Lucene usa puntaje de relevancia Entonces ¿cómo podemos definir un proceso de ranking donde Barack Obama salga como el primer resultado? Veremos ...

Ranking: Importancia

Las dos caras de ranking: Importancia >

Las dos caras de ranking: Importancia ¿Cómo podemos determinar que Barack Obama es un resultado más importante que Mount Obama? >

Análisis de enlaces ("Links analysis") ¿A cuál documento veremos más enlaces? ¿La página de Wikipedia de Mount Obama? o ¿La página de Wikipedia de Barack Obama?

Análisis de enlaces ("Links analysis") Considera los enlaces como "votos" para una página Un enlace es como un "like" de la Web abierta … (… incluso si la página es enlazada de manera negativa.)

Análisis de enlaces ("Links analysis") Entonces, si contamos el número de enlaces entrantes a una página web, conocemos su importancia, ¿cierto?

¿Cómo podríamos combatir el "spam" así? "Spamming" de enlaces ¿Cómo podríamos combatir el "spam" así?

La importancia de un enlace ¿Cuál debería pesar más? ¿Un enlace desde http://en.wikipedia.org/wiki/Barack_Obama? o ¿Un enlace desde http://freev1agra.com/shop.html? ¿Pero por qué? Y ¿cómo podríamos medir esta intuición?

La importancia de un enlace ¿Podríamos considerar el dominio del sitio? ... pero sitios "importantes" tienen spam igual:

PageRank

PageRank No tan solo un conteo de enlaces entrantes Un enlace de una página más importante pesa más Un enlace de una página con pocos links pesa más ∴ Una página con más enlaces entrantes desde páginas más importantes (los cuales tienen menos enlaces salientes) es más importante

PageRank es recursivo

La versión básica de PageRank La Web: un grafo dirigido Vértices (páginas) Arcos (enlaces) 0.225 0.265 f a 0.138 0.127 e b d c ¿Cuál es el vértice más importante? 0.172 0.074

La versión básica de PageRank La Web: un grafo dirigido Vértices (páginas) Arcos (enlaces) f a e b d c

La versión básica de PageRank Vértices (páginas) Arcos (enlaces) f e b d

La versión básica de PageRank Vértices (páginas) Arcos (enlaces) f e b d c

La versión básica de PageRank ... Vértices (páginas) Arcos (enlaces) ... f a e b d c

PageRank: El modelo del "surfer" aleatorio = alguien "surfeando" la Web, haciendo clics en enlaces aleatoriamente ¿Cuál es la probabilidad de llegar a una página x después de n saltos? f a e b d c

PageRank: El modelo del "surfer" aleatorio = alguien "surfeando" la Web, haciendo clics en enlaces aleatoriamente ¿Cuál es la probabilidad de llegar a una página x después de n saltos? Estado inicial: El surfer puede empezar en cualquier nodo f a e b d c

PageRank: El modelo del "surfer" aleatorio = alguien "surfeando" la Web, haciendo clics en enlaces aleatoriamente ¿Cuál es la probabilidad de llegar a una página x después de n saltos? Estado inicial: El surfer puede empezar en cualquier nodo PageRank se aplica iterativamente en cada salto: el puntaje indica la probabilidad de estar en esa página después de esa cantidad de saltos f a e b d c ¿Qué pasará con g a medida que pasa el tiempo? g

PageRank: El modelo del "surfer" aleatorio = alguien "surfeando" la Web, haciendo clics en enlaces aleatoriamente ¿Cuál es la probabilidad de llegar a una página x después de n saltos? Estado inicial: El surfer puede empezar en cualquier nodo PageRank se aplica iterativamente en cada salto: el puntaje indica la probabilidad de estar en esa página después de esa cantidad de saltos Si el surfer llega a una página sin links, salta a otra aleatoriamente f a e b d c g

PageRank: El modelo del "surfer" aleatorio = alguien "surfeando" la Web, haciendo clics en enlaces aleatoriamente ¿Cuál es la probabilidad de llegar a una página x después de n saltos? Estado inicial: El surfer puede empezar en cualquier nodo PageRank se aplica iterativamente en cada salto: el puntaje indica la probabilidad de estar en esa página después de esa cantidad de saltos Si el surfer llega a una página sin links, salta a otra aleatoriamente f a e b d c ¿Qué pasará con g y i a medida que pasa el tiempo? g i

PageRank: El modelo del "surfer" aleatorio = alguien "surfeando" la Web, haciendo clics en enlaces aleatoriamente ¿Cuál es la probabilidad de llegar a una página x después de n saltos? Estado inicial: El surfer puede empezar en cualquier nodo PageRank se aplica iterativamente en cada salto: el puntaje indica la probabilidad de estar en esa página después de esa cantidad de saltos Si el surfer llega a una página sin links, salta a otra aleatoriamente f a e b d c ¿Qué pasará con g y i a medida que pasa el tiempo? g i

PageRank: El modelo del "surfer" aleatorio = alguien "surfeando" la Web, haciendo clics en enlaces aleatoriamente ¿Cuál es la probabilidad de llegar a una página x después de n saltos? Estado inicial: El surfer puede empezar en cualquier nodo PageRank se aplica iterativamente en cada salto: el puntaje indica la probabilidad de estar en esa página después de esa cantidad de saltos Si el surfer llega a una página sin links, salta a otra aleatoriamente El surfer saltará a una página aleatoria con probabilidad 1 – d … esto evita trampas y asegura convergencia f a e b d c g i

La versión final de PageRank La Web: Un grafo dirigido Vértices (páginas) Arcos (enlaces) f a e b d c

PageRank: Beneficios Más robusto que un conteo simple de enlaces Menos empates Escalable a aproximar (para grafos dispersos) Su convergencia es garantizada

Las dos caras de ranking: Importancia >

¿Cómo lo hace Google? Lo que sabemos

Cómo Google ranquea sus resultados (quizás) ¡Según algunos expertos de SEO (optimización de motores de búsqueda), no Google!

Como Google ranquea sus resultados (quizás) ¿Por qué no sabemos más? Ley de Goodhart: "Cuando una medida se convierte en una meta, deja de ser una buena medida" ¡Según algunos expertos de SEO (optimización de motores de búsqueda), no Google!

Ranking: ¿Ciencia o arte?

¿Preguntas?