Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porPatricia Redondo Aguilar Modificado hace 8 años
1
Trabajo Final de Grado Exploración Web inteligente con aplicación de distancia semántica y lógica difusa. Ezequiel Mariano Gorbatik
2
¿Qué es un Webcrawler? automática Exploran páginas web en forma automática. bots Suelen ser bots. Es utilizado por los motores de búsqueda.
3
Proceso de Webcrawling Inteligente 1.Lista inicial de links. 2.Exploración de Sitios Web de la lista. 3.Extracción de links óptima 4.Selección óptima de links 5.Carga de nuevos links en la lista inicial
4
Definiciones Básicas PALABRA: mínima indivisible significado propio PALABRA: Unidad sintáctica mínima e indivisible con significado propio. FRASE: Dos o más palabras distinto FRASE: Dos o más palabras agrupadas cuyo significado es distinto del significado individual de las mismas. TÉRMINO: Palabra frase concepto TÉRMINO: Palabra o frase que representa total o parcialmente un concepto. CONCEPTO: conjunto difuso términos relaciones CONCEPTO: Entidad formada por un conjunto difuso de términos y relaciones que engloban toda la información relevante y conocida de la entidad. PALABRA: mínima indivisible significado propio PALABRA: Unidad sintáctica mínima e indivisible con significado propio. FRASE: Dos o más palabras distinto FRASE: Dos o más palabras agrupadas cuyo significado es distinto del significado individual de las mismas. TÉRMINO: Palabra frase concepto TÉRMINO: Palabra o frase que representa total o parcialmente un concepto. CONCEPTO: conjunto difuso términos relaciones CONCEPTO: Entidad formada por un conjunto difuso de términos y relaciones que engloban toda la información relevante y conocida de la entidad.
5
Métrica de distancia entre términos La distancia de un término a sí mismo es cero. Cuanto más se relacionan los términos, la métrica decrece. La distancia de un término a otro con el cual no posee ninguna relación es infinita. Cuanto menos se relacionan los términos, la distancia crece. La distancia de un término a sí mismo es cero. Cuanto más se relacionan los términos, la métrica decrece. La distancia de un término a otro con el cual no posee ninguna relación es infinita. Cuanto menos se relacionan los términos, la distancia crece.
6
Ejemplo de métrica “S” Distancia Google Normalizada
7
Ejemplo Se analizarán las distancias de las siguientes palabras: –Marsupial –Guerra –Paz –Violencia –Armas Nuestro objetivo es determinar que “Marsupial” está menos relacionado al resto.
8
Google Hits La unidad es miles de hits, las búsquedas se hicieron el día 21 de diciembre del 2011. Keyword /F(X) Marsupial GuerraPazArmasViolencia Marsupial 3.680892814234435 Guerra 89241988.856.2174 Paz 81488.850754.964.2 Armas 23456.254.912136.3 Violencia 43517464.236.3143
9
Distancia Google Normalizada Keyword /NGD MarsupialGuerraPazArmasViolencia Marsupial 00,41530,43430,42170,3912 Guerra 0,415300,10730,0472-0,0121 Paz 0,43430,107300,04840,0491 Armas 0,42170,04720,048400,0780 Violencia 0,3912-0,01210,04910,07800
10
Distancia Google Normalizada a los centroides Marsupial y Paz Marsupial 0 Guerra0,4153 Paz0,4343 Violencia0,4217 Armas0,3912 Paz Marsupial0,4343 Guerra0,1073 Paz0 Violencia0,0484 Armas0,0491
11
Distancia Google Normalizada al centroide Marsupial Se observa que el resto de los términos están alejados. Nótese que es una escala logarítmica. Todos se alejan de Marsupial
12
Distancia Google Normalizada al centroide Paz Marsupial se aleja del resto.
13
Distancias Levenshtein a la palabra Guerra Levenshtein Guerra0 Guerras1 Guerrear2 Guerrero4 Levenshtein Marsupial0 Marsupiales2 Marsopa4
14
Aplicando clustering difuso a un espacio multidimensional Y aplicando un límite difuso (en este caso a paz) podemos definir un cluster
15
Jerarquización de Links Cada punto es un término. Se censa la nube de puntos. Los links con mayor presencia serán los que tengan mayor relevancia.
16
Proyecto GDARIM
17
Arquitectura de agentes Cola de Links Agentes de descarga (b) Agente de gestión links (a) Agentes de proceso (c) Páginas WEB Distancias (Diccionario de datos) Servicios Gráfico 7: Arquitectura de agentes del prototipo GDARIM
18
Arquitectura de servicios Agentes de proceso Distancias (Diccionario de datos) Servicio de agregado de palabras (a) Servicio de agregado de frases (b) Servicio de cálculo de distancias (c) Proceso por lotes
19
Conclusiones Es posible representar conceptos en un espacio multidimensional. Es factible utilizar las métricas descubiertas a fin de determinar relevancia de contenidos. La novedad de este trabajo consiste en la integración de la distancia semántica, las transformaciones de cadenas, el clustering difuso en una única solución.
20
Espacio para preguntas
21
Gracias Ezequiel Mariano Gorbatik Legajo: 38300 egorbatik@aigroup.com.ar
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.