La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Trabajo Final de Grado Exploración Web inteligente con aplicación de distancia semántica y lógica difusa. Ezequiel Mariano Gorbatik.

Presentaciones similares


Presentación del tema: "Trabajo Final de Grado Exploración Web inteligente con aplicación de distancia semántica y lógica difusa. Ezequiel Mariano Gorbatik."— Transcripción de la presentación:

1 Trabajo Final de Grado Exploración Web inteligente con aplicación de distancia semántica y lógica difusa. Ezequiel Mariano Gorbatik

2 ¿Qué es un Webcrawler? automática  Exploran páginas web en forma automática. bots  Suelen ser bots.  Es utilizado por los motores de búsqueda.

3 Proceso de Webcrawling Inteligente 1.Lista inicial de links. 2.Exploración de Sitios Web de la lista. 3.Extracción de links óptima 4.Selección óptima de links 5.Carga de nuevos links en la lista inicial

4 Definiciones Básicas  PALABRA: mínima indivisible significado propio  PALABRA: Unidad sintáctica mínima e indivisible con significado propio.  FRASE: Dos o más palabras distinto  FRASE: Dos o más palabras agrupadas cuyo significado es distinto del significado individual de las mismas.  TÉRMINO: Palabra frase concepto  TÉRMINO: Palabra o frase que representa total o parcialmente un concepto.  CONCEPTO: conjunto difuso términos relaciones  CONCEPTO: Entidad formada por un conjunto difuso de términos y relaciones que engloban toda la información relevante y conocida de la entidad.  PALABRA: mínima indivisible significado propio  PALABRA: Unidad sintáctica mínima e indivisible con significado propio.  FRASE: Dos o más palabras distinto  FRASE: Dos o más palabras agrupadas cuyo significado es distinto del significado individual de las mismas.  TÉRMINO: Palabra frase concepto  TÉRMINO: Palabra o frase que representa total o parcialmente un concepto.  CONCEPTO: conjunto difuso términos relaciones  CONCEPTO: Entidad formada por un conjunto difuso de términos y relaciones que engloban toda la información relevante y conocida de la entidad.

5 Métrica de distancia entre términos La distancia de un término a sí mismo es cero. Cuanto más se relacionan los términos, la métrica decrece. La distancia de un término a otro con el cual no posee ninguna relación es infinita. Cuanto menos se relacionan los términos, la distancia crece. La distancia de un término a sí mismo es cero. Cuanto más se relacionan los términos, la métrica decrece. La distancia de un término a otro con el cual no posee ninguna relación es infinita. Cuanto menos se relacionan los términos, la distancia crece.

6 Ejemplo de métrica “S” Distancia Google Normalizada

7 Ejemplo Se analizarán las distancias de las siguientes palabras: –Marsupial –Guerra –Paz –Violencia –Armas Nuestro objetivo es determinar que “Marsupial” está menos relacionado al resto.

8 Google Hits La unidad es miles de hits, las búsquedas se hicieron el día 21 de diciembre del 2011. Keyword /F(X) Marsupial GuerraPazArmasViolencia Marsupial 3.680892814234435 Guerra 89241988.856.2174 Paz 81488.850754.964.2 Armas 23456.254.912136.3 Violencia 43517464.236.3143

9 Distancia Google Normalizada Keyword /NGD MarsupialGuerraPazArmasViolencia Marsupial 00,41530,43430,42170,3912 Guerra 0,415300,10730,0472-0,0121 Paz 0,43430,107300,04840,0491 Armas 0,42170,04720,048400,0780 Violencia 0,3912-0,01210,04910,07800

10 Distancia Google Normalizada a los centroides Marsupial y Paz Marsupial 0 Guerra0,4153 Paz0,4343 Violencia0,4217 Armas0,3912 Paz Marsupial0,4343 Guerra0,1073 Paz0 Violencia0,0484 Armas0,0491

11 Distancia Google Normalizada al centroide Marsupial Se observa que el resto de los términos están alejados. Nótese que es una escala logarítmica. Todos se alejan de Marsupial

12 Distancia Google Normalizada al centroide Paz Marsupial se aleja del resto.

13 Distancias Levenshtein a la palabra Guerra Levenshtein Guerra0 Guerras1 Guerrear2 Guerrero4 Levenshtein Marsupial0 Marsupiales2 Marsopa4

14 Aplicando clustering difuso a un espacio multidimensional Y aplicando un límite difuso (en este caso a paz) podemos definir un cluster

15 Jerarquización de Links Cada punto es un término. Se censa la nube de puntos. Los links con mayor presencia serán los que tengan mayor relevancia.

16 Proyecto GDARIM

17 Arquitectura de agentes Cola de Links Agentes de descarga (b) Agente de gestión links (a) Agentes de proceso (c) Páginas WEB Distancias (Diccionario de datos) Servicios Gráfico 7: Arquitectura de agentes del prototipo GDARIM

18 Arquitectura de servicios Agentes de proceso Distancias (Diccionario de datos) Servicio de agregado de palabras (a) Servicio de agregado de frases (b) Servicio de cálculo de distancias (c) Proceso por lotes

19 Conclusiones Es posible representar conceptos en un espacio multidimensional. Es factible utilizar las métricas descubiertas a fin de determinar relevancia de contenidos. La novedad de este trabajo consiste en la integración de la distancia semántica, las transformaciones de cadenas, el clustering difuso en una única solución.

20 Espacio para preguntas

21 Gracias Ezequiel Mariano Gorbatik Legajo: 38300 egorbatik@aigroup.com.ar


Descargar ppt "Trabajo Final de Grado Exploración Web inteligente con aplicación de distancia semántica y lógica difusa. Ezequiel Mariano Gorbatik."

Presentaciones similares


Anuncios Google