Trabajo Final de Grado Exploración Web inteligente con aplicación de distancia semántica y lógica difusa. Ezequiel Mariano Gorbatik.

Slides:



Advertisements
Presentaciones similares
RECONOCIMIETO DE PATRONES
Advertisements

BUSCADORES y NAVEGADORES.
EL RESPETO Y LA TOLERANCIA ¿QUÉ ES UNA FUNCIÓN CUADRATICA? Guayaquil, 22 de Junio del 2015 Destreza : Reconocer la gráfica de una función cuadrática.
Bitácora electrónica(blog) con requisitos de acceso e interactividad PARCIAL 3 Q I.
Web 2.0 Prof. Iliana Fuentes Lugo. ¿Qué es la Web 2.0?  La Web 2.0 es la representación de la evolución de las aplicaciones tradicionales hacia aplicaciones.
Cómo hacer búsquedas académicas en internet. ¿Cuál es el objetivo? Una búsqueda bien realizada debería generar la menor cantidad posible de resultados,
Seminario Regional de Naciones Unidas sobre Diseminación y Análisis Espacial de Información Censal Los Metadatos en la Difusión de Información Censal en.
Sistemas y Motores de Busqueda Monica del Rocio Barreto Madrid.
USO DE LAS HERRAMIENTAS CASE MARIA VERA ANGEL CEDEÑO.
Centro de Gestión de Estudiantes Internacionales ECONOMÍA DE LA EMPRESA Prueba de acceso a la universidad Coordinación: María Teresa Nogueras Lozano.
Excel, una herramienta de aprendizaje Francia del Socorro Quintero.
APRENDIZAJE BASADO EN PROYECTOS. "Los analfabetos del siglo XXI no serán aquellos que no sepan leer y escribir, sino aquellos que no sepan aprender, desaprender.
Julio 2015 Modelos de Colaboración en Diferentes Áreas de Negocio.
Historia de un proyecto de investigación sesión monográfica oiker 20/4/09 itziar vergara.
Las categorías y las funciones de las palabras Las palabras se agrupan en sintagmas que son unidades de función sintáctica formadas por una palabra o grupo.
Maestro: Ismael Figueroa Preparatoria ÉTICA Y VALORES II MULTIVERSIDAD LA MARINA BLOQUE I. RECONOCE LA RELACIÓN DE LA ÉTICA CON LA CIENCIA Y LA TECNOLOGÍA.
Trabajos Fin de GradoBiología, ACCIÓNQUIÉNFECHA Reunión informativaCoordinadores asignatura y estudiantes18 Marzo Recopilación ofertas TFGProfesores.
SISTEMAS TECNOLÓGICOS UNIDAD DIDÁCTICA SEGUNDO PERIODO GRADO 8°
Centro de Informática Educativa VRA - UBB Jueves, 07 de Junio de 2007.
Introducción: El Internet ha cambiado para siempre la forma en que nos comunicamos, trabajamos, y accedemos a distintos tipos de información. Se han inventado.
Lenguajes de programación Un lenguaje de programación es un lenguaje formal diseñado para expresar procesos que pueden ser llevados a cabo por máquinas.
Origen Optimización de Procesos. INTRODUCCIÓN LÍNEAS PRINCIPALES INTEGRACIÓN DE LA LOGÍSTICA Concentración de los costes Alineación de procesos 2 Externalización.
Índice de diapositivas ¿Qué sabes de…? ¿Qué es Internet? Elementos necesarios para conectarse a Internet ¿Qué posibilidades ofrece Internet? La páginas.
METODOLOGÍA CUALITATIVA Licenciatura en Comunicación Social, U. del Pacífico Cuarta semana de clases El proceso de construcción de un marco teórico Prof.
ZONA AZUL Unión Virtuality Estudios S.L.. Página  2 Índice de contenidos Arquitectura de la solución Aplicación terminales – Generación de denuncias.
Universidad Nacional Experimental Politécnica de las Fuerzas Armadas Extensión: Turén Matemática II Presentación del Curso Facilitador: Lcdo. Hugo Fernández.
 Temas a tratar: › Definiciones de rígido y tipos de fuerzas que actúan sobre los mismos › Principio de transmisibilidad › Definición de momento de una.
Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín.
TEMA: Introducción a la informática.. Objetivos  Explicar los conceptos fundamentales relacionados con la computación.  Explicar la forma de representar.
REIMS LANCHIMBA PAREDES M ODELAMIENTO DEL CANAL DE PROPAGACIÓN EN ENLACES PUNTO A PUNTO PARA LA BANDA DE 2.4 GHz CON TECNOLOGÍA ZIGBEE. DEPARTAMENTO DE.
BIBLIOTECA ANTONIO ENRÍQUEZ SAVIGNAC Los 7 parámetros para seleccionar información de calidad en la Web de forma efectiva 2014 LB. Verónica E. Ochoa Guerrero.
ELABORACIÓN DE MAPAS CONCEPTUALES ANGELES MATA MENDOZA.
Talleres Fuentes de Información Sugerencias de las facilitadoras pedagógicas DCDE 9 de septiembre de 2005.
Extracción de registros de datos Christian Marmolejo Gómez Algoritmo MDR.
Módulo Gestión de Recursos Humanos Curso ADMINISTRACIÓN PARA AGENTES INMOBILIARIOS.
FI-GQ-GCMU V Bienvenidos al curso de matemática ciclo V.
Concepto La Criminología trabaja con comunicaciones orales o escritas (discursos, entrevistas, artículos de periódicos, emisiones, etc.) Para que el investigador.
UNIVERSIDAD TECNOLÓGICA OTEIMA ESPECIALIZACIÓN EN ENTORNOS VIRTUALES Curso: Diseño de Medios y Materiales Multimedios Asignación: GLOSARIO DE TÉRMINOS.
GESTIÓN E INNOVACIÓN DE LOS CONTEXTOS EDUCATIVOS CONOCIMIENTO DEL ENTORNO Grupo 3.
Gestión de Procesos, Juan Bravo C. Curso Gestión de Procesos Mejora continua de procesos Relator: Juan Bravo Carrasco 2013.
“PRESENTACIÓN DE UN ENSAYO” ¿Qué es un ensayo? Es un escrito en el cual un autor desarrolla sus ideas brevemente, se caracteriza por ser libre cada autor.
Hermosillo, Sonora 02/Mayo/2016 Universidad de Sonora Eduardo Tellechea Armenta.
Subdirección Adjunta, Servicio de Auditoría Interna SISTEMAS DE INFORMACIÓN PARA EL CONTROL.
Concurso 2010 de premiación a la innovación en la Administración Tributaria.
TEMA 7. COMUNICACIÓN EN LAS REDES SOCIALES Aurora García Vallejo CFGM Gestión Administrativa Módulo Comunicación empresarial y atención al cliente.
 GOOGLE  Es la mayor base de datos existente, presta sus servicios a otros buscadores como Yahoo y se actualiza con gran regularidad.  Añade automáticamente.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
UNA APROXIMACIÓN A INTERNET Y A SUS HERRAMIENTAS DE BÚSQUEDA.
CONVENIO 1208 de 2015, SUSCRITO ENTRE EL MINISTERIO DE EDUCACIÓN NACIONAL, LA ORGANIZACIÓN INTERNACIONAL PARA LAS MIGRACIONES-OIM Y LA FUNDACIÓN CARVAJAL.
Navegadores Un navegador es un software que permite al usuario recuperar y visualizar documentos de hipertexto, comúnmente escritos en código HTML, desde.
Melissa Victoria Mendiola Peralta.  Los algoritmos son las series de pasos por los cuales se resuelven los problemas.
1 Análisis y Diseño Estructurado Definiciones Básicas.
FOIL PARA LA EXTRACCIÓN DE INFORMACIÓN DE LA WEB 1.
Curso: Metodología de la Investigación – Semana 6.
HERRAMIENTAS EDUCATIVAS WEB 2.0 CRUZ GUERRA 2008.
Escuela Secundaria Isidro Fabela No. 519 Alumno: Jorge Giovanni Trinidad Montaño Grado: 3° Grupo: E Turno: Vespertino N.L: 46 Maestra: Maestra: Gema Dominga.
C ÁLCULO I NTEGRAL Profesor: Manuel Guillermo López Félix Multiversidad Latinoamericana Hermosillo Norte Repaso primero parcial Sexto semestre Competencias.
MARCO POLÍTICO PEDAGÓGICO CARRIZO, Laura BELLONI, Leticia KELLY, Laura SANTORO, Gustavo MAURINO, Luis BONNOT, María de los Ángeles.
Objetivos. Planteamiento del problema Revise su pregunta de investigación mencionando las variables que contiene y explique los motivos que tuvo para.
COLEGIO GENERAL SANTANDER IED Sede A Jornada Tarde “EDUCAR EN LA VIDA Y PARA LA VIDA “ Lucy Consuelo Eraso O Docente Tecnología e Informática Lucy Consuelo.
BASES DE DATOS ¿QUÉ SON LAS BASES DE DATOS?. ANTECEDENTES  El término de bases de datos fue escuchado por primera vez en 1963, en un simposio celebrado.
Las evaluaciones por competencias y sus implicaciones pedagógicas
DISEÑO DE AMBIENTES VIRTUALES DE APRENDIZAJE Presentación de: Jaime Alejandro Rodríguez.
ALEX RODRIGO RIVERA RÍOS DOCTOR EN QUÍMICA INDUSTRIAL. DIPLOMADO EN PEDAGOGÍAS INNOVADORAS. MAGISTER EN DOCENCIA UNIVERSITARIA E INVESTIGACIÓN EDUCATIVA.
Objetivos específicos: 1.Analizar como se construye el número cero a través de la historia. 2.Buscar referentes teóricos y comparar los diferentes.
CÓMO FORMULAR OBJETIVOS EN INVESTIGACIÓN
1. Diversas herramientas de software libre para diseño. -Ingenio tu sitio -Compromisos de trabajos -El software y su licencia -Aspectos analizados 2.
1 LENGUAJES DE PROGRAMACIÓN. Son aplicaciones específicas diseñadas para crear otras aplicaciones o programas. Son programas para crear programas. 2.
Estrategias para la búsqueda de información: Palabras claves y temas
Motores de busqueda.
Transcripción de la presentación:

Trabajo Final de Grado Exploración Web inteligente con aplicación de distancia semántica y lógica difusa. Ezequiel Mariano Gorbatik

¿Qué es un Webcrawler? automática  Exploran páginas web en forma automática. bots  Suelen ser bots.  Es utilizado por los motores de búsqueda.

Proceso de Webcrawling Inteligente 1.Lista inicial de links. 2.Exploración de Sitios Web de la lista. 3.Extracción de links óptima 4.Selección óptima de links 5.Carga de nuevos links en la lista inicial

Definiciones Básicas  PALABRA: mínima indivisible significado propio  PALABRA: Unidad sintáctica mínima e indivisible con significado propio.  FRASE: Dos o más palabras distinto  FRASE: Dos o más palabras agrupadas cuyo significado es distinto del significado individual de las mismas.  TÉRMINO: Palabra frase concepto  TÉRMINO: Palabra o frase que representa total o parcialmente un concepto.  CONCEPTO: conjunto difuso términos relaciones  CONCEPTO: Entidad formada por un conjunto difuso de términos y relaciones que engloban toda la información relevante y conocida de la entidad.  PALABRA: mínima indivisible significado propio  PALABRA: Unidad sintáctica mínima e indivisible con significado propio.  FRASE: Dos o más palabras distinto  FRASE: Dos o más palabras agrupadas cuyo significado es distinto del significado individual de las mismas.  TÉRMINO: Palabra frase concepto  TÉRMINO: Palabra o frase que representa total o parcialmente un concepto.  CONCEPTO: conjunto difuso términos relaciones  CONCEPTO: Entidad formada por un conjunto difuso de términos y relaciones que engloban toda la información relevante y conocida de la entidad.

Métrica de distancia entre términos La distancia de un término a sí mismo es cero. Cuanto más se relacionan los términos, la métrica decrece. La distancia de un término a otro con el cual no posee ninguna relación es infinita. Cuanto menos se relacionan los términos, la distancia crece. La distancia de un término a sí mismo es cero. Cuanto más se relacionan los términos, la métrica decrece. La distancia de un término a otro con el cual no posee ninguna relación es infinita. Cuanto menos se relacionan los términos, la distancia crece.

Ejemplo de métrica “S” Distancia Google Normalizada

Ejemplo Se analizarán las distancias de las siguientes palabras: –Marsupial –Guerra –Paz –Violencia –Armas Nuestro objetivo es determinar que “Marsupial” está menos relacionado al resto.

Google Hits La unidad es miles de hits, las búsquedas se hicieron el día 21 de diciembre del Keyword /F(X) Marsupial GuerraPazArmasViolencia Marsupial Guerra Paz Armas Violencia

Distancia Google Normalizada Keyword /NGD MarsupialGuerraPazArmasViolencia Marsupial 00,41530,43430,42170,3912 Guerra 0,415300,10730,0472-0,0121 Paz 0,43430,107300,04840,0491 Armas 0,42170,04720,048400,0780 Violencia 0,3912-0,01210,04910,07800

Distancia Google Normalizada a los centroides Marsupial y Paz Marsupial 0 Guerra0,4153 Paz0,4343 Violencia0,4217 Armas0,3912 Paz Marsupial0,4343 Guerra0,1073 Paz0 Violencia0,0484 Armas0,0491

Distancia Google Normalizada al centroide Marsupial Se observa que el resto de los términos están alejados. Nótese que es una escala logarítmica. Todos se alejan de Marsupial

Distancia Google Normalizada al centroide Paz Marsupial se aleja del resto.

Distancias Levenshtein a la palabra Guerra Levenshtein Guerra0 Guerras1 Guerrear2 Guerrero4 Levenshtein Marsupial0 Marsupiales2 Marsopa4

Aplicando clustering difuso a un espacio multidimensional Y aplicando un límite difuso (en este caso a paz) podemos definir un cluster

Jerarquización de Links Cada punto es un término. Se censa la nube de puntos. Los links con mayor presencia serán los que tengan mayor relevancia.

Proyecto GDARIM

Arquitectura de agentes Cola de Links Agentes de descarga (b) Agente de gestión links (a) Agentes de proceso (c) Páginas WEB Distancias (Diccionario de datos) Servicios Gráfico 7: Arquitectura de agentes del prototipo GDARIM

Arquitectura de servicios Agentes de proceso Distancias (Diccionario de datos) Servicio de agregado de palabras (a) Servicio de agregado de frases (b) Servicio de cálculo de distancias (c) Proceso por lotes

Conclusiones Es posible representar conceptos en un espacio multidimensional. Es factible utilizar las métricas descubiertas a fin de determinar relevancia de contenidos. La novedad de este trabajo consiste en la integración de la distancia semántica, las transformaciones de cadenas, el clustering difuso en una única solución.

Espacio para preguntas

Gracias Ezequiel Mariano Gorbatik Legajo: