Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín.

Slides:



Advertisements
Presentaciones similares
Aprendizaje Automatizado
Advertisements

Sistemas Expertos Caso de Estudio: Selecci ó n de un microcontrolador.
Identificación de Atributos de Calidad en Requerimientos Tesis de Grado de Francisco Bertoni y Sebastián Villanueva Dirigida por la Dra. Claudia Marcos.
Material didáctico Ojalá que me guste Estadística.
 Computer Aidded/Assited Software Engineering  conjunto de programas y ayudas que dan asistencia a los analistas, ingenieros de software y desarrolladores,
Cálculo simbólico con GeoGebra David Benítez Mojica Universidad de Caldas Innatituto Geogebra del Tolima.
1. Técnicas de gerencia moderna 2. Introducción a técnicas de Coaching empresarial 3. Seguridad y salud ocupacional 4. Trabajo en equipo 5. Gestión de.
Programación Orientada a Objetos Semestre agosto – diciembre 2011 Encuadre.
I NTERNET. I NFORMÁTICA Y C OMPUTACIÓN II P ROFRA : R OCÍO R IVERA A RNAIZ M ARIANA G ETSEMANÍ C ASTILLO S ALINAS 1°2.
EXCEL 2010 CONCEPTOS BÁSICOS. SOFTWARE HOJAS DE CÁLCULO Calc una poderosa hoja de cálculo con todas las herramientas necesarias para calcular, analizar.
EVALUACION DEL RIESGO Y EL CONTROL INTERNO
OpenOffice.org (frecuentemente escrito OOo para abreviar) es una suite ofimática libre (código abierto y distribución gratuita) que incluye herramientas.
“ Establece, desarrolla y adopta políticas para la implementación de procesos y procedimientos propios de la función archivística y la administración documental.
Equipo 10: NIÑO SUAREZ VERONICA USCANGA COLUNGA BRENDA YURIDIA.
TASA INTERNA DE RETORNO (TIR)
Representación de la Información en el Computador Material Recopilado por el Prof. Manuel Sánchez.
Inicio Propósito Introducción Hardware Software Analogía Actividades de Aprendizaje Fuentes Consultadas Créditos.
LAS MATEMATICAS Y LA INGENIERIA EN SISTEMAS. Las matemáticas son fundaméntales en la ingeniería en sistemas por :
Software de aplicación TRABAJO PRACTICO – INFORMATICA APLICADA ALUMNO: WONG TONIOLI TONIOLI.
MASTER UNIVERSITARIO EN FORMACIÓN DEL PROFESORADO DE EDUCACIÓN SECUNDARIA INNOVACIÓN DOCENTE E INVESTIGACIÓN EN CIENCIAS INNOVACIÓN DOCENTE E INICIACIÓN.
Máximo Común Divisor y mínimo común múltiplo
ESTRUCTURA DE UNA PÁGINA WEB ING. AYAMAIN SILVA. RESULTADO DE APRENDIZAJE Identificar las partes de una pagina web con el uso del lenguaje XHTML. Diseño.
Prof. Teresa Moreno Prof. Yovanni Ruiz Prof. Damaris González
TEMA: Introducción a la informática.. Objetivos  Explicar los conceptos fundamentales relacionados con la computación.  Explicar la forma de representar.
[IGN + UPM] con financiación de la AECI Madrid, junio-julio de 2006 Manuel Madrid García C. de Infraestructuras y Transporte. Generalitat Valenciana. Curso.
 El alumno conocerá los componentes básicos de una red, así como su instalación y los diferentes conceptos que son necesarios para su mantenimiento.
Tema: 4 Los números enteros 1Matemáticas 1º Los números enteros Buena temperatura: + 20 ºC IMAGEN FINAL –7 – El submarino navega a.
Trabajo Final de Grado Exploración Web inteligente con aplicación de distancia semántica y lógica difusa. Ezequiel Mariano Gorbatik.
Diagramas de control CONSIDERACIONES BÁSICAS. DIAGRAMAS DE CONTROL  El Control Estadístico de Proceso (Statistical Process Control SPC) es la herramienta.
BIBLIOTECA ANTONIO ENRÍQUEZ SAVIGNAC Los 7 parámetros para seleccionar información de calidad en la Web de forma efectiva 2014 LB. Verónica E. Ochoa Guerrero.
ELABORACIÓN DE MAPAS CONCEPTUALES ANGELES MATA MENDOZA.
Extracción de registros de datos Christian Marmolejo Gómez Algoritmo MDR.
Básico Módulo Básico FSRM Administrador de Recursos del Servidor de Archivos.
ORGANIZACIÓN BACHILLERATO INTERNACIONAL. INTRODUCCIÓN: Aplicación de habilidades y conocimientos a situaciones reales de toma de decisiones Recabar investigación.
Clase 1.  Un programador es aquella persona que escribe, depura y mantiene el código fuente de un programa informático, es decir, del conjunto de instrucciones.
Aplicando XML y CDS-ISIS en la organización y recuperación de la información J. Román Herrera Morales Ramón Genel Gómez X Reunión Regional de CDS-ISIS.
Distribuidor de información del libro español en venta 8 de octubre de 2008.
Tratamientos secuenciales I Fundamentos de Programación Departamento de Lenguajes y Sistemas Informáticos Unidad Didáctica 8 Versión
Diseño recursos vivientes. 2 Plan de Exposición Introducción Presentación de referentes teóricos Primeros elementos del diseño de recursos vivientes Situaciones.
Hábitos de estudio y Administración de tiempo.. Administración del Tiempo Documentación Técnica Mapas mentales Hábitos de estudio.
“PRESENTACIÓN DE UN ENSAYO” ¿Qué es un ensayo? Es un escrito en el cual un autor desarrolla sus ideas brevemente, se caracteriza por ser libre cada autor.
INTEGRACIÓN CURRICULAR DE LAS TICS SEMANA 4. DEFINICIÓN DE SOFTWARE EDUCATIVO “Cualquier programa computacional que cuyas características estructurales.
Propósito Introducción Actividad de consolidación Actividad de consolidación Fuentes consultadas Fuentes consultadas Clasificación decimal Actividades.
[IGN + UPM] con financiación de la AECI Madrid, junio-julio de 2006 Alejandra Sánchez Maganto Instituto GeográfIco Nacional Julio 2006 Curso IDE WCTS Y.
JOSÉ GEOVANY CON PÉREZ LICEO DEL SUR. UNIDAD I Entorno de desarrollo. UNIDAD II Introducción al lenguaje de programación. UNIDAD III Trabajando con formularios.
Representación en espacio de estado
CONVENIO 1208 de 2015, SUSCRITO ENTRE EL MINISTERIO DE EDUCACIÓN NACIONAL, LA ORGANIZACIÓN INTERNACIONAL PARA LAS MIGRACIONES-OIM Y LA FUNDACIÓN CARVAJAL.
Es un buen instrumento para identificar y organizar las posibles respuestas de cambio a las debilidades encontradas en la autoevaluación institucional.
Melissa Victoria Mendiola Peralta.  Los algoritmos son las series de pasos por los cuales se resuelven los problemas.
1 Análisis y Diseño Estructurado Definiciones Básicas.
Consulting, IT & Outsourcing Professional Services Estructura de la información del proyecto Diraya Atención Especializada en una herramienta CASE (Enterprise.
PROGRAMA DE FORMADOR DE FORMADORES/AS EN PROTECCION SOCIAL. NIVEL BASICO PROGRAMA DE FORMADOR DE FORMADORES/AS EN PROTECCION SOCIAL. En El Marco Del Trabajo.

DESPACHO DEL ALCALDE Oficina de Asuntos Internacionales.
FOIL PARA LA EXTRACCIÓN DE INFORMACIÓN DE LA WEB 1.
HERRAMIENTAS INFORMATICAS. Descripción del Curso El curso Herramientas informáticas correspondiente al componente interdisciplinar básico común de todos.
Mercados financieros artificiales CÓMPUTO EVOLUTIVO Y BIOINSPIRADO Y SU CAMPO DE APLICACIÓN, IIMAS. DANYA ANAHID ESQUIVEL MORALES 20 DE MARZO DE 2015.
Curso: Metodología de la Investigación – Semana 6.
Por José R. Rodríguez Ríos PROG2300. gráfica Una gráfica es una manera de representar información que relaciona datos cuantitativos y/o cualitativos mediante.
Informática II 2do. semestre Eduardo Padilla Gutiérrez Mexicali Centro Grupo 201 Aprendizaje: Planea hojas de cálculo.
Componentes de un Sistema Experto
Lo que aprendí en el curso propedéutico LES Aspirante: Blanca Rubi Brambila Arias Asesor: Ricardo Dávalos.
1 Lenguaje de Programación Clase 1 Alberto Huamani Escobar
PPTCES019MT21-A16V1 Clase Operatoria en racionales MT-21.
Proceso de Evaluación del CAUI Objetivo General Diseñar un instrumento que permita la evaluación de las Competencias para el Acceso y Uso de la.
FRANCISCO TOMÁS GARCÍA MUNGUÍA JONAY EFREN LÓPEZ PÉREZ ITDSI , 03 de mayo de 2016.
Intercambio Artículo 13 DMA / IPH Base de datos de intercambio Procedimientos de intercambio Portal de intercambio Grupo de Trabajo “Modelo de Datos” Madrid,
Escuela de Ciencias Administrativas Contables Económicas y de Negocios Curso académico Administración Publica Código: Programa de Administración.
INFORMÁTICA GRADO SEXTO  PERIFÉRICOS DEL PC DE ENTRADA Son aquellos dispositivos que permiten el ingreso de información al computador. DE SALIDA.
CÓMO FORMULAR OBJETIVOS EN INVESTIGACIÓN
Transcripción de la presentación:

Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín

Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

Introducción Objetos en la web con diferentes formatos de texto (inconsistentes). Ejemplo de dominio de restaurantes

Introducción Objetivo del sistema: Identificar objetos relacionados que hacen referencia a la misma entidad física. No usar únicamente la igualdad del texto como fuente de comparación.

Introducción Nuestros Conjunto de objetos atributos VITAL IMPORTANCIA PARA IDENTIFICAR LA RELACIÓN ENTRE OBJETOS

Introducción Dominio de restaurantes

Introducción Atributos con distinta importancia para decidir un mapeo entre objetos. Identificar posibles similitudes de texto entre los atributos de los objetos. Reglas de decisión para testear la importancia de cada atributo.

Introducción Problemas del aprendizaje de reglas: 1.- Limitado por la entrada del usuario. 2.- Proceso semiautomático. 3.- Específico del dominio de la aplicación. 4.- Conocimientos necesarios que no están intrínsecos en los datos.

Introducción Aplicación de Active Atlas (Ejemplo de dominio de aplicación: Integración de información de restaurantes)

Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

Reglas de identificación de objetos Estructura general del sistema

Reglas de identificación de objetos PASOS DEL ALGORITMO: 1.- Cálculo de resultados de similitud de objetos. 2.- Aprendizaje de reglas de mapeo.

PASO 1: Resultados de similitud de objetos ENTRADA: Los objetos de las fuentes de datos a integrar. Comparación de atributos de los objetos. Generación de mapeos candidatos  Objetos que presentan transformaciones de texto. Etiquetado manual de los mapeos candidatos. Cada mapeo candidato: - Resultado de similitud de sus atributos. - Resultado de similitud total de los objetos.

PASO 1: Resultados de similitud de objetos Funciones generales de transformación: TIPO I: (Un solo token) - Stemming. - Soundex. - Abreviaturas. TIPO II: (Tokens de dos objetos) - Igualdad. - Subcadenas. - Inicial. - Abreviaturas. - Prefijos. - Acrónimos. - Sufijos.

PASO 1: Resultados de similitud de objetos Resultados de similitud de atributos (I): - Distancia coseno. - Tokenizar los valores de los atributos. - Comparar los tokens con un corpus de palabras (W)  Un array de enteros por cada valor del atributo en cada fuente. a x b SIM (a, b) = cos a b = |a||b|

PASO 1: Resultados de similitud de objetos Resultados de similitud de atributos (II): - Generación del array de enteros (resp. b): 0 sii w no aparece en a. (1+log TF a,w ) * log IDF w e. o. c. a, b = Valores de los atributos en las fuentes w = Cada palabra que forma el corpus. - Optimización  Ponderar las transformaciones.

PASO 1: Resultados de similitud de objetos Resultados de similitud total del objeto: - Suma ponderada de los resultados de similitud de cada atributo. - Peso único de cada atributo: Número de valores únicos para el atributo Número total de valores para el atributo - Un peso único de atributo por cada fuente a integrar  Multiplicar el resultado de similitud del atributo por cada peso único de cada fuente y sumarlo.

PASO 2: Aprendizaje de reglas de mapeo Aprendizaje de árboles de decisión: - Técnica inductiva a partir de un conjunto de entrenamiento (Algoritmo C4.5). - En cada nivel se elige el atributo con mayor ganancia de información (mejor clasificador). - Generar reglas a partir del árbol aprendido.

PASO 2: Aprendizaje de reglas de mapeo Aprendizaje activo: - Conjunto de árboles de decisión. - Inicializar cada árbol con subconjunto aleatorio y representativo de los mapeos candidatos. - Reglas generadas por cada árbol. - Someter a votación cada mapeo candidato. - Ponderación de las reglas de cada árbol (Algoritmo WINNOW).

Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

Ejemplo ilustrativo

Comparar objetos por sus atributos Resultados de similitud de atributos

Ejemplo ilustrativo Así, con todos los posibles mapeos candidatos… Salida del generador de candidatos (incluyendo el resultado de similitud total del objeto)

Ejemplo ilustrativo Aprendizaje de reglas de mapeo: Cuáles de los mapeos candidatos serán mapeos definitivos

Ejemplo ilustrativo MEDIADOR: Modelo de aplicación generado

Ejemplo ilustrativo MEDIADOR: Modelo de aplicación generado con tablas de mapeo

Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

Trabajos relacionados

Índice Introducción Reglas de identificación de objetos Ejemplo ilustrativo Trabajos relacionados Conclusiones

Trabaja con fuentes de objetos web estructuradas. Paso previo de EII. Específico del dominio de aplicación. Logra una alta exactitud, limitando la interacción del usuario. Las transformaciones de texto tienen distinta importancia para cada dominio específico de aplicación. Objetivo futuro  Ponderar las transformaciones para cada dominio.

¡Gracias! ¿Preguntas?