Annotation Oscar Corcho, Guadalupe Aguado Cea, Asunción Gómez-Pérez

Slides:



Advertisements
Presentaciones similares
Lognoter. gestión de datos en Ingeniería. ¿Qué es? Programa de almacenamiento, tratamiento de datos y generación de informes Programa con interface propia,
Advertisements

Optimizado para una Resolución 1024x768
Lluís Codina Seminario DigiDoc Octubre 2007
Marzo 2005Jornadas sobre Documentos Digitales - La Web Semántica: Perspectivas para la Documentación. L. Codina UPF 1 La Web Semántica Perspectivas para.
Delicious Marcadores sociales.
La Web Semántica Asunción Gómez-Pérez
Database Mounting Tool (Dsamain.exe) Mediante esta nueva herramienta y una de las mejoras de la nueva versión de Ntdsutil… podemos generar y examinar.
HERRAMIENTA PARA LA RECUPERACION DE INFORMACION: KARPANTA, un motor de búsqueda experimental Oscar Andrés Seoneray Cod
Ing. Patricio Ajila R.. WEB.- WEB: World Wide Web Creada alrededor de 1989 Tim Berners-Lee con ayuda de Robert Cailliau.
ALFIN en el contexto de la Web 2.0
 El desarrollo de competencias instrumentales de apoyo al estudio, conocimiento de herramientas útiles como blogs, wikis, podcasts, correo electrónico.
Introducción a la Web Semántica (Curso en Buenos Aires. SIU)
XXI Reunión del Foro de Directores y Responsables de Unidades de Información Documental Julio/2005 La explotación cooperativa de contenidos en el contexto.
EVOLUCION DE LA WEB LINA MARCELA GOMEZ MORALES MARIANAURREGO PEREZ 9
Introducción XML y WebServices.
12/3/2011 Web Ontology Language (OWL) Mikel Egaña Aranguren Oficina 3205 Facultad de Informática Universidad Politécnica de Madrid Campus de Montegancedo.
Alumno: Xabier Aramendi Amenabar Director: German Rigau Claramunt
Web Semántica Instituto Tecnológico Costa Grande, Maryo de 2013.
WALT: talking about dates and saying when your birthday is WILF: To be able to write & understand months and dates in Spanish to get to a Level 2 To be.
E V A Sistema de acceso universal a la información, al conocimiento y al aprendizaje a lo largo de la vida, sin limitantes de tiempo y espacio dirigido,
Aplicando las Pautas ¡¡Comprendiéndolas!!. El espíritu “El poder de la Web está en su universalidad. Que todo el mundo pueda acceder, a pesar de la discapacidad,
Web 2.0 y Medicina. Muy amigable para el usuario Rico en funciones Sin vergüenza para utilizar el color… pero mucho blanco Los logos son redondeados,
SOCIEDAD PARA EL DESARROLLO REGIONAL DE CANTABRIA (SODERCAN) Knowledge Management tools Knowledge management tools.
Lesson three: The Internet Lección tres: El Internet What is the Internet and how does it work? What can I do on the Internet? How can I view the Internet?
Directions (The directions are based on the fact that you would delete this slide before you save it to the student directory. Therefore slide 2 will become.
Mi tema es la amistad By: Paulina Agenor.
Hoy es el 14 de mayo. Es miércoles. La pregunta: Escriban una lista de “la gente” que menciona en la lista del vocabulario del capítulo 8B. La tarea Libro.
The Present Subjunctive The Subjunctive l Up to now you have been using verbs in the indicative mood, which is used to talk about facts or actual events.
Capítulo uno Gramática 1.2 Subject pronouns (Los pronombres)
Introducción al Lenguaje. ¿Qué es PHP? O Es un lenguaje de programación que es interpretado por un servidor web. O El lenguaje es genérico. PHP está orientado.
What has to be done today? It can be done in any order. Make a new ALC form Do the ALC Get two popsicle sticks Get 16 feet of yarn. That is 4 arms width.
Capítulo 1: el tercer día. ¡Vámanos! Practican introducciones, saludos, despedidas u otras frases. Vamos a tener una prueba.
Leading in Learning – Spanish Collective Memory. Plenary 1 Did you know any of the words already? If so, which? Why are the colours significant do you.
Internet y Navegadores Unidad 5. Fecha: 1 de agosto de 2011 Periodo# : 2 Objetivo: identificar el contenido de una dirección web Tema: Elementos de una.
Quasimodo: Get together with your partner and finish up the in class worksheet on Agentes Secretos Capítulo Uno. Get your homework out (research into Spanish.
Nombre de equipo: abaddon Camilo ramos rojas Grupo :6 Pista # 2 Traductor y motor de búsqueda : google Miércoles 1 de septiembre 2010 Pagina de respuesta.
Hoy es viernes, el 26 de septiembre
EDWIN ACOSTA PINILLA DIEGO FERNANDO CASTRO JHON SEBASTIAN CASTRO.
28 de Agosto de 2012 Las TIC en el nivel inicial posibilidades y desafíos.
El verbo ser y adjetivos en español INTRODUCCIÓN Y CONTINUACIÓN DEL GÉNERO… Ojalá que estuviera en la playa…. I wish I were at the beach…. :)
We support academics, students and other professionals (or researchers) in their work with scientific literature. We provide scientific.
Nina Jackson, Presenter.  IMSCI is research based writing instruction.  IMSCI uses the gradual release of responsibility model to teach writing.  Scaffolds.
MANUAL DE USO BASES DE DATOS Por: EBSCO Information Services
¿Qué haces en la escuela? Question words, objects, yo-go’s.
Gestor de Referencias Sociales Open Source Julio Alonso Arévalo Universidad de Salamanca
Aplicaciones de los social bookmarks para la enseñanza y la investigación. Mario A. Núñez Molina Coordinador IDEAL
The Present Subjunctive P. 410 Realidades 2. The Subjunctive Up to now you have been using verbs in the indicative mood, which is used to talk about facts.
El portal Educamadrid Versión 5.0. Biblioteca de documentos ● Biblioteca de documentos: Biblioteca de documentos – Orientada al uso compartido – Carpetas,
Comunidades en Línea. Agenda  RESUMEN  Características, Ventajas y Desventajas del uso de  Blogs  Wikis  Etiquetado Colaborativo  Implicaciones.
WEB 2.0 sitios web que facilitan el compartir información, la interoperabilidad, el diseño centrado en el usuario y la colaboración en la World Wide.
HTML.
Saber vs Conocer These two verbs are "saber" and "conocer."
CONJUGATION.
2.1 Conocer la terminología básica del software para diseñar una página Web
1 Teaching the Human Liver with Learning Design Luis A. Álvarez González. Sergio Triviños. Sandra Bucarey Arriagada.
Las clases de Sra. Schwarz Realidades 1 The “To Be” Verbs Ser and Estar.
Los pronombres relativos que y quien El subjuntivo en cláusulas adjetivales: con antecedentes indefinidos o que no existen.
What is an article? Basically, articles are either definite or indefinite. They combine to a noun to indicate the type of reference being made by the.
4 de enero de  Escribe 2 párrafos describiendo que ustedes hicieron durante la vacación del invierno. (el mínimo de 5 frases por cada párrafo.
HTML y CSS Ignacio Saavedra Enero 2016 Basado en clases de Jeff Eppinger Liceo Zapallar.
¿New media? Lev Manovich It is responsible for one of the works of reference for the interpretation of the new media. “The language of new media (2001)”
English Language II (2). English Language I (2) Warm-up.
Lección 13: La Naturaleza. I. Regiones y Paises del Mundo Hispano España El Salvador Chile México Cuba Paraguay Venezuela Panama Nicaragua Guatemala Uruguay.
¡Buenas tardes clase! Cuando NO estamos de acuerdo Usen una expresión para decir que no estás de acuerdo con las oraciones. Después, explica.
Lunes, 5/10/15  What is the purpose of a subject pronoun?  Give at least one example of a subject pronoun in English.
The imperfect tense. Look at the following 3 sentences. We ate at two every day The hotel was very big I used to live with my grandparents What do they.
Essential ?s: how do you compare things and how do you express extremes?
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO ESCUELA SUPERIOR DE ZIMAPÁN Licenciatura en Derecho Logros y experiencias. Lengua extranjera. L.E.L.I. Paulina.
Los Pronombres relativos Relative pronouns. Relative pronouns are words that:  Connect ideas within one sentence  Most frequently refer back to a noun.
Transcripción de la presentación:

Annotation Oscar Corcho, Guadalupe Aguado Cea, Asunción Gómez-Pérez {ocorcho,lupe,asun}@fi.upm.es Ontological Engineering Group Laboratorio de Inteligencia Artificial Facultad de Informática Universidad Politécnica de Madrid Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid, Spain

References Corcho O (2005) Ontology based document annotation: trends and open research problems. International Journal of Metadata, Semantics and Ontologies 1(1) Gómez-Pérez A, Fernández-López M, Corcho O (2004) Ontological Engineering. Springer-Verlag Handschuh S, Staab S (2003) Annotation for the Semantic Web. IOS Press

What is the Semantic Web? “The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enabling computers and people to work in cooperation. It is based on the idea of having data on the Web defined and linked such that it can be used for more effective discovery, automation, integration, and reuse across various applications.” Hendler, J., Berners-Lee, T., and Miller, E. Integrating Applications on the Semantic Web, 2002, http://www.w3.org/2002/07/swint.html Ontologies Annotation

Annotation assert facts using terms (metadata in RDF) Represent terms and their relationships (ontology in RDFS/OWL) Organisation News Research Grant Application Videocast Events Gene Database Edinburgh, 27 November 2006

Ontologies and Metadata (or Annotations) Person Belongs_To Organization xmlns:rdf='http://www.w3.org/1999/02/22-rdf-syntax-ns#' xmlns:NS0='http://www.esperonto.net/semanticportal/RDFS/Person_Ontology#' xmlns:NS1='http://www.esperonto.net/semanticportal/RDFS/Organization_Ontology#' Has_contact_Person Subclass of Subclass of Associate Prof. Partner Instance of <rdf:Description rdf:about='Asunción Gómez-Pérez'> <rdf:type rdf:resource=‘Associate Prof'/> <NS0:Full_Name>A. GomezPerez</NS0:Full_Name> <NS0:Belongs_To>UPM</NS0: Belongs_To > <NS0:e-mail>asun@fi.upm.es</NS0:e-mail> <rdf:Description rdf:about='UPM'> <rdf:type rdf:resource='Partner'/> <NS1:Acronym>UPM</NS1:Acronym> <NS1:Has_Contact_Person>Asunción Gómez-Pérez </NS1:Has_Contact_Person > Annotation (RDF) Web Page URL http://www.esperonto.net http://www.esperonto.net

[30 segundos] La herramienta Knowledge Parser permite extraer, de manera automática, datos de fuentes digitales que pueden tener distintos grados de estructuración. El objetivo de esta herramienta es interpretar las fuentes online, extraer los datos allí presentes y almacenarlos como instancias de una o varias ontologías de dominio. El proceso de extracción y estructuración de los datos sigue el flujo indicado en la figura de la parte superior derecha. Para poder extraer la información de las fuentes, éstas se deben preprocesar según las distintas interpretaciones que admite el sistema (DOM, texto, lenguaje natural, etc.). El preproceso es responsabilidad del módulo de Preproceso de la fuente. El módulo llamado Identificación de Información procesa la información anterior y dirige todo el proceso de extracción, que se realiza aplicando distintos operadores de localización, verificación y manejo de las fuentes, así como distintas estrategias de extracción para dirigir la ejecución de los operadores. Este proceso de extracción está dirigido por la ontología de adquisición, que describe los tipos de piezas de información del dominio que se van a recuperar de las fuentes y cómo éstas se organizan en la estructura de los documentos de la fuente. El resultado del proceso de identificación es un conjunto de hipótesis sobre la correspondencia de datos encontrados en los modelos de las fuentes. Estas hipótesis poseen un valor de plausibilidad que permite ordenarlas para la fase de relleno. La fase de relleno, implementada en el módulo de Relleno de la Ontología, tiene como objetivo realizar cambios en la ontología de dominio según la información encontrada y almacenada en las distintas hipótesis. Este proceso realiza simulaciones de instanciaciones para determinar, teniendo también en cuenta la plausibilidad asignada por el módulo anterior, cuál de las hipótesis debe insertarse. El comportamiento del sistema se adapta a la información que contiene en su ontología de dominio: cuanta más información esté disponible más precisa se hace la evaluación de las hipótesis y más precisión consigue el sistema. La figura muestra el resultado de aplicar la herramienta Knowledge Parser sobre un documento PDF que contiene la descripción de una ayuda. Se muestran algunas de las piezas identificadas (tipos de documentación administrativa a entregara para solicitar la ayuda) y cómo se han transformado a instancias RDF. Este ejemplo muestra uno de los casos más sencillos que pueden aparecer durante la adquisición de datos.

Anotación de contenidos Web. Grados de detalle Distintos tipos de anotación según el vocabulario utilizado Basada en Dublin Core The contributor and creator is the flight booking service “www.flightbookings.com”. The date would be January 1st, 2003, in case that the HTML page has been generated on that specific date. The description would be something like “flight details for a travel between Madrid and Seattle via Chicago on February 8th, 2004”. The document format is “HTML”. The document language is “en”, which stands for English Basada en tesauros Madrid is a reference to the term with ID 7010413 in the thesaurus, which refers to the city of Madrid in Spain. Spain is a reference to the term with ID 1000095, which refers to the kingdom of Spain in Europe. Chicago is a reference to the term with ID 7013596, which refers to the city of Chicago in Illinois, US. United States of America is a reference to the term “United States” with ID 7012149, which refers to the US nation. Seattle is a reference to the term with ID 7014494, which refers to the city of Seattle in Washington, US. Basada en ontologías Concept instances relate a part of the document to one or several concepts in an ontology. For example, “Flight details” may represent an instance of the concept Flight, and can be named as AA7615_Feb08_2003, although concept instances do not necessarily have a name. Attribute values relate a concept instance with part of the document, which is the value of one of its attributes. For example, “American Airlines” can be the value of the attribute companyName. Relation instances that relate two concept instances by some domain-specific relation. For example, the flight AA7615_Feb08_2003 and the location Madrid can be connected by the relation departurePlace

Anotación de contenidos Web. Dimensiones Fuentes Tipos de fuentes Texto: HTML, XML, PDF, etc. Multimedia: imágenes, video, audio, etc. Servicios Web Origen de la fuente de datos Estático: ficheros Dinámico: bases de datos y formularios Tecnologías utilizadas Knowledge extraction NLP, IE, Layout Wrapper generation Toolkits, ML, Browsing Proceso de anotación Mantenimiento (adaptabilidad a los cambios en la fuente) Verificación Robustez Auto-adaptabilidad Supervisión de las anotaciones Manual Supervisado (semi-automático) No supervisado (automático) Grado de formalidad Etiquetas (Web 2.0) Basada en ontologías

Different types of sources Different sources Publish Generate 9

Herramientas de anotación. MnM Aplicación standalone que integra un navegador Web y un visor de ontologías Anotación manual con drag&drop Anotación semi-automática y automática utilizando herramientas de extracción de información (Amilcare) Anotaciones generadas en OCML, RDF y XML

Herramientas de anotación. OntoMat Aplicación standalone que integra un navegador Web y un visor de ontologías Anotación manual con drag&drop Anotaciones generadas en RDF y OWL

Herramientas de anotación. ONTO-H Plug-in de Protégé que integra un visor de documentos RTF y el visor de ontologías por defecto Anotación manual con drag&drop Anotación en cascada de conceptos relacionados, mediante reglas de anotación declarativas Anotaciones generadas en el formato de Protégé, exportable a diversos lenguajes

Herramientas de anotación. SHOE Knowledge Annotator Aplicación standalone que no contiene navegador Web Anotación manual Anotaciones generadas en SHOE

Herramientas de anotación. AeroSWARM Servidor Web de anotación de documentos Web disponibles en una URL Anotación automática, basada en un conjunto de ontologías predefinidas: OpenCyc, SUMO y AeroSWARM Anotaciones generadas en RDF

Herramientas de anotación. Knowledge Parser Populación basada en la semántica Conocimiento de wrapping explícito Bootstrapping Estrategias Heurística Backtracking Fuerza bruta, etc. Diferentes operadores In-Row Is-Proper-Name Is-Integer-Greater-Than, etc. Diferentes pre-procesados Lenguaje natural Layout XML/DOM Texto plano Sectores en los que se ha aplicado Cultural Subvenciones Financiero Relaciones internacionales

The Overall Process How does it work? [FOTO FIJA]  Esta diapositiva durante 30 segundos. Uno de los objetivos del proyecto Esperonto es la migración de fuentes de información actuales a la Web Semántica. En el caso de la búsqueda de oportunidades de financiación para empresas y particulares, la disponibilidad de este tipo de información en formatos de la Web Semántica permitirá resolver los problemas que han sido planteados anteriormente: integración de información, realización de búsquedas más complejas y mejor estructuración de las oportunidades de financiación. El proceso general propuesto en el contexto de este proyecto y para el caso concreto de esta aplicación se compone de dos fases principales: [Redondel a adquisición: 15 segundos] Fase de adquisición (o de estructuración de conocimientos). En esta fase se migran a la Web Semántica y se integran los contenidos sobre oportunidades de financiación que se encuentran distribuidos en las siguientes fuentes: la base de datos FISUB, propiedad de CIDEM, y los diarios oficiales español (BOE), catalán (DOGC) y europeos (OJEU), disponibles en Internet. Durante este proceso de migración se crearán instancias de los conceptos y relaciones definidos en las ontologías sobre oportunidades de financiación. Estas instancias se harán públicas para que puedan ser explotadas posteriormente. `[Redondel a explotación: 15 segundos] Fase de explotación de contenidos semánticos. La aplicación “Fund Finder” es un portal semántico que explota los contenidos previamente adquiridos a través de consultas e inferencias, ofreciendo diversas funcionalidades de navegación y búsqueda. Comenzaremos por la fase de adquisición de conocimientos de fuentes de datos distribuidas... Como se puede observar, se utilizan dos herramientas distintas para esta fase, dependiendo de la estructura de las fuentes originales. [Redondel a R2O: 30 segundos] Si la fuente original es una base de datos (caso de la base de datos FISUB), se utilizará el lenguaje R2O (Relational to Ontologies) y sus herramientas asociadas. Estas herramientas permiten migrar el contenido de una base de datos a la Web Semántica, transformando los datos originales en instancias de una o varias ontologías. [Redondel a KP: 30 segundos] Si la fuente original consiste en archivos PDF o páginas Web (caso de los diarios oficiales), se utilizará la herramienta KP (Knowledge Parser). Esta herramienta también tiene la función de migrar el contenido de los documentos originales, que tienen menor grado de estructura que una base de datos, a la Web Semántica. Ambas herramientas son resultado del trabajo realizado en el proyecto Esperonto, y serán descritas a continuación. Resources: ----------- DOGC: http://www.gencat.net/diari/ BOE: http://www.boe.es/ OJEU: http://europa.eu.int/eur-lex

Anotación de contenidos Web. Dimensiones Fuentes Tipos de fuentes Texto: HTML, XML, PDF, etc. Multimedia: imágenes, video, audio, etc. Servicios Web Origen de la fuente de datos Estático: ficheros Dinámico: bases de datos y formularios Tecnologías utilizadas Knowledge extraction NLP, IE, Layout Wrapper generation Toolkits, ML, Browsing Proceso de anotación Mantenimiento (adaptabilidad a los cambios en la fuente) Verificación Robustez Auto-adaptabilidad Supervisión de las anotaciones Manual Supervisado (semi-automático) No supervisado (automático) Grado de formalidad Etiquetas (Web 2.0) Basada en ontologías

Social tagging/annotation ¿Qué es la Web2.0? http://es.youtube.com/watch?v=nsa5ZTRJQ5w http://es.youtube.com/watch?v=PL-ywltLjzk ¿Qué es el “etiquetado social semántico? Poner, gestionar etiquetas –metadatos- de forma colaborativa en la Web para clasificar el contenido (texto, video, fotos, música, etc..) Finalidad: Clasificar páginas web según utilidad, facilidad de uso, adecuación, etc. Mejorar y adaptar los contenidos de una página web de modo similar a un wiki Utilidad: Como herramienta colaborativa, para tratar sobre la adecuación de los contenidos de un recurso Como forma de visibilidad de los usuarios en la web: defender o crtiicar determinados temas Términos utilizados en inglés Social bookmarking, collaborative tagging, folksonomy, social classification, social indexing, folksonomies

Social Tagging/Annotation systems Furl Diigo Del.icio.us Marginalia Shiftspace Protonotes Jumpnknowledge Flickr CiteULike

Del.icio.us Etiquetado hecho por creadores de contenidos o usuarios no por expertos Las etiquetas son descriptores de una palabra Se utilizan para describir metadatos del bookmark o calificarlo: * OK, *** Very good, **** Outstanding El usuario puede asignar las que quiera y cuantas quiera Añadir etiquetas resulta más fácil y más flexible que encajar la información en carpetas o categorías ya establecidas. Ejemplo: si se quiere guardar un artículo sobre cómo hacer un pastel, se puede poner recipes sweets yogurt o cualquier otra etiqueta que resulte sugerente

Annotation in del.icio.us

Del.icio.us Organización Se pueden ver las etiquetas (bookmarks) de otras personas sobre un tema. las etiquetas más populares sobre ese tema Organización Posibilidad de crear clusters para sacar inferencias Universo o nube de etiquetas: (tag cloud) que se pueden compartir o restringir. Se pueden ver los enlaces que traten del mismo tema Indicadores de actualización de etiquetas y novedades (web feed) Posibilidad de incluir estadísticas

Google Maps tags

Google Maps tags

Google Maps tags

Folksonomies Origen: folks: gente (colegas) taxonomy (taxonomias) Los internautas aportan sus propias etiquetas (tags) e interpretan las de los demás, sin un criterio especificado Las relaciones que se crean no son establecidas: Parte del “encanto” está en el carácter subversivo de seleccionar las propias etiquetas. Contradicción con los motores de búsqueda que utilizan etiquetas aceptadas por una comunidad El etiquetado social no forma parte de los protocolos web, sino que se decide a nivel del sitio web. ¿Qué se etiqueta? TODO!!!! Fotografías, canciones, texto, referencias bibliográficas, enlaces de una universidad, sitios web, entradas de blogs, etc. etc.

A sample folksonomy: Panoramio

Tag cloud extracted from Del.icio.us Art australia baby beach birthday blue friends california music nature wedding motor travel trip

Problems Idiosyncratic folksonomic classification, although considered beneficial by some, is viewed by others as a distinct limitation. Lack of terminological precision produces inconsistent and unreliable results: synonymy: polución, contaminación, - solicitud, aplicación homonymy: comando (una orden en programa) comando (de guerra) Lack of stemming (meta-noise) Heterogeneity of users and contexts. Lack of a hierarchical structure for the tagging system makes the terms relevant to what people are describing, BUT fails to show their relevancy or relationship to other objects of the same type. SO metadata tags need to be defined in a formal way at the time of scripting or programming. inaccurate or irrelevant tags

Anotación de contenidos Web. Dimensiones Fuentes Tipos de fuentes Texto: HTML, XML, PDF, etc. Multimedia: imágenes, video, audio, etc. Servicios Web Origen de la fuente de datos Estático: ficheros Dinámico: bases de datos y formularios Tecnologías utilizadas Knowledge extraction NLP, IE, Layout Wrapper generation Toolkits, ML, Browsing Proceso de anotación Mantenimiento (adaptabilidad a los cambios en la fuente) Verificación Robustez Auto-adaptabilidad Supervisión de las anotaciones Manual Supervisado (semi-automático) No supervisado (automático) Grado de formalidad Etiquetas (Web 2.0) Basada en ontologías

Wikis semánticos Presentación de RDF Rhizome Edición de páginas HTML + RDF IkeWiki SemanticMediaWiki SemPerWiki SweetWiki WikSAR Inclusión de instancias de ontologías OntoWiki COW Anotación atributo-valor no basada en ontologías DiamondWiki SemanticWikipedia

Escritorios semánticos (incluyendo e-mail semántico) Haystack Gnowsis D-Bin OpenIris