Introducción a Linked Data y conceptos básicos Daniel Vila Suero Ontology Engineering Group, Universidad Politécnica de Madrid Agradecimientos: Asunción Gómez-Pérez, a los miembros del OEG que han participado en la elaboración de estas transparencias Curso LD Bibliotecas UTPL, Loja, Ecuador 28 de Abril al 2 de Mayo 2014
Contenido La Web Produciendo y consumiendo información en la Web Linked Data 2
La Web 3
Enlaza información: wikipedia, prensa, blogs, etc. Enlaza personas y opiniones: mail, twitter, facebook, pinterest, etc. Ofrece servicios: compra de entradas, viajes, libros… Es un sistema que ha cambiado nuestra forma de consumir y producir información Sin embargo, ¿puede mejorar? 4
La Web desde dos perspectivas 5 PRODUCTOR INFORMACIÓN CONSUMIDOR INFORMACIÓN WWW Dos roles con fronteras cada día más diluídas Usuarios: Consumimos a diario información de wikipedia, prensa, twitter, facebook, etc. Producimos información en twitter, wikipedia, facebook, comentamos noticias, etc. Una organización (empresa, institución pública): Produce información y ofrece servicios (compra-venta, agregación información, etc.) Consume información para mejorar sus servicios/oferta
Consumidores 6 CONSUMIDORES WWW Cuando usamos la Web: Consultamos varias fuentes de información: Para organizar un viaje: compra de billetes, hotel, sitios de interés, etc. Para comprar un libro: desde un autor que nos gusta a un tema determinado Los servicios más exitosos son aquellos que son capaces de agregar información que nos interesa: google, twitter, etc. Muchas veces resulta tedioso/difícil encontrar lo que buscamos
Productores 7 PRODUCTORES WWW Necesitan que su información/servicio sea visible, útil y relevante Reutilizar información de otros aumenta las capacidades del servicio Compartir información de una manera sencilla y estándar amplia el potencial de la misma y la visibilidad de la organización
Produciendo y consumiendo información en la Web 8
Produciendo información para la Web 9 WWWWeb 1.0
Produciendo información para la Web WWWWeb 1.0 Web 2.0 WWW
Produciendo información para la Web 11 WWWWeb 1.0 Web 2.0 WWW Linked Data WWW
Produciendo información para la Web 12 PRODUCTOR WWW AUTOR EDITOR LIBROIDIOMA AUTOR EDITOR LIBROIDIOMA ? ?
Web PRODUCTOR WWW AUTOR EDITOR LIBROIDIOMA AUTOR EDITOR LIBROIDIOMA HTML
Web PRODUCTOR WWW AUTOR EDITOR LIBROIDIOMA AUTOR EDITOR LIBROIDIOMA HTML HTML + servicios web AUTOR ? LIBRO? EDITOR?
Limitaciones 15 AUTOR EDITOR LIBROIDIOMA HTML + servicios web AUTOR ? LIBRO? EDITOR? MODELO DE DATOS 1) Documentos que hablan de título principal, secundario, párrafos.. 2) Datos sin un modelo bien explicito y formalmente definido
Un ejemplo 16 AUTOREDITOR LIBROIDIOMA HTML Eduardo Mendoza Edicions 62 La ciudad de los prodigios Catalán AUTOR ? LIBRO?
Un ejemplo 17 AUTOREDITOR LIBROIDIOMA Servicio web (JSON) Eduardo Mendoza Edicions 62 La ciudad de los prodigios Catalán { "Eduardo Mendoza": { "libros": ["La ciudad de los prodigios", "La isla inaudita"] }
Conclusiones El sistema actual (HTML + Servicios Web) no facilita la reutilización HTML: Es un formato para estructurar documentos, no datos Servicios Web: Aunque estructuran los datos, no especifican el modelo de una manera estándar (e.g. es Eduardo Mendoza una persona? ) 18
Linked Data 19
World Wide Web (Visión original) 20
Smart Web, Dumb Web La Web está llena de aplicaciones “inteligentes” (Motores de búsqueda, recomendadores, geolocalización, etc.) Sin embargo, también se dan situaciones en las que la respuesta de la Web no parece alineada con el estado de la tecnología Cuáles son estos problemas? Y las causas? 21
Smart Web, Dumb Web Problemas frecuentes (Usuario): Información inconsistente entre servicios aparentemente relacionados. Necesidad de visitar múltiples aplicaciones para una tarea simple Dificultad para encontrar información muy específica Problemas frecuentes (Desarrollador): Heterogeneidad de formatos Formatos propietarios o de difícil tratamiento Falta de documentación APIs 1 API 1 Funcionalidad 1 Forma de acceso => APIs desconectadas 22
Smart Web, Dumb Web Problemas frecuentes (Usuario): Información inconsistente entre servicios aparentemente relacionados. Necesidad de visitar múltiples aplicaciones para una tarea simple Dificultad para encontrar información muy específica Problemas frecuentes (Desarrollador): Heterogeneidad de formatos Formatos propietarios o de difícil tratamiento Falta de documentación APIs 1 API 1 Funcionalidad 1 Forma de acceso => APIs desconectadas 23 CLAVE: Integración de datos en la Web en un formato estándar
¿Qué es la Web de Linked Data? Han pasado 10 años desde la visión original de la Web Semántica. Hasta ahora poco ejemplos de impacto real Tecnologías demasiado complejas En 2007 aparece la iniciativa Linked Data Una extensión de la Web actual donde se publican y consumen datos de acuerdo a 4 principios (
Comparte tus datos y reutiliza los de otros 25 WWW Linked Data WWW
Linked Data Publicación de datos en la Web: Usando las tecnologías de la Web: HTTP, URL, DNS Con un modelo de datos explícito: RDF + vocabularios (o esquemas, ontologías..) en RDF Schema o OWL Permite compartir (aumentar) tus datos Permite reutilizar datos de otros para enriquecer tu información, reducir costes, y ofrecer mejores servicios 26
Idea básica 27 WWW Mantén el modelo de tus datos explicito cuando publiques información en la Web AUTOR EDITOR LIBROIDIOMA LIBRO AUTOR
Web tradicional (documentos) 28 Links to
Linked Data (Web de datos) 29 leads Birth place is author of Has topic Same as RDF Book Mashup
Linked Data cloud evolution 30 Credits: Richard Cyganiak
Linked Data cloud evolution 31 Credits: Richard Cyganiak
Linked Data cloud evolution 32 Credits: Richard Cyganiak
Linked Data cloud evolution 33 Credits: Richard Cyganiak
Linked Data cloud evolution 34 Credits: Richard Cyganiak
Linked Open Data
Herramientas en la Web de Datos Representar recursos: RDF (Resource Description Format) Modelar/describir recursos: RDFS/OWL Consultar/recuperar recursos: SPARQL y HTTP (LDP, LD API) Transformar recursos a RDF: Bases de datos: RDB2RML, OdeMapster, R2O MARC21: Marimba Any23 XML: GRRDL Etc. Metodología: Linked Data lifecycles 36
¿Qué podemos publicar usando Linked Data? Información sobre cualquier cosa: 37 Ciencia Eduardo Mendoza / resource/XX Barcelona
Los 4 Principios* Utilizar URIs para nombrar cosas (recursos) 38 *
Los 4 Principios* 1. Utilizar URIs para nombrar cosas (recursos) Usar el protocolo HTTP para publicar/recuperar recursos 39 *
Los 4 Principios* Utilizar URIs para nombrar cosas (recursos) Usar el protocolo HTTP para publicar/recuperar recursos 3. Describir datos en un formato estándar (RDF) dbpedia:Tim_Berners-Leerdf:type foaf:Person ; ; *
Los 4 Principios* Utilizar URIs para nombrar cosas (recursos) Usar el protocolo HTTP para publicar/recuperar recursos 3. Describir datos en un formato estándar (RDF) 4. Enlazar con otros recursos a través de URIs dbpedia:Tim_Berners-Leerdf:type foaf:Person ; ; *
¿Qué necesitamos? Elemento básico: tripletas RDF Sujeto Predicado Objeto Eduardo Mendoza es autor de La ciudad de los prodigios Barcelona forma parte de Catalunya Los predicados son URIs El sujetos y objetos pueden ser una URI o un literal 42
¿Qué necesitamos? Vocabularios para: Indicar de qué tipo son nuestros recursos (CLASES): Describir nuestros recursos (PROPIEDADES): Tiene nombre, nº de páginas, etc. Existen multitud de vocabularios ( para describir todo tipo de cosas en la Web 43 Eduardo Mendoza es Persona Barcelona es Municipio
Los fundamentos Identificadores Unicos: URI identifican un nombre o un recurso en internet. Modelos en RDF(S) El QuijoteCervantes ObraPersona Es autor Es una Enlazar con otros datos Same As Cervantes Same As Cervantes Navegación a través de los datos
El modelo (vocabulario) y los datos 45 Obra Lengua Traducción Año Fecha de Publicación Biblioteca Ubicado en Persona Es autor Tiene como materia El Quijote Cervantes Es autor Catalán Traducción 1960 Fecha de Publicación BNE Ubicado en Tiene como materia Vida de Cervantes Vocab Datos
El modelo (vocabulario) y los datos Traducción Año Fecha de Publicación Ubicado en Es autor Tiene como materia Es autor Traducción 1960 Fecha de Publicación BNE Ubicado en Tiene como materia Vida de Miguel de Cervantes Saavedra Don Quijote de la Mancha Cervantes Saavedra, Miguel de Catalán Vocab Datos Lengua Obra Biblioteca Persona
Ejemplo vocabulario basado en IFLA
A partir del modelo/vocabulario se describen los datos
BNE Same As LIBRIS SUDOC DNB DBpedia VIAF Ejemplo enlazado datos.bne.es