Infraestructura para integración de sistemas multi-similitud Ismael Sanz.

Infraestructura para integración de sistemas multi-similitud Ismael Sanz

Contexto Data- centric XML Document- centric XML

Contexto XQuery IR

Motivación Adopción de XML por nuevas comunidades – Bioinformática, patrimonio cultural, ontologías, GIS, … No hay una estructura regular explotable Tampoco predomina la información textual Complejidad más alta que en los escenarios típicos

Motivación Falta de soporte para la heterogeneidad estructural Falta de tolerancia para la complejidad estructural

Motivación: el caso bioinformático Julia M. Gohlke and Christopher J. Portier:The Forest for the Trees: A Systems Approach to Human Health Research. Environmental Health Perspectives 115(9), September 2007

Niveles de granularidad

“Dogma central”

Secuencias Nucleótidos (ADN) – >AB000263 |acc=AB000263|descr=Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.|len=368 ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGC CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGG AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGACAGAATGCC CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGCTCACGCAAG TTTAATTACAGACCTGAA Péptidos (proteinas) – >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENYElephas maximus maximus

Rutas metabólicas

Recursos “Database Issue” de Nucleic Acids Research 1170 bases de datos http://www.oxfordjournals.org/nar/database/a/ – Nucleotide Sequence Databasesucleotide Sequence Databases – RNA sequence databases RNA sequence databases – Protein sequence databases Protein sequence databases – Structure Databases Structure Databases – Genomics Databases (non-vertebrate) Genomics Databases (non-vertebrate) – Metabolic and Signaling Pathways Metabolic and Signaling Pathways – Human and other Vertebrate Genomes Human and other Vertebrate Genomes – Human Genes and Diseases Human Genes and Diseases – Microarray Data and other Gene Expression Databases Microarray Data and other Gene Expression Databases – Proteomics Resources Proteomics Resources – Other Molecular Biology Databases Other Molecular Biology Databases – Organelle databases Organelle databases – Plant databases Plant databases – Immunological databases Immunological databases

Acceso vía web Entrez http://www.ncbi.nlm.nih.gov/Entrez/http://www.ncbi.nlm.nih.gov/Entrez/ EMBOSS http://emboss.sourceforge.net/http://emboss.sourceforge.net/ EMBL-EBI http://www.ebi.ac.uk/services/http://www.ebi.ac.uk/services/ Distributed Annotation System http://www.biodas.org/ http://www.biodas.org/ WS/REST

Tareas típicas

Interoperabilidad

Ontologías Tim Berners-Lee

Workflow Taverna

Ejemplo “Encontrar proteínas del ratón de laboratorio cuya secuencia es similar a la de la topoisomerasa humana”

Motivación: el caso bioinformático La información está disponible en XML Requiere búsqueda aproximada y múltiples funciones de similitud Muchas colecciones, cada una con su propio formato Solución actual: hacer una aplicación ad-hoc – Generalmente usando algún framework en Java – Quizás usando Web Services – Completamente ad-hoc Problema de integración de la información

Sistemas multi-similitud Origen en BD multimedia Soporte de múltiples funciones de similitud Diseñados expresamente para gestionar infomación

Datos inherentemente complejos – XPath y XQuery no pueden Sin soporte de consultas aproximadas – XPath y XQuery tampoco pueden Sin soporte para multi-similitud Sin técnicas de análisis y diseño ¿Por qué es tan difícil?

Objetivos Crear en técnicas de análisis y diseño para sistemas multi-similitud Implementar extensiones multi-similitud para XPath y XQuery Validar mediante un caso práctico en el dominio de la Bioinformática I n f r a e s t r u c t u r a p a r a i n t e g r a c i ó n d e s i s t e m a s m u l t i - s i m i l i t u d s o b r e X M L.

Tareas 1.Modelado de requisitos para integración de información biológica 2.Especificación de sistemas de integración de información biológica 3.Implementación de extensiones de XQuery para manejo de información compleja 4.Implementación de un caso de estudio realista

Marco general: MDA

Requisitos Objetivos: – Una taxonomía de tareas apropiada – Un modelo general de las características modelables de las medidas que deben participar en un sistema multi-similitud. – Modelos preliminares de dominio para aplicaciones bioinformáticas. Resultado – Perfil i*

Trabajo preliminar

Esbozo de metodología

Especificación Opciones de diseño: – DSL – Perfil de UML Características: – Capacidad de incorporar conceptos y relaciones del dominio biomédico. – Primitivas de modelado para fuentes de datos biomédicas. – Primitivas de modelado para medidas de similitud propias del dominio biomédico.

XQuery? Objetivo: Implementación de primitivas sobre un SGBD real. Extensión de XQuery Selección del SGBD XML adecuado para la implementación. Implementación de las funciones necesarias

Trabajo preliminar

Preguntas ¿Tiene sentido de usar XML/XQuery? ¿El caso bioinformático es realmente específico? ¿Cómo integrar resultados aproximados? ¿DSL o UML? ¿El enfoque metodológico es correcto?

Infraestructura para integración de sistemas multi-similitud Ismael Sanz.

Presentaciones similares

Presentación del tema: "Infraestructura para integración de sistemas multi-similitud Ismael Sanz."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Infraestructura para integración de sistemas multi-similitud Ismael Sanz.

Presentaciones similares

Presentación del tema: "Infraestructura para integración de sistemas multi-similitud Ismael Sanz."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback