Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porJosé Antonio Valdéz Bustamante Modificado hace 8 años
1
Infraestructura para integración de sistemas multi-similitud Ismael Sanz
2
Contexto Data- centric XML Document- centric XML
3
Contexto XQuery IR
4
Motivación Adopción de XML por nuevas comunidades – Bioinformática, patrimonio cultural, ontologías, GIS, … No hay una estructura regular explotable Tampoco predomina la información textual Complejidad más alta que en los escenarios típicos
5
Motivación Falta de soporte para la heterogeneidad estructural Falta de tolerancia para la complejidad estructural
6
Motivación: el caso bioinformático Julia M. Gohlke and Christopher J. Portier:The Forest for the Trees: A Systems Approach to Human Health Research. Environmental Health Perspectives 115(9), September 2007
7
Niveles de granularidad
8
“Dogma central”
9
Secuencias Nucleótidos (ADN) – >AB000263 |acc=AB000263|descr=Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.|len=368 ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGC CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGG AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGACAGAATGCC CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGCTCACGCAAG TTTAATTACAGACCTGAA Péptidos (proteinas) – >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENYElephas maximus maximus
10
Rutas metabólicas
11
Recursos “Database Issue” de Nucleic Acids Research 1170 bases de datos http://www.oxfordjournals.org/nar/database/a/ – Nucleotide Sequence Databasesucleotide Sequence Databases – RNA sequence databases RNA sequence databases – Protein sequence databases Protein sequence databases – Structure Databases Structure Databases – Genomics Databases (non-vertebrate) Genomics Databases (non-vertebrate) – Metabolic and Signaling Pathways Metabolic and Signaling Pathways – Human and other Vertebrate Genomes Human and other Vertebrate Genomes – Human Genes and Diseases Human Genes and Diseases – Microarray Data and other Gene Expression Databases Microarray Data and other Gene Expression Databases – Proteomics Resources Proteomics Resources – Other Molecular Biology Databases Other Molecular Biology Databases – Organelle databases Organelle databases – Plant databases Plant databases – Immunological databases Immunological databases
12
Acceso vía web Entrez http://www.ncbi.nlm.nih.gov/Entrez/http://www.ncbi.nlm.nih.gov/Entrez/ EMBOSS http://emboss.sourceforge.net/http://emboss.sourceforge.net/ EMBL-EBI http://www.ebi.ac.uk/services/http://www.ebi.ac.uk/services/ Distributed Annotation System http://www.biodas.org/ http://www.biodas.org/ WS/REST
13
Tareas típicas
14
Interoperabilidad
16
Ontologías Tim Berners-Lee
17
Workflow Taverna
18
Ejemplo “Encontrar proteínas del ratón de laboratorio cuya secuencia es similar a la de la topoisomerasa humana”
19
Motivación: el caso bioinformático La información está disponible en XML Requiere búsqueda aproximada y múltiples funciones de similitud Muchas colecciones, cada una con su propio formato Solución actual: hacer una aplicación ad-hoc – Generalmente usando algún framework en Java – Quizás usando Web Services – Completamente ad-hoc Problema de integración de la información
20
Sistemas multi-similitud Origen en BD multimedia Soporte de múltiples funciones de similitud Diseñados expresamente para gestionar infomación
21
Datos inherentemente complejos – XPath y XQuery no pueden Sin soporte de consultas aproximadas – XPath y XQuery tampoco pueden Sin soporte para multi-similitud Sin técnicas de análisis y diseño ¿Por qué es tan difícil?
22
Objetivos Crear en técnicas de análisis y diseño para sistemas multi-similitud Implementar extensiones multi-similitud para XPath y XQuery Validar mediante un caso práctico en el dominio de la Bioinformática I n f r a e s t r u c t u r a p a r a i n t e g r a c i ó n d e s i s t e m a s m u l t i - s i m i l i t u d s o b r e X M L.
23
Tareas 1.Modelado de requisitos para integración de información biológica 2.Especificación de sistemas de integración de información biológica 3.Implementación de extensiones de XQuery para manejo de información compleja 4.Implementación de un caso de estudio realista
24
Marco general: MDA
25
Requisitos Objetivos: – Una taxonomía de tareas apropiada – Un modelo general de las características modelables de las medidas que deben participar en un sistema multi-similitud. – Modelos preliminares de dominio para aplicaciones bioinformáticas. Resultado – Perfil i*
26
Trabajo preliminar
28
Esbozo de metodología
29
Especificación Opciones de diseño: – DSL – Perfil de UML Características: – Capacidad de incorporar conceptos y relaciones del dominio biomédico. – Primitivas de modelado para fuentes de datos biomédicas. – Primitivas de modelado para medidas de similitud propias del dominio biomédico.
30
XQuery? Objetivo: Implementación de primitivas sobre un SGBD real. Extensión de XQuery Selección del SGBD XML adecuado para la implementación. Implementación de las funciones necesarias
31
Trabajo preliminar
32
Preguntas ¿Tiene sentido de usar XML/XQuery? ¿El caso bioinformático es realmente específico? ¿Cómo integrar resultados aproximados? ¿DSL o UML? ¿El enfoque metodológico es correcto?
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.