La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Infraestructura para integración de sistemas multi-similitud Ismael Sanz.

Presentaciones similares


Presentación del tema: "Infraestructura para integración de sistemas multi-similitud Ismael Sanz."— Transcripción de la presentación:

1 Infraestructura para integración de sistemas multi-similitud Ismael Sanz

2 Contexto Data- centric XML Document- centric XML

3 Contexto XQuery IR

4 Motivación Adopción de XML por nuevas comunidades – Bioinformática, patrimonio cultural, ontologías, GIS, … No hay una estructura regular explotable Tampoco predomina la información textual Complejidad más alta que en los escenarios típicos

5 Motivación Falta de soporte para la heterogeneidad estructural Falta de tolerancia para la complejidad estructural

6 Motivación: el caso bioinformático Julia M. Gohlke and Christopher J. Portier:The Forest for the Trees: A Systems Approach to Human Health Research. Environmental Health Perspectives 115(9), September 2007

7 Niveles de granularidad

8 “Dogma central”

9 Secuencias Nucleótidos (ADN) – >AB000263 |acc=AB000263|descr=Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.|len=368 ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGC CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGG AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGACAGAATGCC CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGCTCACGCAAG TTTAATTACAGACCTGAA Péptidos (proteinas) – >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENYElephas maximus maximus

10 Rutas metabólicas

11 Recursos “Database Issue” de Nucleic Acids Research 1170 bases de datos http://www.oxfordjournals.org/nar/database/a/ – Nucleotide Sequence Databasesucleotide Sequence Databases – RNA sequence databases RNA sequence databases – Protein sequence databases Protein sequence databases – Structure Databases Structure Databases – Genomics Databases (non-vertebrate) Genomics Databases (non-vertebrate) – Metabolic and Signaling Pathways Metabolic and Signaling Pathways – Human and other Vertebrate Genomes Human and other Vertebrate Genomes – Human Genes and Diseases Human Genes and Diseases – Microarray Data and other Gene Expression Databases Microarray Data and other Gene Expression Databases – Proteomics Resources Proteomics Resources – Other Molecular Biology Databases Other Molecular Biology Databases – Organelle databases Organelle databases – Plant databases Plant databases – Immunological databases Immunological databases

12 Acceso vía web Entrez http://www.ncbi.nlm.nih.gov/Entrez/http://www.ncbi.nlm.nih.gov/Entrez/ EMBOSS http://emboss.sourceforge.net/http://emboss.sourceforge.net/ EMBL-EBI http://www.ebi.ac.uk/services/http://www.ebi.ac.uk/services/ Distributed Annotation System http://www.biodas.org/ http://www.biodas.org/ WS/REST

13 Tareas típicas

14 Interoperabilidad

15

16 Ontologías Tim Berners-Lee

17 Workflow Taverna

18 Ejemplo “Encontrar proteínas del ratón de laboratorio cuya secuencia es similar a la de la topoisomerasa humana”

19 Motivación: el caso bioinformático La información está disponible en XML Requiere búsqueda aproximada y múltiples funciones de similitud Muchas colecciones, cada una con su propio formato Solución actual: hacer una aplicación ad-hoc – Generalmente usando algún framework en Java – Quizás usando Web Services – Completamente ad-hoc Problema de integración de la información

20 Sistemas multi-similitud Origen en BD multimedia Soporte de múltiples funciones de similitud Diseñados expresamente para gestionar infomación

21 Datos inherentemente complejos – XPath y XQuery no pueden Sin soporte de consultas aproximadas – XPath y XQuery tampoco pueden Sin soporte para multi-similitud Sin técnicas de análisis y diseño ¿Por qué es tan difícil?

22 Objetivos Crear en técnicas de análisis y diseño para sistemas multi-similitud Implementar extensiones multi-similitud para XPath y XQuery Validar mediante un caso práctico en el dominio de la Bioinformática I n f r a e s t r u c t u r a p a r a i n t e g r a c i ó n d e s i s t e m a s m u l t i - s i m i l i t u d s o b r e X M L.

23 Tareas 1.Modelado de requisitos para integración de información biológica 2.Especificación de sistemas de integración de información biológica 3.Implementación de extensiones de XQuery para manejo de información compleja 4.Implementación de un caso de estudio realista

24 Marco general: MDA

25 Requisitos Objetivos: – Una taxonomía de tareas apropiada – Un modelo general de las características modelables de las medidas que deben participar en un sistema multi-similitud. – Modelos preliminares de dominio para aplicaciones bioinformáticas. Resultado – Perfil i*

26 Trabajo preliminar

27

28 Esbozo de metodología

29 Especificación Opciones de diseño: – DSL – Perfil de UML Características: – Capacidad de incorporar conceptos y relaciones del dominio biomédico. – Primitivas de modelado para fuentes de datos biomédicas. – Primitivas de modelado para medidas de similitud propias del dominio biomédico.

30 XQuery? Objetivo: Implementación de primitivas sobre un SGBD real. Extensión de XQuery Selección del SGBD XML adecuado para la implementación. Implementación de las funciones necesarias

31 Trabajo preliminar

32 Preguntas ¿Tiene sentido de usar XML/XQuery? ¿El caso bioinformático es realmente específico? ¿Cómo integrar resultados aproximados? ¿DSL o UML? ¿El enfoque metodológico es correcto?


Descargar ppt "Infraestructura para integración de sistemas multi-similitud Ismael Sanz."

Presentaciones similares


Anuncios Google