Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta.

Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

1.Introducción 2.Estado del Arte 3.Objetivos 4.Estrategias 5.Dificultades 6.Demo 7.Conclusiones

 Tener identificados los genes del ADN y las proteínas que codifican nos ofrece la información necesaria para el estudio del metabolismo de una célula, y por tanto del organismo en sí al que pertenece.  El genoma de un organismo contiene toda la información genética que define a ese organismo.

 Grupos clasificación organismos vivos: Arquea, Bacteria y Eucariota.

 Mediante la comparación de genomas se busca la detección de los rasgos(genes) comunes que se han mantenido en los organismos vivos, herencia de un ancestro común que hayan compartido a lo largo de su historia evolutiva.

 Una de las estructuras de datos que se utilizan para la comparación de genomas son: ◦ MUMs (Maximal Unique Matching, secuencia correlativa de bases máxima y única encontrada en ambos genomas) ◦ SuperMUMs (agrupación de MUMs mediante Approximate String Matching)...taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAGa....gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt..

 Una de las estructuras de datos que se utilizan para la comparación de genomas son: ◦ MUMs (Maximal Unique Matching, secuencia correlativa de bases máxima y única encontrada en ambos genomas) ◦ SuperMUMs (agrupación de MUMs mediante Approximate String Matching)...taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAGa....gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt.. MUM Directo MUM Inverso

 Una de las estructuras de datos que se utilizan para la comparación de genomas son: ◦ MUMs (Maximal Unique Matching, secuencia correlativa de bases máxima y única encontrada en ambos genomas) ◦ SuperMUMs (agrupación de MUMs mediante Approximate String Matching)...taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAGa....gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt.. MUM Directo MUM Inverso SuperMUM Directo

 MALGEN (2003)

Complejidad en la comparación de genomas:  Recopilación y ensamblaje de la información disponible de los genomas secuenciados.  Altísimo coste computacional en tiempo y memoria para su proceso.  Visualización interactiva del gran volumen de datos obtenidos.

 Comparación genomas, subdivisión del problema.

 Subdivisión del problema FTP NCBI

 Subdivisión del problema FTP NCBI Servidor Web

 Subdivisión del problema FTP NCBI Servidor Web Pre-Proceso

 Subdivisión del problema FTP NCBI Servidor Web Pre-Proceso Exploración de datos

◦ Crear una interfaz web que mediante el uso de MUMs y SuperMUMs permita comparar genomas completos. ◦ Exploración flexible potenciando usabilidad. ◦ Múltiples genomas. ◦ Representar los genes y permitir su interacción. ◦ Crear aplicación de pre-proceso para recuperar, procesar y ensamblar la información relativa a los genes. ◦ Ajuste aplicaciones de pre-proceso para poder trabajar con genomas grandes. ◦ Permitir explorar genomas grandes.

Contexto de la aplicación Mummy-TreeMummy

 Uso de las últimas herramientas y soluciones disponibles (Flex Builder, PureMVC, Biojava,…).  Análisis de una sesión de trabajo de un investigador a fin de maximizar su usabilidad.  Potenciar el pre-computo de datos a fin de aligerar el proceso de exploración.  Múltiples técnicas de optimización de la representación visual.  Modo automático de selección de datos a representar ajustado a la capacidad de computo de la máquina cliente.

 Límites del Flash Player: ◦ Limites de computo a 15-60 segundos. ◦ Máximo de 16.000 símbolos. ◦ Memoria máxima y bug.  Filtro y ordenación de datos: ◦ Pre-computo. ◦ Búsqueda dicotómica.  Transiciones de exploración: ◦ Resolución interna / suavizado.  Modo Auto.  Ensamblaje de genes.  Computo de Eucariotas utilizados como datos de estudio.

◦ Local Bacterias Local Bacterias ◦ Local Eucariota Local Eucariota ◦ Mummy-Tree Mummy-Tree ◦ RevResearch RevResearch

 Objetivos marcados.  Cualquier etapa del proceso de la comparación de genomas es no trivial. ◦ Simplificar al investigador final la comparación de genomas, accesible desde una interfaz web es un logro relevante.  Se estima que la versión actual resulta útil hasta Eucariotas de tamaño medio.

 Mejoras ◦ Tiempos de carga y límites de memoria  Carga de datos relegada una vez establecido orden y tipo de genomas a comparar.  Serialización de datos en formato nativo.  Paginación de datos.

 http://revolutionresearch.uab.es : web server for the comparison of all known genomes. http://revolutionresearch.uab.es  Mario Huerta. Suffix Tree Construction with slide nodes. technical report LSI-02-63-R Universitat Politècnica de Catalunya (2002).  Mario Huerta, Xavier Messeguer. Efficient Space and Time multicomparision of Genomes. Technical report LSI-02-64-R. Dep. Llenguatge i Sistemes Informàtics, Universitat Politècnica de Catalunya.(2002).  Domènec Farré, Romà Roset, Mario Huerta, José E. Adsuara, Llorenç Roselló, M. Mar Albà, Xavier Messeguer. Identification of patterns in biological sequences at the ALGGEN server. PROMO and MALGEN. Nucleic Acids Research 31(13): 3651- 3653 (2003).

Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta.

Presentaciones similares

Presentación del tema: "Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta.

Presentaciones similares

Presentación del tema: "Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback