I Bioinformática: una panorámica Andrés Moreira Departamento de Informática UTFSM.

Slides:



Advertisements
Presentaciones similares
La genética en el siglo XXI
Advertisements

Diseño y análisis de algoritmos
Introducción Genética.
INTRODUCCIÓN A LA BIOINFORMÁTICA
Bioinformática: Conceptos Generales M.V. Gabriel B. Pinto y Med. Vet. MSci Gabriela Iglesias.
GRÁFICAS MATEMÁTICAS.
Maestría en Explotación de Datos y Descubrimiento del Conocimiento
The Universal Protein Resource: UniProtKB.
BLAST.
¿Tienen los elementos móviles un papel regulador en el genoma?
profericardo producciones
¿Por qué un brazo y no una pierna?
El Mundito un modelo de vida artificial
Dr. Justo Zanier Mayo 2010 MEDICINA GENOMICA Dr. Justo Zanier Mayo 2010.
Bases de datos en Bioinformática
Biología Computacional / Bioinformática
Encuentra las 12 diferencias
¿Cómo se descubrió la función de los genes?
International Nucleotide Sequence Database Collaboration
Inteligencia artificial
LA QUÍMICA DE LOS SERES VIVOS
CAPÍTULO 4. FUENTES DE DATOS EN
Los cromosomas y los genes
LA TEORIA DE LA EVOLUCION. Pero ¿QUÉ SE ENTIENDE POR TEORIA DE LA EVOLUCION? ¿QUÉ ES LA EVOLUCIÓN? ¿QUÉ PRETENDE EXPLICAR LA TEORIA DE LA EVOLUCIÓN?
TIPOS DE WEB.
BIOINFORMÁTICA.
¡¡SE QUIEN QUIERAS SER NO LO QUE QUIERAS QUE SEAN…..!!
Licda. Albertina Montenegro
Dr. Orlando R. Serrano Barrera

Amplitud de la revisión documental
MPQDEEFMGQRSGYPNMKFGHMRSHGYPNMKFGHQRTACDEEFMGPSVDGIMDTACDEEFMGQRSGYPNMKFGHMTACDEEFMGPSVDGSHGYPNM KFGHQRTIMGPSVDPQDEEFMGQRSGYPNMKFGHMRSHGYPNMKACDEEFMGPSVDYPNMKFGHMRSHGYPNMKFGHQRTACDEEFMGPSVDGIMD.
4/24/2015Mg. Q.F. Jéssica N. Bardales Valdivia1 Herramientas para las ciencias de la vida Biotecnology.
Material de apoyo Unidad 4 Estructura de datos
Teresa Monedero y Paloma Carrera
1 Dr. Antonio Barbadilla Tema 1: La ciencia de la genética1 AB Introducción: La ciencia de la Genética Introducción:
Bases De Datos En Biología Computacional Cristian S. Rocha 28 de Mayo del 2002.
Para empezar ¿De que color son tus ojos? ¿Por qué tu cabello es crespo y negro? ¿eres alto de baja estatura? ¿A quien te pareces? ¿Por qué algunos rasgos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Alfonso Varela Toro José Ramón Polo López MODELADO DE LA MAQUINARIA CELULAR A TRAVÉS DE LA COMPARACIÓN DE REDES BIOLÓGICAS.
BIOLOGÍA MOLECULAR Función de las Secuencias reguladoras que participan en la Transcripción: Tema Edith Hermosillo Royval Nº
ADN, ARN y DOGMA CENTRAL.
La génetica moderna. La Genética clásica ha dado respuesta a la forma de transmisión de la información de padres a los hijos, pero para saber que es un.
Alex Sánchez Introducción a la Bioinformática Herramientas de búsqueda en bases de datos SRS y Entrez.
TRANSCRIPTOMICA & PROTEOMICA

Bioinformática Introducción. Bioinformática Definición intuitiva Conjunto de herramientas informáticas que sugieren soluciones a problemas biológicos.
Nieves Ábalos Serrano Mª Teresa Jiménez Ramírez
BIOLOGIA COMPUTACIONAL
SISTEMAS EXPERTOS (SE) Coronel Jaramillo Ricardo
 Las actividades propias del Proyecto Genoma Humano, se inician alrededor del año 1984, cuando el biólogo molecular Robert Sinshheimerm, en ese momento.
WORD WIDE WEB Nace a principios de los años 90 en Suiza. Su función es ordenar y distribuir la información que existe en internet. La World Wide Web se.
7/22/2015copyright (your organization) Herramientas para las ciencias de la vida Biotecnology.
ACIDOS NUCLEICOS: ADN Y ARN. INTEGRANTES: *CRISTHIAN ALONSO SANCHEZ CASTRO *ISAAC ABDEEL SAIZ MARTINEZ *SANTIA ROMAN SANTOS MAESTRA: *IRMA GUADALUPE RUIS.
Introducción a los Sistemas Inteligentes
Victoria Alejandra Montoya Expositora
Taller: Inteligencia Computacional
Tema 11 Bases de Datos y el Lenguaje SQL
© Copyright Ebiointel,SL 2006 Recursos para el análisis de secuencias The Biocatalog.
Heurística. Los procesos que se llevan a cabo en el cerebro pueden ser analizados, a un nivel de abstacción dado, como procesos computacionales de algún.
La palabra "nanotecnología" es usada extensivamente para definir las ciencias y técnicas que se aplican al un nivel de nano escala, esto es unas medidas.
© Copyright Ebiointel,SL 2006 Motores Sequence Retrieval System Motores de búsqueda.
GENÉTICA Y BIOLOGÍA MOLECULAR Dra. Patricia Coello Coutiño Fernando Guzmán Laboratorio 105 y 114, Depto. de Bioquímica, Fac. Química, UNAM Tel:
Ácidos nucleicos y síntesis de proteínas ASPECTOS BÁSICOS
El material genético, ese desconocido ¿Cómo funcionan los genes?: El material genético, ese desconocido.
Biología Conceptos básicos.
Genética La genética (del término "Gen", que proviene de la palabra griega γένος y significa "raza, generación") es el campo de las ciencias biológicas.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Transcripción de la presentación:

I Bioinformática: una panorámica Andrés Moreira Departamento de Informática UTFSM

De un artículo en Nature : “El desarrollo y aplicación de herramientas computacionales para adquirir, almacenar, organizar, archivar, analizar y visualizar datos biológicos.” ¿Qué es la bioinformática?

Qué dice Wikipedia: “La bioinformática y la biología computacional involucran el uso de técnicas que incluyen las matemáticas aplicadas, la informática, la estadística, la inteligencia artificial, la química y la bioquímica para resolver problemas biológicos, generalmente a un nivel molecular.” ¿Qué es la bioinformática?

Qué dice Wikipedia: Bioinformática y biología computacional son usados casi como sinónimos. Diferencia: Bioinformática  énfasis en los datos ( más cerca de la definición en Nature ) Biología computacional  énfasis en las teorías, hipótesis ¿Qué es la bioinformática?

Desarrollo de algoritmos HCI Web Análisis (semi)automatizado a gran escala Testeo de hipótesis BIOLOGÍA MATEMÁTICAS INFORMÁTICA

¿Qué NO es la bioinformática? Si bien existe amplio campo informático en otras áreas de la biología (por ejemplo, ecología), la palabra bioinformática se suele reservar para cosas cercanas a la biología molecular. Por otro lado... Al hablar de “biología computacional” casi podría pensarse en “mirada computacional de la biología”. Ese es otro tema, pero no tan descabellado como puede parecer a primera vista.

¿Qué NO es la bioinformática? De hecho es una perspectiva a la que a veces volveremos. “If you want to understand life, don’t think about vibrant, throbbing gels and oozes, think about information technology.” Richard Dawkins, en “The Blind Watchmaker” Así que no es sólo prestación de servicios... Es una invasión!

Bioinformática: lo “bio” ¿De qué está hecha la vida? Proteínas: Cadenas formadas por aminoácidos: {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y} Realizan casi todos los trabajos: estructura, mensajería, catálisis, manejo de energía Ácidos nucleicos: Cadenas formadas por nucleótidos: {a, c, g, t} para DNA, {a, c, g, u} para RNA. Almacenamiento y porte de información, síntesis de proteínas.

Bioinformática: lo “bio”

augccuaguaug......ugugcaacguga å aug ccu auu aug ugu gca acg uga å M P S M C A T stop

Bioinformática: lo “bio”

RNAs tRNA

Bioinformática: lo “bio” Es aún más importante en las proteínas: ahí la forma básicamente determina la función. Estructura 1d, 2d, 3d (“primaria”, “secundaria”...)

Bioinformática: lo “bio” ¿Quién decide qué se copia y se fabrica? Básicamente proteínas, pegándose a un punto apropiado en el DNA (regulación). Eso determinará qué tanto se fabrica de cada gen (el nivel de expresión). Varias proteínas pueden regular un mismo gen, y ese a su vez puede regular a otros  aparecen redes de regulación.

Bioinformática: lo “bio” Los niveles de expresión: van cambiando a través del tiempo determinan el tipo de célula Los cambios en la regulación y expresión de los genes pueden ser tanto o más importantes para la evolución que los cambios en la secuencia del DNA. nivel gen 1 nivel gen 2 Un ciclo diario

Bioinformática: lo “bio” Una célula hace cosas: Metabolismo Comunicación Reproducción Evolución Así que se agregan fenómenos a otros niveles: de organismo multicelular, de linaje que evoluciona, etc etc

Bioinformática: perspectiva histórica 1953: Watson & Crick descifran la estructura del DNA En las décadas siguientes, se aprende sobre el código genético. Más tarde, se empiezan a leer genes. Desde hace un tiempo, genomas.

Bioinformática: perspectiva histórica Número de letras ___________________________________________________________ 1971 Se publica la primera secuencia de DNA PhiX174 5, Lambda 48, Cromosoma III de la levadura 316, Haemophilus influenza 1,830, Saccharomyces 12,068, C. elegans 97,000, D. melanogaster 120,000, H. sapiens (borrador) 2,600,000, H. sapiens 2,850,000,000

Bioinformática: perspectiva histórica Proyecto de genoma humano: Terminado el 2001 Se pensó que iba atrasado. Consorcio Público (HGP)Celera Genomics

Bioinformática: perspectiva histórica Simultáneamente, va creciendo el número de secuencias de proteínas que se conocen. Y el número de estructuras de proteínas. Y una serie de otros tipos de información. Y la cantidad de publicaciones. Bases de datos de bases de datos.

Bioinformática: perspectiva histórica

Pronto aparecieron los repositorios de información. Paralelamente, algoritmos crecientemente complejos: ensamblado de genomas detección de genes en las secuencias alineamiento de secuencias predicción de estructura 2d y/o 3d

Bioinformática: perspectiva histórica Además de aumentar el volumen, aumentó la complejidad: Genes escritos en trozos Genes con más de un producto Interacciones complejas de regulación Genes saltarines RNA con funciones “propias de proteínas”

Bioinformática: perspectiva histórica Un torrente de información que ha crecido de manera exponencial, cada vez con más matices y más complejidad. No cesan de aparecer cosas nuevas, ya sea por disponibilidad de datos o por nuevos descubrimientos: Metagenómica Epigenética Variación en la población (SNPs) interferencia de RNA (microRNA)...

Bioinformática: perspectiva histórica Se ha ido refinando y especializando el nivel de las aplicaciones computacionales: De repositorios, a bases de datos anotadas, a protocolos para interoperabilidad De hacer regresiones lineales, a construir modelos complejos vía machine learning De gráficos simples a minería de datos De revistas en papel, a textos online semánticamente anotados (y cuando no, procesamiento de lenguaje natural) Pero: Los datos nos llevan la delantera.

Bioinformática: perspectiva histórica

Toda la biología se ha “molecularizado”, y por lo tanto, “informatizado”: la biología es hoy una “ciencia de la información” Esto afecta toda la investigación en ámbito biológico, incluyendo la agropecuaria, ecológica, etc. La biotecnología es una industria en crecimiento, y no sólo en el mundo desarrollado. Bioinformática: perspectiva histórica

Bioinformática: Chile Chile produce madera, salmones, productos agrícolas.... Pero incluso para el cobre la bioinformática resulta importante: Biolixiviacion : se logró aumentar la velocidad con que la bacteria Thiobacillus ferrooxidans recupera cobre a partir de desechos de la explotación primaria.

Problemas clásicos (siempre vigentes) Ensamblar DNA: dada una serie de fragmentos secuenciados, reconstruir el genoma completo. Una versión aún más complicada, ahora que existe la metagenómica: dada una serie de fragmentos provenientes de muchos genomas distintos, reconstruir cada uno (o por lo menos clasificar bien los fragmentos!)

Problemas clásicos (siempre vigentes) Alineamiento de secuencias (DNA o proteínas): Encontrar la ruta más corta que pudo convertir una secuencia en otra Sec. 1 KVYGYDSNIHKCVYCDNAKRLLTVKKQPFEFINIMPEKGV---FDD—EKIAELLTKLGR..::.. :: :.: :: :.:.:.... :: ::. :... Sec. 2 EIYGIPEDVAKCSGCISAIRLCFEKGYDYEIIPVLKKANNQLGFDYILEKFDECKARANM T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC | || | || | | | ||| || | | | | |||| | AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C

Problemas clásicos (siempre vigentes)  Se detectan relaciones de parentesco, o eventualmente similitud funcional  Dada una secuencia de consulta, se encuentran las más cercanas en una base de datos Alineamiento múltiple: para familias de secuencias

Problemas clásicos (siempre vigentes) También se hace alineamiento de estructuras (para reconocer familias de proteínas)

Problemas clásicos (siempre vigentes) Búsqueda en secuencias: Inicialmente, encontrar genes (secuencias que codifican proteínas) En el genoma humano, son el 3%. Con estadística y un poco más, se puede hacer bastante. Complicación: hay otras cosas que encontrar, y son más sutiles  redes neuronales, modelos markovianos, largo etc

Problemas clásicos (siempre vigentes) Predicción de estructura bi- y tridimensional: No es trivial ni siquiera para RNA; para proteínas, es extremadamente difícil. Y, por otro lado, es vital (para discernir la función, relaciones de interacción, parentezcos...) Incluso una simplificación extrema es NP

ProblemasProblemas Detección de la expresión : ¿Bajo qué circunstancias se expresa un gen? ¿Qué gen se expresa bajo una circunstancia dada? ¿Cuáles se expresan siempre juntos (o vinculados por algún patrón)? Una tipo de experimento que se ha vuelto popular: microarrays

DATOSINFORMACION

ProblemasProblemas Detección de regulación y construcción de redes: ¿Quién regula a quién? Los microarrays también pueden ayudar (como series de tiempo: se saca “la foto” en momentos distintos) Determinando las redes de regulación es posible además analizarlas: ¿Qué tan robustas son? ¿Cómo pueden evolucionar? ¿Cómo se las puede intervenir?

ProblemasProblemas

ProblemasProblemas Se pueden aproximar los estados mediante variable booleanas (binarias): encendido o apagado El resultado será un grafo en cuyos nodos se ponen funciones lógicas. Ha sido un modelo muy productivo.

ProblemasProblemas

ProblemasProblemas Modelamiento y simulación: Dinámica celular Morfogénesis Interacción en organismos multicelulares (o entre unicelulares) Evolución...

Datos de secuencias GenBank, en el National Center of Biotechnology Information, National Library of Medicine, EEUU (nucleotidos y proteinas) European Molecular Biology Laboratory (EMBL) Outstation en Hixton, England DNA DataBank of Japan (DDBJ) en Mishima, Japan Protein International Resource (PIR) en la National Biomedical Research Foundation, EEUU nbrf.georgetown.edu/pirwww/ nbrf.georgetown.edu/pirwww/ SwissProt (secuencias de proteínas) Swiss Institute for Experimental Cancer Research, en Epalinges/Lausanne

Datos de secuencias

Datos de estructuras RCSB Protein Data Bank (PDB): BioMagResBank: MMDB:  RNA:

Datos de estructuras: PDB

DatosDatos Datos... de tipos de estructuras de proteínas (SCOP, CATH, Dali, VAST) de dominios funcionales de proteínas de familias de RNAs (RNABASE) de redes de regulación genética de redes de interacción de proteínas de literatura (PubMed) de bases de datos... También bases de datos especializadas en organismos (moscas, ratón, levadura...). Y muchas más.

DatosDatos Niveles de expresión:

Cruce de datos

Datos: Índices

Datos: ejemplos >gi| |gb|U |MMU35641 Mus musculus Brca1 mRNA, complete cds GGCACGAGGATCCAGCACCTCTCTTGGGGCTTCTCCGTCCTCGGCGCTTGGAAGTACGGATCTTTTTTCT CGGAGAAAAGTTCACTGGAACTGGAAGAAATGGATTTATCTGCCGTCCAAATTCAAGAAGTACAAAATGT CCTTCATGCTATGCAGAAAATCTTAGAGTGTCCGATCTGTTTGGAACTGATCAAAGAACCTGTTTCCACA AAGTGTGACCACATATTTTGCAAATTTTGTATGCTGAAACTTCTTAACCAGAAGAAAGGGCCTTCACAAT GTCCTTTGTGTAAGAATGAGATAACCAAAAGGAGCCTACAGGGAAGCACAAGGTTTAGTCAGCTTGCTGA AGAGCTGCTGAGAATAATGGCTGCTTTTGAGCTTGACACGGGAATGCAGCTTACAAATGGTTTTAGTTTT TCAAAAAAGAGAAATAATTCTTGTGAGCGTTTGAATGAGGAGGCGTCGATCATCCAGAGCGTGGGCTACC GGAACCGTGTCAGAAGGCTTCCCCAGGTCGAACCTGGAAATGCCACCTTGAAGGACAGCCTAGGTGTCCA GCTGTCTAACCTTGGAATCGTGAGATCAGTGAAGAAAAACAGGCAGACCCAACCTCGAAAGAAATCTGTC TACATTGAACTAGACTCTGATTCTTCTGAAGAGACAGTAACTAAGCCAGGTGATTGCAGTGTGAGAGACC … FASTA Un comentario, seguido por la secuencia

Datos: ejemplos SWISS-PROT Incluye anotación y otras informaciones (al igual que Genbank) ID BRC1_MOUSE STANDARD; PRT; 1812 AA. AC P48754; Q60957; Q60983; DT 01-FEB-1996 (Rel. 33, Created) DT 01-NOV-1997 (Rel. 35, Last sequence update) DT 16-OCT-2001 (Rel. 40, Last annotation update) DE Breast cancer type 1 susceptibility protein homolog. GN BRCA1. OS Mus musculus (Mouse). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. OX NCBI_TaxID=10090; RN [1] RP SEQUENCE FROM N.A. RC STRAIN=C57BL/6; TISSUE=Embryo; RX MEDLINE= ; PubMed= ; RA Abel K.J., Xy J., Yin G.Y., Lyons R.H., Meisler M.H., Weber B.L.; RT "Mouse Brca1: localization sequence analysis and identification of RT evolutionarily conserved domains."; RL Hum. Mol. Genet. 4: (1995). …

Datos: ejemplos ASN.1: un estándar internacional  Formato semiestructurado  Es el formato base para GenBank Seq-entry ::= set { level 1, class nuc-prot, descr { title "Mus musculus Brca1 mRNA, and translated products", source { org { taxname "Mus musculus", db { { db "taxon", tag id } }, orgname { name binomial { genus "Mus", species "musculus" }, …

Datos: ejemplos XML MMU ROD 18-OCT OCT-1995 Mus musculus Brca1 mRNA, complete cds U35641 U

DatosDatos SBML: System Biology Markup Language, representa modelos de reacciones bioquímicas OBO: Open Biomedical Ontologies Gene Ontology: la más conocida de las ontologías biológicas; describe los genes y productos de genes de cualquier organismo