Introducción a la Bioinformática I Tomás Arredondo Vidal 2010

Introducción a la Bioinformática I Tomás Arredondo Vidal 2010

Introducción a la Bioinformática
Esta charla trata de lo siguiente: Introducción a aspectos de la bioinformática Discusión acerca de algunas bases de datos y herramientas utilizadas en la bioinformática Discusión sobre secuencias genéticas y algoritmos usados para su análisis

Bioinformática: Algunas áreas de Estudio Genómica – Estudio, mapeo, y secuenciacion de genomas Microarreglos – Arreglos experimentales para determinar el nivel de actividad o precencia de muchos genes en parallelo Proteomica – Estudio, vusualizacion y quantificacion de las moleculas de proteinas presentes en tejidos u organismos Estructurales – Simulacion y estudio de la estructura de proteinas

Motivación para los estudios Bioinformáticos: Medicina: Nuevas drogas, nuevas vacunas de ADN, terapias genéticas Producción de medicinas usando bacterias y levaduras Genómica: Fuente de información para medicina preventiva, terapéutica, diagnóstico Ingeniería de tejidos: Métodos para generar piel, cartílago, huesos Biomateriales, Nanotecnologia, Applicaciones Industriales y Químicas

Motivación para los estudios Bioinformáticos: Diagnostico Genome Gene map Gene sequence Expression Diseases t c g c g c Alzheimers Cancer g g t g a t Arthritis g t c t g t c a t a t g CV Disease g g t g a a MS t a t t a c Obesity Vision c t g g c g t g c t a g Arthritis

Motivación para los estudios Bioinformáticos: Producción de Vacunas

Virus: amigos y enemigos

De adonde partió el estudio de la Bioinformática? Gregor Mendel: En 1865 el sacerdote Agustino Gregor Mendel hizo experimentos sobre híbridos de plantas (arvejas) basados en el fenotipo observable de ellas Mendel, desarrolló los principios fundamentales de que hoy es la moderna ciencia de la genética A través de la estadística de los resultados de sus cruces Mendel demostró que las características heredables son llevadas en unidades discretas que se heredan por separado en cada generación Estas unidades discretas, que Mendel llamó elemente, se conocen hoy como genes

Evolución Genetica Gregor Mendel hizo experimentos sobre híbridos de plantas (1866): Así, Mendel aisló 7 pares de caracteres que eran razas puras: cada carácter estudiado se presentaba en dos variantes, tales como: altura de la planta (alta o baja), superficie de la semilla (lisa o rugosa), forma de la vaina (inflada o contraída), forma de la vaina y otras En sus experimentos Mendel uso unas plantas de arvejas Las posibles codificaciones viables de ADN de un gen que ocupan una posición (locus) en el genoma de un organismo se denominan alelos

Evolución Genetica Gregor Mendel hizo experimentos sobre híbridos de plantas (1866)...: Los alelos de un gen son responsables de las diferentes expresiones de los genes (e.g. color de un pétalo) que es visto en el fenotipo del organismo En un organismo diploide hay dos copias de cada cromosoma en cada célula (e.g. humanos 1013 celulas), por ende hay dos alelos para cada gen En organismos diploides las celulas sexuales (e.g. gametos) son haploides (e.g. tienen una copia de cada cromosoma) y se juntan para formar un cigoto (e.g. zygote) que es la celula que se divide repetidamente para formar el embrión

Evolución Genetica Conclusiones o Leyes de Mendel (1866): Ley de uniformidad: El tipo hereditario de la prole no es intermedio entre los tipos de los padres, sino que en él predomina el de uno u otro. Si se cruzan dos variedades bien definidas de una misma especie, el descendiente híbrido mostrará las características distintivas de uno de los progenitores (característica dominante) Ley de la segregación de los genes antagónicos: La característica del otro progenitor (recesiva) es latente y se manifestará en la siguiente generación resultante de cruzar a los híbridos entre sí. Tres cuartos muestran la característica dominante y un cuarto la recesiva Ley de la recombinación de los genes: Cada una de las características puras de cada variedad (color, rugosidad de la piel, etc.) se transmiten a la siguiente generación de forma independiente entre sí, siguiendo las dos primeras leyes

Evolución Genetica Conclusiones o Leyes de Mendel (1866): En 1905 Bateson, Saunders y Punnett descubrieron la conexión genética a través de las cromosomas Ellos determinaron que genes están localizados en cromosomas y que cada cromosoma es una unidad que se reproduce intactamente Los genes ocupan posiciones (e.g. locus) en macromoléculas llamadas cromosomas Esta idea fue modificada posteriormente por Thomas Hunt Morgan Esto nos lleva al estudio de la células y la Genética...

Células Función: Las funciones biológicas de los organismos dependen de las células para la producción y regulación de compuestos necesarios para su funcionamiento Los organismos se clasifican de acuerdo a sus características celulares: Eukariotes (hongos, animales, plantas, humanos) Prokariotes (bacterias) Virus Archaea (organismos similares a las bacteria que viven en ambientes extremos)

ADN Watson y Crick En 1953, James Watson y Francis Crick, descubrieron la estructura tridimensional del ácido desoxirribonucleico (ADN) al encontrar un modelo que explicaba todos los datos obtenidos hasta el momento El ADN es un polímero (gr. poly - muchas, meros - partes) o sea una macro molecula de muchas componentes individuales Es una cadena doble compuesta por fosfatos (PO4), azucar (desoxiribosa) y una base nitrogenada PO-4 | Azúcar - Base | PO-4 | Azúcar - Base | PO-4

ADN En el modelo de Watson y Crick, el ADN es una doble hélice, con las bases dirigidas hacia el centro, perpendiculares al eje de la molécula y un esqueleto de azúcar-fosfato a lo largo de los lados de la hélice (que protege las bases del ambiente) Las hebras que la conforman son complementarias y antiparalelas. Las bases de cada cadena se aparean de forma complementaria Adenina con Timina (A-T) y Guanina con Citosina (C-G) Cada base tiene puentes de hidrógeno con su complementaria, uniendo así las dos cadenas

ADN y ARN Estructura Los ácidos nucleicos que se conocen son el ácido desoxirribonucleico (ADN) y el ácido ribonucleico (ARN) Ambos están compuestos por nucleótidos en formas monocatenarias (ARN) o de doble cadena (DNA) Las bases nitrogenadas que componen los ácidos nucleicos son los compuestos que codifican la información genética en la molécula (el código genético: A, T, C, G) Las bases nitrogenadas se clasifican en dos grandes familias: púricas y pirimidínicas

ADN y ARN Estructura Bases púricas: Adenina,Guanina Bases pirimidínicas: Citosina, Timina, Uracilo El ADN contiene adenina-guanina-citosina y timina que se emparejan en una doble hélice A-T y G-C El ARN contiene Uracilo en vez de Timina El ARN tiene diferentes nombres dependiendo de su funcion (e.g. ARNm: ARN mensajero, ARNt: ARN de transferencia, ... hay mas tipos de ARN) El DNA y todas las formas bicatenarias (duplex) de los ácidos nucleícos se unen entre sí gracias a los enlaces de hidrógeno que se establecen entre sus bases La Timina enlaza con la Adenina con dos enlaces y la Guanina y la citosina se unen entre sí por tres enlaces de hidrógeno

ADN y ARN Bases Enlaces

ADN Estructura En el ADN las azucares sucesivas se conectan a través del fosfato y una hebra tiene la orientación de 5' a 3' y la otra hebra (complementaria) de 3' a 5' (dado que la molécula de azúcar esta rotada) PO PO-4 | | 5' Azucar - C === G - Azucar 3' 3' | | ' PO PO-4 3' | | '

ADN de Células: Prokariotas Organismos microscópicos Su genoma es una molécula circular de ADN Genoma es del orden de Mpb (millones de pares de bases) Densidad de genes es de aproximadamente un gen = 1000 pares de bases Sus genes no son sobrepuestos (no overlap) Sus genes son transcritos (copiados a ARNm) inmediatamente después de una región llamada promotor Son continuamente codificantes (sin intrones)

ADN de Células: Eukariotes Organismos variados (plantas, animales, hongos,...) Genoma consiste de múltiples pedazos contiguos de ADN típicamente denominados cromosomas Genoma es del orden de Mpb (millones de pares de bases) Densidad de genes es de aproximadamente un gen = pares bases Genoma incluye muchas áreas no codificartes Sus genes son transcritos (copiados a ARNm) después de una región llamada promotor pero elementos en la secuencia a gran distancia pueden tener gran efecto en el proceso Genes pueden derivar en múltiples formas de ARNm y proteínas Mas complejas!

Dogma Central (Watson & Crick) Transferencia general de la información De ADN a ARN, de ARN a Proteína

Dogma Central (Watson & Crick)

ADN Codigo Genetico: Las funciones biológicas de los organismos dependen de las células para la producción y regulación de compuestos necesarios para su funcionamiento Codones: tripletes de bases codificantes en aminoacidos Comienzo: ATG Termino: TAA, TAG, TGA Exones: secciones codificantes (con genes) Intrones: secciones entre medio de exones no codificantes Sequencias Codificantes: ORF: Open Reading Frame (de codón de comienzo a término) CDS: Coding Sequence

ADN Codigo Genetico: La secuencia genética del ADN esta codificada en secuencias de nucleotidos (Adenosina, Timina, Citosina, Guanina) El ARN substituye Timina (T) por Uracilo (U) El ADN actúa como un molde en la replicación celular para producir mas ADN (mitosis) El ADN también transmite la información necesaria para la reproducción celular (meiosis) Los genes se organizan en cromosomas para la reproducción durante meiosis En el caso de meiosis se intercambia material genético entre cromosomas homologas La unidad de intercambio genético es el gen

S Y C P H Q R I M T N K V A D E G W

ADN Mitosis: Watson y Crick formularon la hipótesis semiconservativa que fue posteriormente demostrada por Meselson y Stahl en 1957 Según esta hipótesis, la nuevas moléculas de DNA duplexo contienen una hebra de material original y otra nueva

ADN Meiosis: Thomas Hunt Morgan en 1910 estudio en detalle la conexión genética con moscas de la fruta El determino que los genes en los cromosomas tienen conexión parcial (partial linkage) al estudiar Meiosis Esto ocurre porque las cromosomas homologas pueden intercambiar ADN durante la fase Prophase I La frecuencia con la cual los genes son separados por cruces es directamente proporcional con su distancia en su cromosoma

Genes: Partial Linkage

Genomica Vías Metabólicas Vías metabólicas: reacciones elementales celulares que producen compuestos centrales para la sobrevivencia de la célula Con el metabolismo se describen los mecanismos de las células para extraer y convertir la energía de los compuestos químicos y para construir las moléculas necesarias para la síntesis y regulación de los ácidos nucleicos, proteínas, membranas, y polisacáridos El metabolismo es una red compleja de reacciones químicas dentro de los confines de la célula, y que puede ser analizado como conjuntos separados conocidos como vías metabólicas

Genomica Fundamentos de las Vías Metabólicas Reacciones químicas Balance energético y termodinámica La Integración celular (las células deben gastar mucha de su energía transportando substrato a través de las membranas biológicas) Mecanismos regulatorios de las vías. Las vías pueden ser activadas o desactivadas. Modulación de la actividad enzimática (proteica), y disponibilidad de la enzima (expresión genética, control de translación)

Genomica Vías Metabólicas Hay dos áreas principales en la bioquímica del metabolismo: Catabolismo: la degradación oxidativa de moléculas Anabolismo: la síntesis reductiva de moléculas Las vías, ya sean catabólicas o anabólicas, son interdependientes, controladas por las necesidades energéticas y las demandas estructurales del organismo La célula controla cuales vías están activas y por cuanto tiempo

Genomica Bases de datos de nucleótidos La bioinformática requiere encontrar e interpretar datos biológicos. De nuestro interés son las bases de datos para nucleótidos, proteínas y vías metabólicas Algunas bases de datos de nucleótidos incluyen: Genbank, NCBI LocusLink, TIGR, Ensembl Genbank es la base de datos principal de nucleótidos y mantiene un registro histórico (primario) de todos las secuencias de nucleótidos que se han introducido en el Se utiliza el Gene ID (e.g. X01714) para iniciar búsquedas en Genbank

Genomica Bases de datos de proteínas La principal base de datos de proteínas por la calidad de sus datos anotados es SWISS-PROT Se utiliza el Primary Accession Number para identificar una secuencia que se quiere encontrar (e.g. P32861) SWISS-PROT es un recurso de datos derivado (secundario) de la literatura y manualmente verificados TrEMBL es una base de datos automáticamente anotada

Genomica Bases de datos de Vías Metabólicas Algunas recursos sobre vías metabólicas incluyen: KEGG, BRENDA, IUBMB, ECOCYC KEGG (Kyoto Encyclopedia of Genes and Genomes) incluye una gran cantidad de vías metabólicas y es la mas importante a nivel mundial En KEGG típicamente se utiliza el numero de la enzima (E.C. para comenzar una búsqueda) BRENDA es un sistema de información enzimático IUBMB es el sitio oficial de la Unión de Bioquímica y Biología Molecular ECOCYC es la enciclopedia de genes y el metabolismo de E.Coli

Genomica Bases de datos de Vías Metabólicas: KEGG # [ LinkDB | KEGG ] # ENTRY EC # NAME Glucokinase # CLASS Transferases Transferring phosphorus-containing groups Phosphotransferases with an alcohol group as acceptor # SYSNAME ATP:D-glucose 6-phosphotransferase # REACTION ATP + D-Glucose = ADP + D-Glucose 6-phosphate # SUBSTRATE ATP D-Glucose # PRODUCT ADP D-Glucose 6-phosphate # COMMENT A group of enzymes found in invertebrates and microorganisms highly specific for glucose. <...>

Genomica Aplicaciones Para Comparar Secuencias BLAST (Basic Local Alignment Search Tool) es la principal aplicación para comparar secuencias Las principales versiones son BLASTP y TBLASTN BLASTP compara la secuencia de una proteína con una base de datos de proteínas TBLASTN comparar la secuencia de una proteína con una base de datos de nucleótidos

Genomica Usos de BLAST Para encontrar algo acerca de la función de mi proteína: usar BLASTP para comparar con otras proteínas en las bases de datos Para descubrir nuevos genes que codifican a alguna proteína (o enzima): usar TBLASTN para comparar la proteína con secuencias de ADN traducidas en todas sus posibles ORFs

Genomica Resultados de BLAST Sequence Accesion Number Description Bit score – estima el significado del alineamiento (mientras mayor mejor) E-value – estima el numero de veces que se pudiera encontrar un alineamiento tan bueno aleatoriamente (mientras menor mejor) Alineamientos (%identidad, largo)

Genomica Aplicaciones Para Comparar Secuencias Múltiples También es deseable muchas veces hacer alineamientos múltiples. Hay muchas herramientas para esto. Entre ellas: CLUSTALW, TCOFFEE Mas en el laboratorio!

Genomica Evolución Genética Todos los genes están relacionados (Zuckerkandl, Pauling 1960’s) Los genes a veces evolucionan independientemente del organismo (formulado por R. Dawkins 1976) Solamente unos pocos miles de familias de genes existen (C. Chothia, 1992, Nature 357)

Genomica Análisis Filogenético: Definiciones Genes Homólogos: Genes con un ancestro común Genes Ortólogos: Homólogos separados por especiacion en el cual un ancestro común genera dos subgrupos que lentamente se separan para convertirse en nuevas especies Genes Paralogs: Homólogos separados por un evento de duplicación. Una de las copias típicamente mantiene su función mientras que la otra tiene otra función pero relacionada Genes Xenologs: Xenologs ocurren por la transferencia horizontal de una especie a otra. No hay historia del nuevo gen en el genoma que fue insertado

Búsqueda de secuencias/proteínas homologas:

Genomica Análisis filogenético: Ortólog y Paralog A Duplicación A B Especiación A1 B1 A2 B2

Genomica Análisis filogenético: Globina y Myoglobina globin mouse Globin ancestor globin Ancestral globin gene duplication globin man Myoglobin Myoglobin mouse Myoglobin man

Genomica Análisis Filogenético: Algunas herramientas ClustalW: Herramienta de tipo caja negra para análisis filogenético Phylip: Método mas sofisticado que permite controlar los parámetros necesarios en la reconstrucción

Genomica: Marcos de Lectura Dada parte de una secuencia de ADN y conociendo el código genético es posible traducirlo a una proteína al mirar codones sucesivos en una secuencia genética Hay secuencias en la cual hay soporte bioquímico y otras que simplemente se derivan de la secuencia conceptual sin validación experimental En una secuencia arbitraria de ADN no se sabe si es que la primera base indica el comienzo de las CDS (Coding Sequences). Por eso se hace un traducción en seis marcos de lectura (six frames): Hay tres marcos hacia adelante, que se logran al traducir la primera, segunda y tercera base respectivamente Tres marcos adicionales se determinan al invertir la secuencia de ADN y hacer la traducción en las bases primera, segunda y tercera Solo uno de los marcos es correcto.

Genomica: Marcos de Lectura (cont) Cual es el marco correcto? Típicamente el marco mas largo interrumpido por un stop codon (TGA, TAA or TAG) Este marco se conoce como un ORF Típicamente el codon de inicio es ATG (methionine) pero methionine es también un codon común en el CDS La presencia de ATG no es un indicador absoluto de inicio del ORF Indicadores de regiones codificantes: Largo suficiente del ORF Reconocer secuencias especiales al inicio del CDS (e.g. Kozak sequences) Patrones estadísticos de uso de codones en regiones codificantes y no codificantes son diferentes (depende del organismo)

Genomica: Algoritmos Para poder utilizar y entender efectivamente los resultados de las búsquedas y alineamientos en las bases de datos tenemos que entender como es que se obtienen estos alineamientos son obtenidos Cuando se comparan secuencias es necesario obtener una indicación de cuan buenos son los posibles alineamientos Para eso se utiliza el concepto de score en el cual se introducen penalidades cuando las secuencias no están alineadas de la manera deseada En algunos casos encontrar el mejor alineamiento requiere la introducción de espacios (gaps) Métodos lograr scores de alineamientos incluyen: Dayhoff Mutation Data Matrix BLOSUM Matrices Resultados Estadísticos (e.g. BLAST E-value) Dotplot Needleman Wunsch Algorithm

SE ACABO?

Referencias Brown, T.A., Genomes, Wiley, 1999
Claverie, J.M., Bioinformatics for Dumies, Wiley, 2003 Perkus, J. K., Mathematics of Genome Analysis, 2002 Gibas, C., Developing Bioinformatics Computer Skills, 2001 Link antiguo:

Introducción a la Bioinformática I Tomás Arredondo Vidal 2010

Presentaciones similares

Presentación del tema: "Introducción a la Bioinformática I Tomás Arredondo Vidal 2010"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Introducción a la Bioinformática I Tomás Arredondo Vidal 2010

Presentaciones similares

Presentación del tema: "Introducción a la Bioinformática I Tomás Arredondo Vidal 2010"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback