Encuentra las 12 diferencias

Slides:



Advertisements
Presentaciones similares
Las bases moleculares de la herencia
Advertisements

EJERCICIOS DE REPASO DE GENÉTICA MOLECULAR
ACIDOS NUCLEICOS.
Replicación, Transcripción y Traducción.
Procesamiento de cadenas
PSI-BLAST.
BLAST.
Replicación 2ºBachillerato.
PRINCIPIOS DE MODELADO POR HOMOLOGÍA
CODIGO GENETICO SINTESIS PROTEICA.
Ms. A. Lic. Enrique Guillermo Zepeda López
PROGRAMACION DE ESTRUCTURAS DE DATOS
Alineamiento de Secuencias Biológicas
Programación dinámica (1)
Código genético.
El sistema de puntuación
O (m × n).
El genoma humano. El Proyecto Genoma Humano (PGH) fue un proyecto de investigación científica con el objetivo fundamental de determinar la secuencia de.
Es la rama de la Biología que trata de la herencia y de su variación
El descubrimiento de elementos reguladores en los vertebrados a través de comparación de genomas Por Pilar Gonzalez Gomez Alberto Lietor Santos.
La PD no es adecuada para buscar en BD
PROSPECCIÓN DE GENES CANDIDATOS PARA CARACTERES ASOCIADOS AL RENDIMIENTO EN TRIGO PAN Ramírez IA 1, AC Pontaroli 2 Introducción 1 FCA-UNMdP; 2 EEA Balcarce.
PRUEBAS DE LA EVOLUCIÓN
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
COGs Cluster of Orthologous Groups. Genes Ortólogos Comparten una gran similitud en secuencias. Pueden provenir de un ancestro común.
CÓDIGOS DE HUFFMAN. Códigos de Huffman Los códigos de Huffman, que representan caracteres por cadenas de bits de longitud variable, proporcionan alternativas.
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
2.1.1 Expresión de genes mutantes y silvestres
Unidad VII: Química de Nucleótidos
4/24/2015Mg. Q.F. Jéssica N. Bardales Valdivia1 Herramientas para las ciencias de la vida Biotecnology.
GENETICA MOLECULAR.
Para construir un árbol filogenético se necesitan tres ingredientes básicos:
Universidad de Panamá Escuela de Biología Departamento de genética Genética de Poblaciones Integrantes: Castellanos, Rebeca Robinson, Anine Robles, Jazmin.
Matrices de Substitución PAM Y BLOSUM
es el campo de la biología que estudia la estructura y la función de los genes a nivel molecular. La genética molecular emplea los métodos de la genética.
Capítulo 7 Gestión de memoria.
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Comparar secuencias = Obtener información
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Alineamiento de dos secuencias
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Análisis y Diseño de Algoritmos
Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional.
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Algoritmos para alineamientos locales: FastA
Matrices de sustitución
Las inserciones y deleciones se penalizan con un peso W Se construye una matriz H de n + 1 filas y m + 1 columnas. La secuencia de A se ubica en las filas.
Alineamiento local: búsqueda de homologías
BIOLOGIA COMPUTACIONAL
DEL ADN A LAS PROTEÍNAS Material genético en procariotas y eucariotas
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
SISTEMATICA - EVOLUCION
Metodología de la programación
Optimización Combinatoria y Grafos Búsqueda Tabú
7/22/2015copyright (your organization) Herramientas para las ciencias de la vida Biotecnology.
II.- LAS TECNOLOGÍAS DEL ADN RECOMBINANTE Y LA INGENIERÍA GENÉTICA
GENETICA MOLECULAR.
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Introducción a la Bioinformática
TEMA 4.7 mRNAs EUCARIÓTICOS.
Estructura de Los cromosomas Genes Alelos Mutaciones
Ácidos nucleicos y síntesis de proteínas ASPECTOS BÁSICOS
 Material genético en procariotas y eucariotas  Dogma Central de la Biología Molecular  Transcripción  Código genético  Traducción  Regulación de.
Las especies biológicas se clasifican de manera jerárquica La teoría de la evolución mostró que esta clasificación jerárquica cobra sentido a partir de.
Genética La genética (del término "Gen", que proviene de la palabra griega γένος y significa "raza, generación") es el campo de las ciencias biológicas.
Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.
Transcripción de la presentación:

Encuentra las 12 diferencias

La Bioinformática es una disciplina basada en el conocimiento

Secuencia → Estructura → Función Las secuencia del ADN determina la secuencia de una proteína. La secuencia de una proteína determina su estructura 3D. La estructura 3D de una proteína determina su función biológica. Por tanto, es muy probable que secuencias similares den lugar a proteínas con estructura y función parecidas. Secuencia → Estructura → Función

Alineamiento de secuencias El análisis de secuencias es una herramienta básica de la bioinformática que permite obtener información funcional, estructural y evolutiva en secuencias biológicas Para comparar secuencias es necesario hacer un alineamiento: se colocan una encima de la otra de modo que el número de símbolos conservados que ocupen una misma posición sea máximo El alineamiento de secuencias permite descubrir el grado de similitud que hay entre ellas para poder determinar si se trata de secuencias homólogas Similar sequence leads to similar structure Similar structure leads to similar function Alineamiento de secuencias

Un alineamiento múltiple de secuencias Se conservan las regiones que son importantes para mantener la estructura y/o función Un alineamiento múltiple de secuencias

Determinar la estructura 3D a partir de la secuencia El “santo grial” de la bioinformática

Alineamiento de secuencias Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número de símbolos coincidentes sea máximo. Si es necesario, se introducen huecos (gaps). * Un sistema de puntuación Alineamiento de secuencias

Las tres posibilidades: match, mismatch, gap En cada una de las posiciones de un alineamiento de secuencias se puede encontrar: Un símbolo idéntico (match) que se ha conservado a lo largo de la evolución Un símbolo distinto (mismatch) que ha sido sustituido (o que ha mutado) a lo largo de la evolución Un hueco (gap), que es el resultado de la desaparicón (deletion) de un símbolo en una secuencia o de la inserción (insertion) de un símbolo en la otra. Como ambos casos son indistinguibles, también se les llama indel. Las tres posibilidades: match, mismatch, gap

En función del número de secuencias que se comparan podemos distinguir: Alineamiento de dos secuencias Alineamiento múltiple de secuencias Tipos de alineamiento

Alineamiento de una secuencia consigo misma A veces es interesante comparar una secuencia consigo misma. En un dot-plot las características más sobresalientes de la secuencia se identifican fácilmente Alineamiento de una secuencia consigo misma

Posibles causas del parecido entre dos secuencias Idénticas Herencia genética Análogas Evolución convergente Comparación de dos secuencias Parecidas Homólogas Ancestro común En distintos organismos En un mismo organismo Ortólogas Xenólogas Parálogas Especiación Transferencia horizontal de genes Duplicación de un gen Conserva la función Adquiere nueva función Posibles causas del parecido entre dos secuencias

Suelen conservar la función Suelen adquirir nuevas funciones Diversos tipos de homología (1)

Diversos tipos de homología (2)

Diversos tipos de homología (2) Homólogas: secuencias similares de dos organismos distintos, que proceden de una misma secuencia ancestral. Ortólogas: secuencias similares de dos organismos distintos, que han aparecido durante un proceso de especiación. Conservan la misma función. Parálogas: secuencias similares de un mismo organismo, que han aparecido durante un proceso de duplicación génica. Pueden adquirir distinta función. Xenólogas: secuencias similares que han surgido como consecuencia de un proceso de transferencia horizontal de genes. (virus, simbiosis, etc.) Diversos tipos de homología (2)

HEAGAWGHEE PAWHEAE HEAGAWGHE-E HEAGAWGHE-E P-A--W-HEAE --P-AW-HEAE Dos secuencias siempre se pueden alinear y son muchos los posibles alineamientos. Para determinar cuál es el mejor, es necesario un sistema de puntuación. HEAGAWGHEE PAWHEAE Ejemplo: HEAGAWGHE-E P-A--W-HEAE HEAGAWGHE-E --P-AW-HEAE ¿Cuál es el mejor? El alineamiento que obtenga la puntuación más elevada se denomina alineamiento óptimo Alineamiento óptimo

Alineamiento óptimo (2) Si hay más de un alineamiento con la misma puntuación, será criterio del investigador decir cuál es el más probable. Alineamiento óptimo (2)

El sistemas de puntuación El sistema más sencillo consiste en otorgar una puntuación discreta a las coincidencias (match), otra a las diferencias (mismatch) y otra a los huecos (gaps). En muchos casos se utiliza una matriz de puntuación (scoring matrix) donde se tiene en cuenta que no todos los aa sustituyen a otro con la misma probabilidad (muchas de las sustituciones observadas son conservativas) Hay diversos criterios para puntuar los huecos. Se considera que en la evolución es más lógico que se introduzca un hueco de longitud n que n huecos de longitud 1. Por eso se otorga una penalización al introducir un hueco y otra (menor) por cada carácter añadido El sistemas de puntuación

Alineamiento global (longitud de la secuencia parecida) Alineamiento local (longitud de la secuencia parecida) Alineamiento semiglobal (longitud de las secuencias muy distinta Tipos de alineamiento

Un alineamiento global intenta alinear cada residuo de una secuencia con un residuo (o un indel) de la otra. Es especialmente adecuado cuando: Se comparan genes o proteínas con una misma función Las secuencias tienen aproximadamente la misma longitud Las secuencias están estrechamente relacionadas Los dominios conservados se encuentran en el mismo orden Un alineamiento global permite: establecer relaciones de homología entre las secuencias hacer un análisis filogenético de las secuencias Para hacer un alineamiento global se utiliza el algoritmo de Needleman y Wunsch Alineamiento global

En un alineamiento local, una o más regiones de una secuencia se alinean con una o más regiones de la otra. Es especialmente adecuado cuando: Se comparan secuencias muy divergentes (de igual o distinta longitud) No se conoce el orden de los dominios conservados Se compara ADNc (o EST) con el ADN genómico Un alineamiento local permite: detectar pequeñas regiones conservadas de similitud local (centros activos, dominios proteicos, exones) distinguir entre exones y intrones ensamblar contigs a partir de fragmentos más pequeños Para hacer un alineamiento local se utiliza el algoritmo de Smith y Waterman Alineamiento local

Alineamiento semiglobal Un alineamiento semiglobal se utiliza para alinear secuencias con una longitud muy distinta Es especialmente adecuado cuando: Se comparan secuencias de muy distinta longitud El final de una secuencia se solapa con el inicio de la otra Los dominios conservados se encuentran en el mismo orden Un alineamiento semiglobal permite: ensamblar contigs a partir de fragmentos más pequeños comparar ADNc (o EST) con el ADN genómico para establecer la estructura del gen Para hacer un alineamiento semiglobal se utiliza una variante del algoritmo de Smith y Watermina que no aplica penalizaciones ni al principio ni al final de la secuencia Alineamiento semiglobal

Ejemplo de alineamiento semiglobal

Alineamientos de secuencias de ácidos nucleicos En las bases de datos, los 4 nucleótidos aparecen con la misma frecuencia Todos los cambios posibles tienen una probabilidad similar Se basa fundamentalmente en la coincidencia directa entre los textos Método lento, porque las bases de datos de ácidos nucleicos contienen un número muy elevado de caracteres Es preferible “traducir” una secuencia de DNA a 6 proteínas (los 6 ORF) y alinear las secuencias de proteínas No queda más remedio que hacerlo si se trata de secuencias no codificantes Son menos sensibles que los alineamientos de proteínas ... Alineamientos de secuencias de ácidos nucleicos

Alineamientos de secuencias de proteínas 1.- Aportan más información (más de 4 bits por aa). 2.- Se obtienen resultados estadísticamente significativos con alineamientos más cortos 3.- El código genético es redundante, casi 1/3 de las bases no están sometidas a presión selectiva y generan ruido, lo que afecta a la sensibilidad de la búsqueda 4.- Las búsquedas en bases de datos de ácidos nucleicos son más lentas porque son mucho más grandes a causa de los proyectos genómicos y, además, contienen muchas secuencias no codificantes. 5.- A diferencia de los nucleótidos, las probabilidades de sustituir un aa por otro son muy distintas. Teniendo en cuenta este hecho se mejora enormemente la eficacia de la búsqueda. Alineamientos de secuencias de proteínas

Hay 23 nucleótidos idénticos de un total de 42 (Un 55% de similitud) Consideremos estas dos secuencias: AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA Hagamos un alineamiento sin huecos: Hay 23 nucleótidos idénticos de un total de 42 (Un 55% de similitud) Alineamientos de 2 secuencias de ácidos nucleicos

MELISAISALIVE A nivel de aminoácidos, las dos secuencias son idénticas Secuencias de ADN: AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA Traducción a proteínas: MELISAISALIVE A nivel de aminoácidos, las dos secuencias son idénticas Alineamientos de las proteínas codificadas

La complejidad no es mala

Existen diversos métodos para el alineamiento de dos secuencias: 1.- El algoritmo de fuerza bruta 2.- Matrices de puntos (dot-plot) 3.- El algoritmo de programación dinámica 4.- Métodos heurísticos (FASTA, BLAST) Estrategias para alinear dos secuencias

O (2n × 2m) A lo bestia: el algoritmo de fuerza bruta

El algoritmo de la “fuerza bruta” Trata de encontrar la secuencia común de mayor tamaño (LCS) entre dos secuencias X e Y de longitudes m y n, respectivamente. Se determinan todas las subsecuencias posibles de X (2m) y se comparan con todas las subsecuencias posibles de Y (2n) En total, hay que hacer 4(m+n) comparaciones Con gaps, hay que repetir los cálculos 2N veces para examinar la presencia de gaps en todas las posiciones posibles de las dos secuencias Según Waterman (1989) comparar dos secuencias de 300 aminoácidos requiere examinar 1088 posibilidades, casi el mismo número de partículas elementales que hay en el Universo. En la práctica, resulta imposible, tanto por el tiempo que se necesita como por los recursos de memoria que le harían falta al ordenador El algoritmo de la “fuerza bruta”