La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Encuentra las 12 diferencias

Presentaciones similares


Presentación del tema: "Encuentra las 12 diferencias"— Transcripción de la presentación:

1 Encuentra las 12 diferencias

2 La Bioinformática es una disciplina basada en el conocimiento

3 Secuencia → Estructura → Función
Las secuencia del ADN determina la secuencia de una proteína. La secuencia de una proteína determina su estructura 3D. La estructura 3D de una proteína determina su función biológica. Por tanto, es muy probable que secuencias similares den lugar a proteínas con estructura y función parecidas. Secuencia → Estructura → Función

4 Alineamiento de secuencias
El análisis de secuencias es una herramienta básica de la bioinformática que permite obtener información funcional, estructural y evolutiva en secuencias biológicas Para comparar secuencias es necesario hacer un alineamiento: se colocan una encima de la otra de modo que el número de símbolos conservados que ocupen una misma posición sea máximo El alineamiento de secuencias permite descubrir el grado de similitud que hay entre ellas para poder determinar si se trata de secuencias homólogas Similar sequence leads to similar structure Similar structure leads to similar function Alineamiento de secuencias

5 Un alineamiento múltiple de secuencias
Se conservan las regiones que son importantes para mantener la estructura y/o función Un alineamiento múltiple de secuencias

6 Determinar la estructura 3D a partir de la secuencia
El “santo grial” de la bioinformática

7 Alineamiento de secuencias
Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número de símbolos coincidentes sea máximo. Si es necesario, se introducen huecos (gaps). * Un sistema de puntuación Alineamiento de secuencias

8 Las tres posibilidades: match, mismatch, gap
En cada una de las posiciones de un alineamiento de secuencias se puede encontrar: Un símbolo idéntico (match) que se ha conservado a lo largo de la evolución Un símbolo distinto (mismatch) que ha sido sustituido (o que ha mutado) a lo largo de la evolución Un hueco (gap), que es el resultado de la desaparicón (deletion) de un símbolo en una secuencia o de la inserción (insertion) de un símbolo en la otra. Como ambos casos son indistinguibles, también se les llama indel. Las tres posibilidades: match, mismatch, gap

9 En función del número de secuencias que se comparan podemos distinguir:
Alineamiento de dos secuencias Alineamiento múltiple de secuencias Tipos de alineamiento

10 Alineamiento de una secuencia consigo misma
A veces es interesante comparar una secuencia consigo misma. En un dot-plot las características más sobresalientes de la secuencia se identifican fácilmente Alineamiento de una secuencia consigo misma

11 Posibles causas del parecido entre dos secuencias
Idénticas Herencia genética Análogas Evolución convergente Comparación de dos secuencias Parecidas Homólogas Ancestro común En distintos organismos En un mismo organismo Ortólogas Xenólogas Parálogas Especiación Transferencia horizontal de genes Duplicación de un gen Conserva la función Adquiere nueva función Posibles causas del parecido entre dos secuencias

12 Suelen conservar la función Suelen adquirir nuevas funciones
Diversos tipos de homología (1)

13 Diversos tipos de homología (2)

14 Diversos tipos de homología (2)
Homólogas: secuencias similares de dos organismos distintos, que proceden de una misma secuencia ancestral. Ortólogas: secuencias similares de dos organismos distintos, que han aparecido durante un proceso de especiación. Conservan la misma función. Parálogas: secuencias similares de un mismo organismo, que han aparecido durante un proceso de duplicación génica. Pueden adquirir distinta función. Xenólogas: secuencias similares que han surgido como consecuencia de un proceso de transferencia horizontal de genes. (virus, simbiosis, etc.) Diversos tipos de homología (2)

15 HEAGAWGHEE PAWHEAE HEAGAWGHE-E HEAGAWGHE-E P-A--W-HEAE --P-AW-HEAE
Dos secuencias siempre se pueden alinear y son muchos los posibles alineamientos. Para determinar cuál es el mejor, es necesario un sistema de puntuación. HEAGAWGHEE PAWHEAE Ejemplo: HEAGAWGHE-E P-A--W-HEAE HEAGAWGHE-E --P-AW-HEAE ¿Cuál es el mejor? El alineamiento que obtenga la puntuación más elevada se denomina alineamiento óptimo Alineamiento óptimo

16 Alineamiento óptimo (2)
Si hay más de un alineamiento con la misma puntuación, será criterio del investigador decir cuál es el más probable. Alineamiento óptimo (2)

17 El sistemas de puntuación
El sistema más sencillo consiste en otorgar una puntuación discreta a las coincidencias (match), otra a las diferencias (mismatch) y otra a los huecos (gaps). En muchos casos se utiliza una matriz de puntuación (scoring matrix) donde se tiene en cuenta que no todos los aa sustituyen a otro con la misma probabilidad (muchas de las sustituciones observadas son conservativas) Hay diversos criterios para puntuar los huecos. Se considera que en la evolución es más lógico que se introduzca un hueco de longitud n que n huecos de longitud 1. Por eso se otorga una penalización al introducir un hueco y otra (menor) por cada carácter añadido El sistemas de puntuación

18 Alineamiento global (longitud de la secuencia parecida)
Alineamiento local (longitud de la secuencia parecida) Alineamiento semiglobal (longitud de las secuencias muy distinta Tipos de alineamiento

19 Un alineamiento global intenta alinear cada residuo de una secuencia con un residuo (o un indel) de la otra. Es especialmente adecuado cuando: Se comparan genes o proteínas con una misma función Las secuencias tienen aproximadamente la misma longitud Las secuencias están estrechamente relacionadas Los dominios conservados se encuentran en el mismo orden Un alineamiento global permite: establecer relaciones de homología entre las secuencias hacer un análisis filogenético de las secuencias Para hacer un alineamiento global se utiliza el algoritmo de Needleman y Wunsch Alineamiento global

20 En un alineamiento local, una o más regiones de una secuencia se alinean con una o más regiones de la otra. Es especialmente adecuado cuando: Se comparan secuencias muy divergentes (de igual o distinta longitud) No se conoce el orden de los dominios conservados Se compara ADNc (o EST) con el ADN genómico Un alineamiento local permite: detectar pequeñas regiones conservadas de similitud local (centros activos, dominios proteicos, exones) distinguir entre exones y intrones ensamblar contigs a partir de fragmentos más pequeños Para hacer un alineamiento local se utiliza el algoritmo de Smith y Waterman Alineamiento local

21 Alineamiento semiglobal
Un alineamiento semiglobal se utiliza para alinear secuencias con una longitud muy distinta Es especialmente adecuado cuando: Se comparan secuencias de muy distinta longitud El final de una secuencia se solapa con el inicio de la otra Los dominios conservados se encuentran en el mismo orden Un alineamiento semiglobal permite: ensamblar contigs a partir de fragmentos más pequeños comparar ADNc (o EST) con el ADN genómico para establecer la estructura del gen Para hacer un alineamiento semiglobal se utiliza una variante del algoritmo de Smith y Watermina que no aplica penalizaciones ni al principio ni al final de la secuencia Alineamiento semiglobal

22 Ejemplo de alineamiento semiglobal

23 Alineamientos de secuencias de ácidos nucleicos
En las bases de datos, los 4 nucleótidos aparecen con la misma frecuencia Todos los cambios posibles tienen una probabilidad similar Se basa fundamentalmente en la coincidencia directa entre los textos Método lento, porque las bases de datos de ácidos nucleicos contienen un número muy elevado de caracteres Es preferible “traducir” una secuencia de DNA a 6 proteínas (los 6 ORF) y alinear las secuencias de proteínas No queda más remedio que hacerlo si se trata de secuencias no codificantes Son menos sensibles que los alineamientos de proteínas ... Alineamientos de secuencias de ácidos nucleicos

24 Alineamientos de secuencias de proteínas
1.- Aportan más información (más de 4 bits por aa). 2.- Se obtienen resultados estadísticamente significativos con alineamientos más cortos 3.- El código genético es redundante, casi 1/3 de las bases no están sometidas a presión selectiva y generan ruido, lo que afecta a la sensibilidad de la búsqueda 4.- Las búsquedas en bases de datos de ácidos nucleicos son más lentas porque son mucho más grandes a causa de los proyectos genómicos y, además, contienen muchas secuencias no codificantes. 5.- A diferencia de los nucleótidos, las probabilidades de sustituir un aa por otro son muy distintas. Teniendo en cuenta este hecho se mejora enormemente la eficacia de la búsqueda. Alineamientos de secuencias de proteínas

25 Hay 23 nucleótidos idénticos de un total de 42 (Un 55% de similitud)
Consideremos estas dos secuencias: AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA Hagamos un alineamiento sin huecos: Hay 23 nucleótidos idénticos de un total de 42 (Un 55% de similitud) Alineamientos de 2 secuencias de ácidos nucleicos

26 MELISAISALIVE A nivel de aminoácidos, las dos secuencias son idénticas
Secuencias de ADN: AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA Traducción a proteínas: MELISAISALIVE A nivel de aminoácidos, las dos secuencias son idénticas Alineamientos de las proteínas codificadas

27 La complejidad no es mala

28 Existen diversos métodos para el alineamiento de dos secuencias:
1.- El algoritmo de fuerza bruta 2.- Matrices de puntos (dot-plot) 3.- El algoritmo de programación dinámica 4.- Métodos heurísticos (FASTA, BLAST) Estrategias para alinear dos secuencias

29 O (2n × 2m) A lo bestia: el algoritmo de fuerza bruta

30 El algoritmo de la “fuerza bruta”
Trata de encontrar la secuencia común de mayor tamaño (LCS) entre dos secuencias X e Y de longitudes m y n, respectivamente. Se determinan todas las subsecuencias posibles de X (2m) y se comparan con todas las subsecuencias posibles de Y (2n) En total, hay que hacer 4(m+n) comparaciones Con gaps, hay que repetir los cálculos 2N veces para examinar la presencia de gaps en todas las posiciones posibles de las dos secuencias Según Waterman (1989) comparar dos secuencias de 300 aminoácidos requiere examinar 1088 posibilidades, casi el mismo número de partículas elementales que hay en el Universo. En la práctica, resulta imposible, tanto por el tiempo que se necesita como por los recursos de memoria que le harían falta al ordenador El algoritmo de la “fuerza bruta”


Descargar ppt "Encuentra las 12 diferencias"

Presentaciones similares


Anuncios Google