La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Alineamiento de secuencias Búsqueda de secuencias en bases de datos

Presentaciones similares


Presentación del tema: "Alineamiento de secuencias Búsqueda de secuencias en bases de datos"— Transcripción de la presentación:

1 Alineamiento de secuencias Búsqueda de secuencias en bases de datos
Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín 1 Fernán Agüero

2 Análisis comparativo El alineamiento de secuencias es similar a otros tipos de análisis comparativo. En ambos es necesario cuantificar las similitudes y diferencias (scoring) entre un grupo relacionado de entidades. Finches of the Galápagos Islands observed by Charles Darwin on the voyage of HMS Beagle 2 Fernán Agüero

3 Homología vs similitud
Homología entre dos entes biológicos implica una herencia compartida Homología es un término cualitativo Se es homólogo o no se es Similitud implica una apreciación cuantitativa o una cuantificación directa de algún caracter Podemos usar una medida de similitud para inferir homología 3 Fernán Agüero

4 GATCATCA GATTGATCA GAT_ACCA
Análisis comparativo Los algoritmos que alinean secuencias modelan procesos evolutivos GATTACCA GATGACCA GATTACCA GATTACCA GATTATCA GATCATCA sustitución inserción GATTGATCA deleción GAT_ACCA Deriva de un ancestro común a través de cambios incrementales debido a errores en la replicación del DNA, mutaciones, daño o crossing-over desigual. 4 Fernán Agüero

5 Análisis comparativo GATTACCA GATGACCA GATTACCA GATTACCA GATTACCA
Algoritmos de alineamiento modelan procesos evolutivos GATTACCA GATGACCA GATTACCA GATTACCA GATTACCA GATTATCA GATTACCA Deriva a partir de un ancestro común a través de cambio incremental. GATCATCA GATCATCA GATTGATCA GATTGATCA GATACCA GATACCA Sólo las secuencias actuales son conocidas, las secuencias ancestrales se postulan. 5 Fernán Agüero

6 Análisis comparativo GATTACCA GATGACCA GATTACCA GATTACCA GATTATCA
Algoritmos de alineamiento modelan procesos evolutivos GATGACCA GATTACCA GATTACCA GATTATCA GATTACCA Deriva a partir de un ancestro común a través de cambio incremental. Mutaciones que no matan al individuo pueden pasar a la población. GATCATCA GATTGATCA GATACCA La palabra homología implica una herencia común (un ancestro común), el cual puede ser inferido a partir de observaciones de similitud de secuencia. 6 Fernán Agüero

7 Cómo alineamos dos secuencias?
Alineamientos Qué es un alineamiento? El procedimiento de comparación de dos (o más) secuencias que busca una serie de caracteres individuales o patrones de caracteres que se encuentren en el mismo orden en ambas secuencias Cómo alineamos dos secuencias? a mano (como en los viejos tiempos) usando un método/algoritmo 7 Fernán Agüero

8 Definición de alineamiento: tipos
Cada base se usa a lo sumo una vez Alineamiento global: Todas las bases se alinean con otra base o con un gap (“-”) Alineamientos locales: No hay necesidad de alinear todas las bases Align BILLGATESLIKESCHEESE and GRATEDCHEESE G-ATESLIKESCHEESE or G-ATES & CHEESE GRATED-----CHEESE GRATED & CHEESE 8 Fernán Agüero

9 Alineamientos buenos y malos?
Cuál es el ‘mejor’ alineamiento? GCTACTAG-T-T--CGC-T-TAGC GCTACTAGCTCTAGCGCGTATAGC 0 mismatches, 5 gaps GCTACTAGTT------CGCTTAGC GCTACTAGCTCTAGCGCGTATAGC 3 mismatches, 1 gap 9 Fernán Agüero

10 Cómo decidir cuál es el mejor?
Respuesta: el más significativo desde el punto de vista biológico Pero: necesitamos una medida objetiva sistemas de puntaje (scoring) reglas para asignar puntos el más simple: match, mismatch, gap 10 Fernán Agüero

11 Un primer ejemplo de scores
Ejemplo de sistema de score match = +1 mismatch = 0 gap = -1 G-ATESLIKESCHEESE GRATED-----CHEESE Usando otro sistema de score Score (10 * 2) + (1 * 0) + (5 * (-1)) = +15 Score (10 * 1) + (1 * 0) + (5 * (-1)) = +5 11 Fernán Agüero

12 No se pueden comparar scores
Primera conclusión importante: no tiene sentido comparar scores de distintos alineamientos a menos que se especifique el sistema de scoring utilizado 12 Fernán Agüero

13 gap extension penalty = -1
Gap penalties gap opening penalty = -5 gap extension penalty = -1 1- Abrir un gap es costoso GCTACTAG-T-T--CGC-T-TAGC GCTACTAGCTCTAGCGCGTATAGC Penalty = 5 * (-5) + 6 * (-1) = -31 2 - Extender un gap es menos costoso GCTACTAGTT------CGCTTAGC GCTACTAGCTCTAGCGCGTATAGC Penalty = 1 * (-5) + 6 * (-1) = -11 13 Fernán Agüero

14 Dot plots: introducción
Dot-plot: Fitch, Biochem. Genet. (1969) 3, A C G T C G T A C C G T 1 Eje horizontal: secuencia 1 Eje vertical: secuencia 2 14 Fernán Agüero

15 Módulos en orden reverso
Similitud local Dominios mezclados confunden a los algoritmos de alineamiento. Módulos en el factor XII de coagulación y en el activador de plasminógneos – tissue plasminogen activator (PLAT) FXII F2 E F1 K Catalytic Módulos en orden reverso Módulos repetidos PLAT F1 E K Catalytic F1,F2 Fibronectin repeats E EGF similarity domain K Kringle domain Catalytic Serine protease activitiy 15 Fernán Agüero

16 Dot plots: ejemplo Coagulation Factor XII (F12) K Catalytic E F1 F2
Tissue Plasminogen Activator (PLAT) 16 Fernán Agüero

17 Dot plots: ejemplo (cont.)
Dominios repetidos muestran un patrón característico. Coagulation Factor XII (F12) F1 E K K Tissue Plasminogen Activator (PLAT) Catalytic F2 E F1 E K Catalytic 17 Fernán Agüero

18 Dot plots: path graphs Dot plots sugieren caminos (paths) a través del espacio de alineamientos posibles. Dominios EGF conservados en la urokinse plasminogen activator (PLAU) y el tissue plasminogen activator (PLAT) 90 137 90 137 72 23 23 Path graphs son representaciones más explícitas de un alineamiento. Cada path es un alineamiento único. 72 PLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMP--SGPH-CLCPQHLTGNHCQKEK---CFE 137 PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72 18 Fernán Agüero

19 Path graphs: encontrar el mejor camino
Los problemas que involucran encontrar la mejor ruta o camino (Best-path problems) son comunes en computación científica. Rutear una llamada telefónica desde NY a San Francisco El algoritmo para encontrar el mejor camino entre dos extremos y pasando por varios puntos se llama ‘dynamic programming’ 19 Fernán Agüero

20 Dynamic programming: introducción
Un ejemplo: G A T A C T A G A T T A C C A Construir un alineamiento óptimo entre estas dos secuencias Match: Mismatch: Gap: +1 -1 Utilizando las siguientes reglas de scoring: 20 Fernán Agüero

21 Dynamic programming: ejemplo
Ordenar las dos secuencias en una matriz bidimensional G A T A C T A G A T T Los vértices de cada celda se encuentran entre letras (bases). Needleman & Wunsch (1970) A C C A 21 Fernán Agüero

22 Dynamic programming: ejemplo (cont.)
El objetivo es encontrar la ruta (path) óptimo G A T A C T A G A Desde aquí T T A C Hasta acá C A 22 Fernán Agüero

23 Dynamic programming: paths posibles
Cada path corresponde a un alineamiento único G A T A C T A G A T T A C C A Cuál es el óptimo? 23 Fernán Agüero

24 Dynamic programming: scores: match
El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados). G A T A C T A G A alineada con A A Match = +1 T T A C C A 24 Fernán Agüero

25 Dynamic programming: scores: mismatch
El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados). G A T A C T A G A A alineada con T T Mismatch = -1 T A C C A 25 Fernán Agüero

26 Dynamic programming: scores: gaps
El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados). G A T A C T A G T alineada con NADA A Gap = -1 T T T alineada con NADA A C C A 26 Fernán Agüero

27 Dynamic programming: paso a paso (1)
Extender el path paso por paso G A T A C T A -1 G G G G -1 +1 A T T +1 -1 -1 A C C A 27 Fernán Agüero

28 Dynamic programming: paso a paso (2)
Incrementar el path paso a paso G A T A C T A -1 -2 G -1 +1 -2 A T Recordar el mejor subpath que lleva a cada punto en la matriz. T A C C A 28 Fernán Agüero

29 G A T A C T A G A T T A C C A Dynamic programming: paso a paso (3)
Incrementar el path paso a paso G A T A C T A -1 -2 G -1 +1 -2 A +2 T Recordar el mejor subpath que lleva a cada punto en la matriz. T A C C A 29 Fernán Agüero

30 G A T A C T A G A T T A C C A Dynamic programming: paso a paso (4)
Incrementar el path paso a paso G A T A C T A -1 -2 G -1 +1 -2 A -2 +2 T Recordar el mejor subpath que lleva a cada punto en la matriz. T A C C A 30 Fernán Agüero

31 G A T A C T A G A T T A C C A Dynamic programming: paso a paso (5)
Incrementar el path paso a paso G A T A C T A -1 -2 -3 G -1 +1 -2 -1 A -2 +2 +1 T -3 -1 +1 +3 Recordar el mejor subpath que lleva a cada punto en la matriz. T A C C A 31 Fernán Agüero

32 G A T A C T A G A T T A C C A Dynamic programming: paso a paso (6)
Incrementar el path paso a paso G A T A C T A -1 -2 -3 -4 -5 G -1 +1 -1 -2 -3 A -2 +2 +1 -1 T -3 -1 +1 +3 +2 +1 Recordar el mejor subpath que lleva a cada punto en la matriz. T -4 -2 +2 +2 +1 A -5 -3 -1 +1 +3 +2 C C A 32 Fernán Agüero

33 G A T A C T A G A T T A C C A Dynamic programming: paso a paso (7)
Incrementar el path paso a paso G A T A C T A +1 -1 -2 +2 -4 -3 +3 -8 -7 -6 -5 +4 G A T Recordar el mejor subpath que lleva a cada punto en la matriz. T A C C A 33 Fernán Agüero

34 Dynamic programming: best path
Recorrer el camino de atrás hacia adelante para obtener el mejor path y alineamiento. G A T A C T A +1 -1 -2 +2 -4 -3 +3 -8 -7 -6 -5 +4 G A T T A C C A 34 Fernán Agüero

35 Dynamic programming: alineamiento obtenido
Imprimir el alineamiento A A - T C G T T A C C A 35 Fernán Agüero

36 Dynamic programming: Smith-Waterman
El método fue modificado (Smith-Waterman) para obtener alineamientos locales El método garantiza la obtención de un alineamiento óptimo (cuyo score no puede ser mejorado) La complejidad es proporcional al producto de las longitudes de las secuencias a alinear 36 Fernán Agüero

37 Similitud global y local
El algoritmo de programación dinámica puede ser implementado para alineamientos locales o globales. Optimal global alignment Optimal local alignment Smith & Waterman (1981) Las secuencias se alinean en regiones pequeñas y aisladas Needleman & Wunsch (1970) Las secuencias se alinean esencialmente de un extremo a otro 37 Fernán Agüero

38 Global y local Un algoritmo de alineamiento local, siempre produce alineamientos locales? Un algoritmo de alineamiento global siempre produce alineamientos globales? NO dependiendo del sistema de scoring (scores para match/mismatch/gaps) SW puede producir alineamientos globales dependiendo la penalidad asignada a los gaps en los extremos de un alineamiento global (o alterando significativamente el sistema de scoring) NW puede producir alineamientos locales 38 Fernán Agüero

39 Un sistema de scoring simple, penaliza por igual cualquier mismatch
Matrices Un sistema de scoring simple, penaliza por igual cualquier mismatch Biológicamente tiene sentido penalizar ciertos cambios y ser más permisivo con otros En proteínas: residuos hidrofóbicos reemplazados entre sí. En DNA: transversiones vs transiciones Una matriz no es otra cosa que un sistema de scoring que permite asignar puntajes individuales a cada una de las letras del alfabeto en uso. 39 Fernán Agüero

40 Matrices Un ejemplo de matriz de scoring podría ser el clásico ejemplo de penalizar más los cambios que alteran las propiedades químicas de un residuo (aa) hidrofóbicos: Ile, Val, Leu, Ala Polares (+): Lys, Arg Polares (-): Glu, Asp Aromáticos: Phe, Tyr, Trp etc. Ile x Val = -1 Ile x Asp = -5 Phe x Tyr = -1 Phe x Gly = -8 40 Fernán Agüero

41 Matrices derivadas por observación
PAM (Dayhoff, 1978) proveen estimaciones de plausibilidad de cambio de un aminoácido en otro en proteínas homólogas derivadas a partir de un grupo de secuencias > 85% similares los cambios de aminoácidos observados son llamados “accepted mutations” Se extrapolan matrices a períodos evolutivos más largos 41 Fernán Agüero

42 Matrices derivadas por observación
BLOSUM (Henikoff) Blocks Amino Acid Substitution Matrices Sustituciones de amino ácidos observadas en un conjunto grande de ‘blocks’ Representan más de 500 familias de proteínas Se agrupan los blocks de acuerdo a su identidad y se generan matrices blocks 80% idénticos -> BLOSUM80 Blocks 60% idénticos -> BLOSUM60 etc 42 Fernán Agüero

43 Sistemas de scoring: BLOSUM62
Algunas sustituciones son más comunes que otras BLOSUM62 A 4 R -1 5 N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V Los scores provienen del la observación de los tipos y frecuencias de sustitución en distintas familias proteicas 43 Fernán Agüero

44 Sistemas de scoring: BLOSUM62: identidades
Las identidades tienen scores positivos, pero algunas son más valoradas que otras. BLOSUM62 A 4 R -1 5 N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V 44 Fernán Agüero

45 Sistemas de scoring: BLOSUM62: sustituciones
Algunas sustituciones tienen scores positivos, pero la mayoría son negativos. BLOSUM62 A 4 R -1 5 N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V 45 Fernán Agüero

46 Más matrices PAM BLOSUM Otras
Comparación simple de propiedades químicas de amino ácidos Análisis complejos de sustituciones en estructura secundaria de proteínas, a partir de alineamientos estructurales Gonnet (1994). Sustitución de dipéptidos Jones (1994) matriz específica de proteínas transmembrana Algunas de estas matrices sirven para alinear proteínas en base a características estructurales y pueden no ser útiles para análisis evolutivos! 46 Fernán Agüero

47 Y ahora? Tenemos un método (algoritmo) que nos garantiza un alineamiento óptimo entre dos secuencias Tenemos un sistema de scoring complejo que refleja mejor nuestras ideas biológicas acerca de lo que es un alineamiento 47 Fernán Agüero

48 Usemos la fuerza bruta Tenemos una base de datos con secuencias
Tenemos una secuencia ‘query’ en la que estamos interesados Podemos encontrar secuencias similares al query en la base de datos? Tomar una por una las secuencias de la base de datos Calcular un alineamiento y su score Elegir los mejores alineamientos en base al score Finalmente usar nuestro criterio y evaluar si la/s secuencia/s encotradas son lo suficientemente similares 48 Fernán Agüero

49 Evaluando alineamientos
Qué hacemos cuando estamos comparando dos secuencias que no son claramente similares, pero que muestran un alineamiento prometedor? Necesitamos un test de significancia Tenemos que responder a la pregunta: Cuál es la probabilidad de que un alineamiento similar (con un score similar) ocurra entre proteínas no relacionadas? 49 Fernán Agüero

50 Estadística de los alineamientos
Generar secuencias al azar de la misma longitud y composición que la secuencia query y alinearlas Karlin & Altschul (1990); Altschul et al (1994); Altschul & Gish (1996) Analizar la distribución de scores que se obtiene 50 Fernán Agüero

51 The Gumbel Extreme value distribution
Los valores de score obtenidos no se distribuyen en forma normal E = K mn e -S Número de alineamientos con un score >= S que espero por azar m,n: longitud de las secuencias K,: parámetros estimados a partir de la matriz de scoring y del tamaño de la muestra 51 Fernán Agüero

52 Observed vs expected Si la base de datos es suficientemente grande y contiene mayoritariamente secuencias no relacionadas la distribución de scores observados debería coincidir bastante con la distribución de scores esperados por azar (Pearson 1998) 52 Fernán Agüero

53 Tamaño de la base de datos
E(S > x) = p(S > x) D El número de alineamientos con un score > S se incrementa linealmente con el tamaño de la base de datos  una secuencia (un alineamiento con un score S) encontrada en una búsqueda contra un genoma bacteriano con secuencias va a ser veces más significativa que un alineamiento con exactamente el mismo score en una base de datos como OWL (250,000 secuencias) Sin embargo, vimos que la base de datos tiene que ser suficientemente grande como para poder estimar P y E  Compromiso 53 Fernán Agüero

54 Tamaño de la base de datos: un ejemplo
Objetivo: encontrar el homólogo en E. coli de la DAHP synthase de B. subtilis E. coli proteome kdsA, E(4283) < Swissprot kdsA, E(74417) < OWL kdsA, E(260784) < El mismo alineamiento, con el mismo score es 50 veces más significativo en la base de datos más chica. 54 Fernán Agüero

55 Identificar homólogos con eficiencia
Buscar en bases de datos pequeñas primero Repetir la búsqueda en una base de datos pequeña con un algoritmo más sensible (fasta3 con ktup 1 o ssearch) Si no hay hits significativos, buscar bases de datos más grandes, como nr (GenPept, TrEMBL) 55 Fernán Agüero

56 Límites de la estadística
En ciertos casos, la estadística de los alineamientos falla Lo que falla son las suposiciones que hicimos para llegar al modelo estadístico que describe - en este caso - la distribución de scores entre secuencias no relacionadas En general se obtienen estimaciones incorrectas de E cuando Se usan penalidades de gap incorrectas Existen regiones de baja complejidad en la secuencia query 56 Fernán Agüero

57 Evaluando la estadística
Mirar el histograma de scores esperados y observados Mirar el E de la secuencia no relacionada con mayor score 57 Fernán Agüero

58 Evaluando la estadística (cont)
Si los histogramas Obs vs Exp coinciden Y si el E del mejor alineamiento no relacionado es ~1 La estimaciones estadísticas están funcionando bien 58 Fernán Agüero

59 Buscando homólogos en los límites
Secuencias homólogas distantes a menudo no tienen similitud estadísticamente significativa Secuencias con regiones de baja complejidad pueden tener similitud estadísticamente significativas, aunque no sean homólogas Secuencias homólogas generalmente son similares sobre toda la longitud de la secuencia o de un dominio Secuencias homólogas comparten un ancestro común Si hay homología entre A y B; entre B y C; y entre C y D, A y D deben ser homólogos, aun cuando no muestren similitud estadísticamente significativa 59 Fernán Agüero

60 Búsquedas en bases de datos
Compara una secuencia (query) contra una base de datos de secuencias > fasta myquery swissprot -ktup 2 Programa query Base de datos Parámetros opcionales Una búsqueda típica tiene 4 elementos básicos. 60 Fernán Agüero

61 Búsqueda en bases de datos
Con el crecimiento exponencial de las bases de datos las búsquedas son cada vez más lentas … > fasta myquery swissprot -ktup 2 searching . . . . . . 61 Fernán Agüero

62 Database searching > fasta myquery swissprot -ktup 2
La lista de hits provee los ‘títulos’ y scores de las secuencias que fueron seleccionadas por la secuencia ‘query’. > fasta myquery swissprot -ktup 2 The best scores are: initn init1 opt z-sc E(77110) gi| |sp|P49789|FHIT_HUMAN BIS(5'-ADENOSYL) gi| |sp|P49776|APH1_SCHPO BIS(5'-NUCLEOSYL) e-21 gi| |sp|P49775|HNT2_YEAST HIT FAMILY PROTEI e-16 gi| |sp|Q58276|Y866_METJA HYPOTHETICAL HIT e-07 gi| |sp|Q11066|YHIT_MYCTU HYPOTHETICAL e-07 gi| |sp|O07513|HIT_BACSU HIT PROTEIN e-06 gi| |sp|Q04344|HNT1_YEAST HIT FAMILY PROTEI e-05 gi| |sp|P75504|YHIT_MYCPN HYPOTHETICAL gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL gi| |sp|P94252|YHIT_BORBU HYPOTHETICAL gi| |sp|P47378|YHIT_MYCGE HYPOTHETICAL HIT gi|418446|sp|P32083|YHIT_MYCHR HYPOTHETICAL gi| |sp|P49773|IPK1_HUMAN HINT PROTEIN (PRO gi| |sp|P70349|IPK1_MOUSE HINT PROTEIN (PRO gi| |sp|P49774|YHIT_MYCLE HYPOTHETICAL HIT gi| |sp|P16436|IPK1_BOVIN HINT PROTEIN (PRO gi| |sp|P80912|IPK1_RABIT HINT PROTEIN (PRO gi| |sp|P42856|ZB14_MAIZE 14 KD ZINC-BINDIN gi| |sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN gi| |sp|P31764|GAL7_HAEIN GALACTOSE-1-PHOSP gi|113999|sp|P16550|APA1_YEAST 5',5'''-P-1,P-4-TE gi| |sp|P49348|APA2_KLULA 5',5'''-P-1,P-4-T gi|123331|sp|P23228|HMCS_CHICK HYDROXYMETHYLGLUTA gi| |sp|P06994|MDH_ECOLI MALATE DEHYDROGENA gi| |sp|Q10798|DXR_MYCTU 1-DEOXY-D-XYLULOSE gi|124341|sp|P05113|IL5_HUMAN INTERLEUKIN-5 PRECU gi| |sp|P46685|IL5_CERTO INTERLEUKIN-5 PREC gi|121369|sp|P15124|GLNA_METCA GLUTAMINE SYNTHETA gi| |sp|P33937|NAPA_ECOLI PERIPLASMIC NITRA gi|119377|sp|P10403|ENV1_DROME RETROVIRUS-RELATED gi| |sp|P48415|SC16_YEAST MULTIDOMAIN VESIC gi| |sp|O67501|IPYR_AQUAE INORGANIC PYROPHO 62 Fernán Agüero

63 E-value Los hits pueden ser ordenados de acuerdo a su E-value o a su Score. El E-value – más conocido como EXPECT value – es una función del score, el tamaño de la base de datos y de la longitud de la secuencia ‘query’. E-value: Número de alineamientos con un score >=S que se espera encontrar si la base de datos es una colección de letras al azar. Ejemplo: En el caso de un score=1 (un match o identidad) debería haber un número enorme de alineamientos. Uno espera encontrar menos alineamientos con un score de 5, 10, etc. Eventualmente, cuando el score es lo suficientemente alto, uno espera encontrar un número insignificante de alineamientos que sean debidos al azar. Valores de E-value menores que 1e-6 (1* 10-6) son generalmente muy buenos para proteínas, mientras que E<1e-2 puede considerarse significativo. Es posible que un hit cuyo E > 1 sea biológicamente importante, aunque es necesario analizarlo más detalladamente para confirmarlo. 63 Fernán Agüero

64 Búsquedas en bases de datos
El detalle de los alineamientos se muestra más abajo > fasta myquery swissprot -ktup 2 >>gi| |sp|P49776|APH1_SCHPO BIS(5'-NUCLEOSYL)-TETR (182 aa) initn: init1: opt: 395 z-score: E(): 1.4e-21 Smith-Waterman score: 395; % identity in 109 aa overlap gi|170 MSFRFGQHLIKPSVVFLKTELSFALVNRKPVVPGHVLVCPLRPVERFHDLRPDEVADLF : X: .:.:: :.:: ::..:::::: : : : :..:: :.:..::: gi|170 MPKQLYFSKFPVGSQVFYRTKLSAAFVNLKPILPGHVLVIPQRAVPRLKDLTPSELTDLF gi|170 QTTQRVGTVVEKHFHGTSLTFSMQDGPEAGQTVKHVHVHVLPRKAGDFHRNDSIYEELQK ....: :.:: : ::: .::::: :::::..::: .:: .:: .: :X.: gi|170 TSVRKVQQVIEKVFSASASNIGIQDGVDAGQTVPHVHVHIIPRKKADFSENDLVYSELEK gi|170 HDKEDFPASWRSEEEMAAEAAALRVYFQ .. gi|170 NEGNLASLYLTGNERYAGDERPPTSMRQAIPKDEDRKPRTLEEMEKEAQWLKGYFSEEQE >>gi| |sp|P49775|HNT2_YEAST HIT FAMILY PROTEIN 2 (217 aa) initn: init1: opt: 316 z-score: E(): 5.4e-16 Smith-Waterman score: 316; % identity in 131 aa overlap gi| MSFRFGQHLIKPSVVFLKTELSFALVNRKPVVPGHVLVCPLRP-VER :.. :. .v^: :.. ..:::: ::.::::::. ::X : 64 Fernán Agüero

65 Búsquedas en bases de datos: hashing methods
La búsqueda más simple es un gran ejemplo de dynamic programming. Para una secuencia query de N letras, contra una base de datos de M letras, se requieren MxN comparaciones. Query sequence Database sequence 65 Fernán Agüero

66 Todas las palabras posibles de longitud ktup
Hashing methods Hashing es un método común para acelerar búsquedas en bases de datos. MLIIKRDELVISWASHERE query sequence MLI LII Compilar un “diccionario” de palabras a partir de la secuencia ‘query’. Armar un índice con todas las palabras. IIK IKR Todas las palabras posibles de longitud ktup ktup = 3 KRD RDE DEL ELV LVI VIS ISW SWA WAS ASH SHE HER ERE 66 Fernán Agüero

67 Consulta del hash (índice)
Cada palabra tiene asignado un identificador (número entero) único. (Ejemplo para una palabra de 3 letras formada por un alfabeto de 20 letras posibles.) Asignar un código para cada letra: Código(L)= 0 a 19 Para una palabra de 3 letras L1, L2, L3: identificador = Código(L1)*202 + Código(L2)*201 + Código(L3) 3. Armar una lista con las posiciones de cada palabra asociadas al valor (código) que tiene esa palabra. AAA AAB MLI MLJ 1 2 3 1 Position in query sequence of word 67 Fernán Agüero

68 all overlapping words of size 3
Hashing methods Construir el diccionario de palabras para la secuencia ‘query’ requiere N-2 operaciones. MLIIKRDELVISWASHERE query sequence MLI LII IIK IKR all overlapping words of size 3 KRD RDE DEL ELV La base de datos contiene M-2 palabras y se requiere una sola operación para buscar ... LVI VIS ISW SWA WAS ASH SHE HER ERE 68 Fernán Agüero

69 Hashing methods Scan the database, looking up words in the dictionary
Query sequence Use word hits to determine were to search for alignments fills the dynamic programming matrix in (N-2)+(M-2) operations instead of MxN. Database sequence 69 Fernán Agüero

70 FASTA searches in a band
Hashing methods Scan the database, looking up words in the dictionary Query sequence Use word hits to determine were to search for alignments Database sequence FASTA searches in a band 70 Fernán Agüero

71 BLAST extends from word hits
Hashing methods Scan the database, looking up words in the dictionary Query sequence Use word hits to determine were to search for alignments Database sequence BLAST extends from word hits 71 Fernán Agüero

72 BLAST: varios HSPs HSP X X Cumulative Score S T
Intenta extender el HSP, siempre que la caída del score sea menos que X (bits). Si lo logra, se repite con el próximo pico. S T 72 Fernán Agüero

73 BLAST: algoritmos 73 Fernán Agüero

74 FASTA: algoritmos FASTA fastx, fasty Ssearch Prss Tfastx, tfasty
protein-protein, DNA-DNA fastx, fasty translated query, protein database Permite frameshifts sólo entre codones (fastx) o dentro de un codón (fasty) Ssearch Una implementación rigurosa del algoritmo de Smith-Waterman (sin heurísticas) Prss Evalua el significado de un alineamiento por permutación de una secuencia Tfastx, tfasty Protein sequence vs DNA database 74 Fernán Agüero

75 Bioinformatics. Sequence and Genome analysis.
Referencias Bioinformatics. Sequence and Genome analysis. David W Mount, CSHL Press (2001) Hugues Sicotte (NCBI) (slides DP) 75 Fernán Agüero

76 Alineamiento múltiple de secuencias
Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín 76 Fernán Agüero

77 Multiple alignment FHIT_HUMAN MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV... APH1_SCHPO MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV... HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVT-EQVFY KSKYTYALVNLKPIV PGHVLI... Y866_METJA MCIF CKIINGEIP-AKVVY EDEHVLAFLDINPRN KGHTLV... FHIT_HUMAN MSFRFGQHLIKPSVVFLKTELSFALVNRKPVVPGHVLV... APH1_SCHPO MPKQLYFSKFPVGSQVFYRTKLSAAFVNLKPILPGHVLV... HNT2_YEAST MILSKTKKPKSMNKPIYFSKFLVTEQVFYKSKYTYALVNLKPIV PGHVLI... Y866_METJA MCIFCKIINGEIPAKVVYEDEHVLAFLDINPRNKGHTLV... Un método de alineamiento múltiple verdadero, alinea todas las secuencias al mismo tiempo. 77 Fernán Agüero

78 Multiple alignment FHIT_HUMAN MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV... APH1_SCHPO MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV... HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVT-EQVFY KSKYTYALVNLKPIV PGHVLI... Y866_METJA MCIF CKIINGEIP-AKVVY EDEHVLAFLDINPRN KGHTLV... Un método de alineamiento múltiple verdadero, alinea todas las secuencias al mismo tiempo. Pero no existe un método computacional que pueda realizar esto en tiempo razonable para más de 3 secuencias cortas 78 Fernán Agüero

79 True multiple alignment
Cómo se resuelve un alineamiento múltiple de 3 secuencias? Usando dynamic programming en una matriz tridimensional El problema es el mismo: encontrar el camino óptimo en el espacio 79 Fernán Agüero

80 Complejidad del algoritmo DP
El número de comparaciones que DP tiene que hacer para llenar la matriz (sin usar heurísticas y excluyendo gaps) es el producto de las longitudes de las dos secuencias La complejidad del algoritmo crece en forma exponencial con el número de secuencias Alinear dos secuencias de longitud 300 implica realizar 90,000 comparaciones Alinear tres secuencias de longitud 300 implica realizar 27,000,000 comparaciones 80 Fernán Agüero

81 MSA: global optimal MSAs
MSA (Lipman et al. 1989) Multidimensional dynamic programming Usa heurísticas para reducir el espacio de búsqueda Varios programas: msa_50_150 - Alinea no más de 50 secuencias. (c/u < 150 residuos) msa_25_500 - Alinea no más de 25 secuencias (c/u < 500 residuos) msa_10_ Alinea no más de 10 secuencias (c/u < 1000 residuos) 81 Fernán Agüero

82 MSA: progressive multiple alignments
Alinear todas las secuencias de a pares Usar los scores para construir un árbol filogenético Alinear secuencialmente (siguiendo el orden que sugiere el árbol) las secuencias para producir un MSA No es un verdadero MSA Las secuencias siempre se alinean de a pares 82 Fernán Agüero

83 MSA: progressive multiple alignments
Align all pairs of sequences. APH1_SCHPO HNT2_YEAST Y866_METJA FHIT_HUMAN Pairwise alignments: compute distance matrix FHIT_HUMAN APH1_SCHPO HNT2_YEAST Y866_METJA FHIT_HUMAN APH1_SCHPO 395 HNT2_YEAST Y866_METJA 83 Fernán Agüero

84 Progressive multiple alignments
FHIT_HUMAN Guide Tree APH1_SCHPO HNT2_YEAST Y866_METJA Pairwise alignments: compute distance matrix FHIT_HUMAN APH1_SCHPO HNT2_YEAST Y866_METJA FHIT_HUMAN APH1_SCHPO HNT2_YEAST Y866_METJA 84 Fernán Agüero

85 Alinear las dos secuencias más cercanas
Multiple alignment FHIT_HUMAN MSFRFGQHLIKPSVVFLKTELSFALVNRKPVVPGHVLV... APH1_SCHPO MPKQLYFSKFPVGSQVFYRTKLSAAFVNLKPILPGHVLV... HNT2_YEAST MILSKTKKPKSMNKPIYFSKFLVTEQVFYKSKYTYALVNLKPIVPGHVLI... Y866_METJA MCIFCKIINGEIPAKVVYEDEHVLAFLDINPRNKGHTLV... FHIT_HUMAN MSFR FGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV... APH1_SCHPO MPKQ LYFSKFPVGSQVFY RTKLSAAFVNLKPIL PGHVLV... HNT2_YEAST MILSKTKKPKSMNKPIYFSKFLVTEQVFYKSKYTYALVNLKPIVPGHVLI... Y866_METJA MCIF CKIINGEIPAKVVYEDEHVLAFLDINPRNKGHTLV... Desde el punto de vista del alineamiento del primer par, el gap puede insertarse en cualquier lugar Alinear las dos secuencias más cercanas El alineamiento genera un consenso que se utiliza para alinear las secuencias que quedan. 85 Fernán Agüero

86 Alinear las dos secuencias más cercanas
Multiple alignment FHIT_HUMAN MSF RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV... APH1_SCHPO MPK QLYFSKFPVGSQVFY RTKLSAAFVNLKPIL PGHVLV... HNT2_YEAST MILSKTKKPKSMNK PIYFSKFLVTEQVFY KSKYTYALVNLKPIV PGHVLI... Y866_METJA MCIF CKIINGEIPAKVVYEDEHVLAFLDINPRNKGHTLV... FHIT_HUMAN MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV... APH1_SCHPO MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV... HNT2_YEAST MILSKTKKPKSMNKPIYFSKFLVTEQVFYKSKYTYALVNLKPIVPGHVLI... Y866_METJA MCIFCKIINGEIP-AKVVYEDEHVLAFLDINPRNKGHTLV... Una vez insertado el gap no se puede mover porque es parte del consenso. Alinear las dos secuencias más cercanas 86 Fernán Agüero

87 Alinear la secuencia siguiente
Multiple alignment FHIT_HUMAN MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV... APH1_SCHPO MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV... HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVT-EQVFY KSKYTYALVNLKPIV PGHVLI... Y866_METJA MCIFCKIINGEIPAKVVYEDEHVLAFLDINPRNKGHTLV... FHIT_HUMAN MSFR FGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV... APH1_SCHPO MPKQ LYFSKFPVGSQVFY RTKLSAAFVNLKPIL PGHVLV... HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVTEQVFY KSKYTYALVNLKPIV PGHVLI... Y866_METJA MCIF CKIINGEIPAKVVY EDEHVLAFLDINPRN KGHTLV... Alinear la secuencia siguiente Con suerte, el resultado llegue a ser similar al resultado que obtenido por un veradero método de alineamiento múltiple. Debido al orden de los alineamientos, la posición del gap no puede cambiarse para alinear estas dos Prolinas (lo cual hubiera resultado en un score mayor. 87 Fernán Agüero

88 clustalW Clustalw is a progressive multiple alignment tool.
Adaptive gap opening and extension scores Choice of DNA or protein gap penalty alignments. Available on the web or on PC / Mac / unix. 88 Fernán Agüero

89 MSA: métodos iterativos
Distintos programas implementan distintas estrategias Se realinean subgrupos de secuencias en forma repetida, buscando optimizar el score final del MSA MultAlin (Corpet 1988) PRRP (Gotoh, 1996) DIALIGN (Morgenstern et al. 1996) 89 Fernán Agüero

90 MSA: algoritmo genético
SAGA (Notredame & Higgins, 1996) Sequence Alignment by Genetic Algorithm Genera diferentes MSAs por rearreglos que simulan inserciones de gaps similares a los que ocurren durante la replicación del DNA El proceso continúa hasta que converge en un score que no puede ser mejorado Los MSAs no tienen garantía alguna de ser óptimos Sin embargo, los alineamientos que produce este método son similares a los que se obtienen por otros métodos 90 Fernán Agüero

91 Query-anchored alignments (master slave)
Clustalw: Produce MSAs Blast: No produce MSAs, pero puede mostrar los alineamientos de a pares de una forma que parece un alineamiento múltiple, aunque todas las secuencias estén alineadas con la primera.! Los gaps en el query quieren decir que nada se pudo alinear en este lugar. ABCD AQCD ABQD A - C F - - QC K WC ELVC ELVI QLVI ELVK Esta columna no está alineada. Se muestra por conveniencia Gaps en el subject 91 Fernán Agüero

92 Bases de datos de alineamientos
Pir-ALN Alineamientos anotados derivados de PIR Incluye alineamientos al nivel de superfamilia, familia y dominio 3983 alineamientos, 1480 superfamilias, 371 dominios Protomap Clasificación automática de proteínas en Swissprot en grupos (clusters) de proteínas relacionadas Tiene organización jerárquica para distinguir sub y super familias COG Clusters of Orthologous Groups of Proteins Proteomas completos Contiene alineamientos de cada COG 92 Fernán Agüero

93 Local MSAs BLOCKS Representan regiones conservadas de un MSA global
Representan regiones conservadas de un MSA global No incluyen gaps Una serie de blocks conservados pueden describir la pertenencia o no a una familia Pueden buscar usando una secuencia Pueden usar un MSA para generar blocks 93 Fernán Agüero

94 Información representada en un MSA
Un MSA contiene información acerca de las secuencias que lo componen Si representa a una familia de proteínas: regiones conservadas residuos conservados Qué cosas podemos hacer con esta información? Muchas Qué cosas no deberíamos hacer con esta información? Generar un consenso 94 Fernán Agüero

95 Consensos Un consenso derivado de un MSA contiene para cada posición el residuo más frecuente OPS2_DROME MERSHLPETP FDLAHSGP-- RFQ-AQSSGN GSV---LDNV LPDMAHLVNP OPS2_DROPS MERSLLPEPP LAMALLGP-- RFE-AQTGGN RSV---LDNV LPDMAPLVNP OPS2_LIMPO MANQLSY-- SSLGWPYQPN ASV---VDTM PKEMLYMIHE OPS2_HEMSA MTNATG PQMAYYGA-- ASMDFGYPEG VSI---VDFV RPEIKPYVHQ OPS2_SCHGR MVNTTDFYP VPAAMAYESS VGLPLLGWNV PTEHLDLVHP OPS2_PATYE MPFPLN RTDTALVISP SEFRIIGIFI SICCIIGVLG NLLIIIVFAK Consenso MERSMLPETP ?MMA?LGP?P … Problemas! 95 Fernán Agüero

96 Usos de los MSAs Para extraer / generar
Patterns/Motifs Profiles Fingerprints Position Specific Scoring Matrices HMMs Para qué extraer / generar patterns, motifs, etc, etc? Para clasificar Para alinear secuencias Para buscar secuencias similares por métodos más sensibles 96 Fernán Agüero

97 Cómo describir/representar las características salientes de un motif?
Motifs Webster's New Collegiate Dictionary: mo-tif n[F, motive, motif] 1 a: a usu. recurring salient thematic element in a work of art; esp: a dominant idea or central theme En secuencias biológicas un motif es un patrón recurrente (común) en una serie de secuencias relacionadas Los MSAs permiten distinguir regiones de evolución lenta (conservadas) y otras de evolución más rápida en un grupo de secuencias Cómo describir/representar las características salientes de un motif? 97 Fernán Agüero

98 Usando expresiones regulares
Patterns Descripción (usando una sintaxis particular) de una región corta que tenga relevancia funcional Cómo se construye un pattern A partir de la literatura. Se testea contra Swissprot A partir de Enzyme catalytic sites Prostethic group attachment sites (heme, pyridoxal-phosphate, biotin, etc) Amino acids involved in binding a metal ion Cysteines involved in disulfide bonds Regions involved in binding a molecule (ADP/ATP, GDP/GTP, calcium, DNA, etc.) or another protein 98 Fernán Agüero

99 El pattern es una expresión regular: [AC]-x-V-x(4)-{ED}
Patterns Residuos funcionales importantes El pattern rescata sólo las secuencias correctas MSA Encontrar 4-5 residuos conservados Buscar en Swissprot Core pattern El pattern rescata muchos falsos positivos. Incrementar el pattern y volver a testear. El pattern es una expresión regular: [AC]-x-V-x(4)-{ED} ala/cys-any-val-any-any-any-any-(any except glu or asp) 99 Fernán Agüero

100

101 Profiles MSA Profile Representan un MSA en forma de tabla
Cada posición en el alineamiento corresponde a una fila en el profile Para cada posición en el alineamiento el profile contiene la información de frecuencias de aminoácidos que ocurren en esa posición Esta información se encuentra representada en forma de scores y penalties e incluye a gaps Un profile no es otra cosa que una serie de matrices de scoring, una para cada posición en el alineamiento 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 Profile 101 Fernán Agüero

102 Un MSA particular ATP binding RNA helicase ("DEAD" box family) 102
rhle_ecoli GVDVLVATPG RLLDLEHQNA ....VKLDQV EILVLDEADR MLDMGFIHDI dbp2_schpo GVEICIATPG RLLDMLDSNK ....TNLRRV TYLVLDEADR MLDMGFEPQI dbp2_yeast GSEIVIATPG RLIDMLEIGK ....TNLKRV TYLVLDEADR MLDMGFEPQI dbpa_ecoli APHIIVATPG RLLDHLQKGT ....VSLDAL NTLVMDEADR MLDMGFSDAI rm62_drome GCEIVIATPG RLIDFLSAGS ....TNLKRC TYLVLDEADR MLDMGFEPQI p68_human GVEICIATPG RLIDFLECGK ....TNLRRT TYLVLDEADR MLDMGFEPQI rhlb_ecoli GVDILIGTTG RLIDYAKQNH ....INLGAI QVVVLDEADR MYDLGFIKDI yn21_caeel RPHIIVATPG RLVDHLENTK ...GFNLKAL KFLIMDEADR ILNMDFEVEL yhm5_yeast KPHIIIATPG RLMDHLENTK ...GFSLRKL KFLVMDEADR LLDMEFGPVL me31_drome KVQLIIATPG RILDLMDKKV ....ADMSHC RILVLDEADK LLSLDFQGML drs1_yeast RPDIVIATPG RFIDHIRNSA ...SFNVDSV EILVMDEADR MLEEGFQDEL if4a_rabit APHIIVGTPG RVFDMLNRRY ....LSPKYI KMFVLDEADE MLSRGFKDQI if41_human APHIIVGTPG RVFDMLNRRY ....LSPKYI KMFVLDEADE MLSRGFKDQI vasa_drome GCHVVIATPG RLLDFVDRTF ....ITFEDT RFVVLDEADR MLDMGFSEDM srmb_ecoli NQDIVVATTG RLLQYIKEEN ....FDCRAV ETLILDEADR MLDMGFAQDI dead_ecoli GPQIVVGTPG RLLDHLKRGT ....LDLSKL SGLVLDEADE MLRMGFIEDV if4a_orysa GVHVVVGTPG RVFDMLRRQS ....LRPDYI KMFVLDEADE MLSRGFKDQI dead_klepn GPQIVVGTPG RLLDHLKRGT ....LDLSKL SGLVLDEADE MLRMGFIEDV pl10_mouse GCHLLVATPG RLVDMMERGK ....IGLDFC KYLVLDEADR MLDMGFEPQI p54_human TVHVVIATPG RILDLIKKGV ....AKVDHV QMIVLDEADK LLSQDFVQIM if4a_drome GCHVVVGTPG RVYDMINRKL .....RTQYI KLFVLDEADE MLSRGFKDQI ded1_yeast GCDLLVATPG RLNDLLERGK ....ISLANV KYLVLDEADR MLDMGFEPQI ms16_yeast RPNIVIATPG RLIDVLEKYS ...NKFFRFV DYKVLDEADR LLEIGFRDDL pr28_yeast GCDILVATPG RLIDSLENHL ....LVMKQV ETLVLDEADK MYDLGFEDQV if4n_human GQHVVAGTPG RVFDMIRRRS ....LRTRAI KMLVLDEADE MLNKGFKEQI an3_xenla GCHLLVATPG RLVDMMERGK ....IGLDFC KYLVLDEADR MLDMGFEPQI dbp1_yeast GCDLLVATPG RLNDLLERGK ....VSLANI KYLVLDEADR MLDMGFEPQI if4a_yeast DAQIVVGTPG RVFDNIQRRR ....FRTDKI KMFILDEADE MLSSGFKEQI spb4_yeast RPQILIGTPG RVLDFLQMPA ....VKTSAC SMVVMDEADR LLDMSFIKDT if4a_caeel GIHVVVGTPG RVGDMINRNA ....LDTSRI KMFVLDEADE MLSRGFKDQI pr05_yeast GTEIVVATPG RFIDILTLND .GKLLSTKRI TFVVMDEADR LFDLGFEPQI if42_mouse APHIVVGTPG RVFDMLNRRY ....LSPKWI KMFVLDEADE MLSRGFKDQI dhh1_yeast TVHILVGTPG RVLDLASRKV ....ADLSDC SLFIMDEADK MLSRDFKTII db73_drome KADIVVTTPG RLVDHLHATK ...GFCLKSL KFLVIDEADR IMDAVFQNWL yk04_yeast GCNFIIGTPG RVLDHLQNTK VIKEQLSQSL RYIVLDEGDK LMELGFDETI ybz2_yeast SGQIVIATPG RFLELLEKDN .TLIKRFSKV NTLILDEADR LLQDGHFDEF yhw9_yeast KPHFIIATPG RLAHHIMSSG DDTVGGLMRA KYLVLDEADI LLTSTFADHL glh1_caeel GATIIVGTVG RIKHFCEEGT ....IKLDKC RFFVLDEADR MIDAMGFGTD ATP binding RNA helicase ("DEAD" box family) 102 Fernán Agüero

103 Un profile generado a partir del MSA
Cons A B C D E F G H I K L M N P Q R S T V W Y Z Gap Len .. G P H I V V A T P G ! 11 R L L D L L E K G T ! 21 D T K G L B L D K V K L L * 103 Fernán Agüero

104 Derivación de motifs (patterns) Generación de un MSA
Usos de los profiles Derivación de motifs (patterns) Generación de un MSA partiendo de un MSA que se supone representativo de una familia o grupo de proteínas, se genera un profile el profile se usa para generar alineamientos nuevos con proteínas no representadas originalmente en el profile Más sensible que una matriz de scoring sitio-inespecífica Búsqueda de secuencias similares en bases de datos El ‘query’ no es una secuencia, sino el profile 104 Fernán Agüero

105 Profile HMMs La información contenida en un profile puede representarse de otras formas Los profiles originales contienen scores y penalidades basados en las frecuencias de ocurrencia Un profile (o un MSA) puede representarse como una cadena de eventos con probabilidades de ocurrencia (Markov Model) Veamos un ejemplo! 105 Fernán Agüero

106 Profile HMMs 106 Fernán Agüero

107 Profiles vs Profile HMMs
Qué propiedad adicional agrega un HMM a un profile? El profile modela un MSA en base a frecuencias sitio-específicas Pero todos los sitios son independientes Un profile HMM agrega probabilidades a posteriori (Bayesian statistics) Probabilidades complejas La probabilidad de que el próximo aa en el MSA sea Alanina no es fija, depende eventos anteriores 107 Fernán Agüero

108 Paquete de programas para trabajar con profile HMMs
Profile HMMs: HMMER HMMER Paquete de programas para trabajar con profile HMMs genera profile HMMs a partir de MSAs usa los HMMs para realizar búsquedas en bases de datos de secuencias puede buscar en bases de datos de profile HMMs a partir de una secuencia 108 Fernán Agüero

109 Una base de datos de profile HMMs (y de MSAs)
Pfam Una base de datos de profile HMMs (y de MSAs) WUSTL Sanger Centre Karolinska Institutet Representan dominios proteicos Pueden buscar a partir de palabras clave a partir de una secuencia Pfam 8.0 (February 2003, 5193 families) 109 Fernán Agüero

110 Pfam: HMMs 110 Fernán Agüero

111 PSSMs [AC]-x-V-x(4)-{ED}
Los motifs se pueden representar de distintas maneras (patterns por ejemplo) Sin embargo, los patterns no les dan peso a las distintas sustituciones [AC]-x-V-x(4)-{ED} Una Position Specific Scoring Matrix es una descripción de un motif en términos de una matriz 111 Fernán Agüero

112 Evaluar la información que contiene una PSSM usando Sequence Logos
PSSMs Evaluar la información que contiene una PSSM usando Sequence Logos 112 Fernán Agüero

113 Protein Fingerprints DB
Qué es un fingerprint? Una serie de motifs conservados en un orden particular Se utilizan para predecir la ocurrencia de motifs similares en una secuencia Importa la presencia y el orden de los motifs Una proteína de la misma familia tiene todos los motifs en orden. En el caso de una superfamilia, miembros de distintas familias pueden tener matchs parciales contra el fingerprint 113 Fernán Agüero

114

115 InterPro Integra varias otras bases de datos en un solo lugar y provee referencias a otras bases de datos (GO) Prosite, PRINTS, Pfam, ProDom, SMART 115 Fernán Agüero

116

117

118

119

120 MSA: frecuencias de sustitución de aas
Un MSA es la base para determinar las frecuencias de sustitución de amino ácidos en un grupo particular de secuencias frecuencias de sustitución globales Se utilizan para generar matrices de scoring: Matrices PAM, BLOSUM, etc Dan puntaje y penalizan por igual los mismos cambios, independientemente del contexto frecuencias de sustitución sitio por sitio Position Specific Scoring Matrices (PSSM) Profiles 120 Fernán Agüero

121 Y en general también vale la inversa (buscar usando secuencias)
Cómo los uso? Así como BLAST/FASTA pueden buscar sobre secuencias utilizando secuencias, distintos programas pueden buscar sobre secuencias usando patterns motifs profiles PSSMs etc. Y en general también vale la inversa (buscar usando secuencias) Vamos a ver ejemplos en el TP de EMBOSS 121 Fernán Agüero


Descargar ppt "Alineamiento de secuencias Búsqueda de secuencias en bases de datos"

Presentaciones similares


Anuncios Google