La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

© Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

Presentaciones similares


Presentación del tema: "© Copyright Ebiointel,SL 2006 Alineamiento de secuencias:"— Transcripción de la presentación:

1 © Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

2 © Copyright Ebiointel,SL 2006 Un alineamiento compara permitiendo: Identificar genes homólogos/similares Asignar funciones biológicas (reales, posibles?) Predecir estructura Encontrar patrones Reconstruir relaciones evolutivas …… Identificar genes homólogos/similares Asignar funciones biológicas (reales, posibles?) Predecir estructura Encontrar patrones Reconstruir relaciones evolutivas ……

3 © Copyright Ebiointel,SL 2006 Homólogo, similar, idéntico Homología –dos secuencias son hom ó logas s ó lo si derivan de una ancestro com ú n –implica una herencia compartida –cualitativo –se es homólogo o no se es Similitud –medida cuantitativa –se puede usar una medida de similitud para inferir homología Homología vs similitud

4 © Copyright Ebiointel,SL 2006 Secuencia 1: ATGCGACTGACG Secuencia 2: ATGCGACTGACG |||||||||||| Significado de un alineamiento Estadístico Por azar (alineamiento de secuencias al azar pueden producir un 20% identidad) Biológico Comparten un ancestro común. Implica una información funcional, estructural y evolutiva Alineamiento Comparar dos (alineación a pares) o más (alineación múltiple) secuencias para buscar una serie de caracteres o patrón de caracteres que están en el mismo orden en las secuencias Alineamiento de secuencias

5 © Copyright Ebiointel,SL 2006 Búsqueda de una puntuación (mayor o menor, astringencia) dentro de la ventana Puntuación: valoración del aparejamiento (matrices) Astringencia: mínima coincidencia admitida Ventana: longitud del bloque a comparar Alineamiento de secuencias

6 © Copyright Ebiointel,SL 2006 Un proceso de alineamiento debe efectuar una búsqueda activa del mejor alineamiento posible y debe considerar los cambios que sufren las secuencias: Sustituciones -> Desemparejamientos (mistmatches) Deleciones e inserciones (indel) -> Huecos (Gaps) Alineamiento de secuencias

7 © Copyright Ebiointel,SL 2006 Valoración (score) de un alineamiento Máxima puntuación = Alineamiento óptimo Puntuación = F (puntuación emparejamiento idéntico, puntuación emparejamiento similar, puntuación huecos –gap-) Valoración de un alineamiento

8 © Copyright Ebiointel,SL 2006 Valoración de un alineamiento Como valorar un alineamiento? Ejemplo Identidad = 1 Missmatch = 0 Gap = -1 Score = 10 - 4 = 6 Ejemplo Identidad = 1 Missmatch = 0 Gap = -1 Score = 10 - 4 = 6

9 © Copyright Ebiointel,SL 2006 A G C T A +1 –3 –3 -3 G –3 +1 –3 -3 C –3 –3 +1 -3 T –3 –3 –3 +1 CAGGTAGCAAGCTTGCATGTCA || |||||||||||| ||||| raw score = 19-9 = 10 CACGTAGCAAGCTTG-GTGTCA Score Match: + 1 Mismatch: -10000 Score Match: + 1 Mismatch: -10000 Score Match: + 1 Mismatch: - 3 Score Match: + 1 Mismatch: - 3 Matriz para DNA Valoración de un alineamiento

10 © Copyright Ebiointel,SL 2006 Modelos evolutivos DNA Matriz de substitución para DNA Transiciones / Transversiones p(transición) > p(transversión) Transiciones / Transversiones p(transición) > p(transversión) Ejemplo: A,A = 1 A,C = 0 C,T = 0,5 Gap = -1 Ejemplo: A,A = 1 A,C = 0 C,T = 0,5 Gap = -1 Matriz para DNA Valoración de un alineamiento

11 © Copyright Ebiointel,SL 2006 Matrices de puntuación para proteínas Secuencia A Tyr Cys Asp Ala Secuencia B Phe Met Glu Gly 3 -1 2 0 Matrices de susbtitución Puntuación total del alineamiento: 3-1+2+0 = 4 Secuencia A Tyr Cys Asp Ala Met Secuencia B Phe Met Glu Gly Met 0 0 0 0 1 Puntuación total del alineamiento: 0+0+0+0+1 = 1 Matriz de identidad Matriz para Proteínas Valoración de un alineamiento

12 © Copyright Ebiointel,SL 2006 Modelos evolutivos Proteínas Matriz de substitución para proteínas PAM 60, 120, 250 (Dayhoff) Extrapolación desde PAM15 BLOSUM 80, 62, 40 Basadas en BLOKCS de secuencias Matriz de substitución para proteínas PAM 60, 120, 250 (Dayhoff) Extrapolación desde PAM15 BLOSUM 80, 62, 40 Basadas en BLOKCS de secuencias Mutaciones (código genético) Substituciones conservativas Matriz para Proteínas Valoración de un alineamiento

13 © Copyright Ebiointel,SL 2006 Matrices PAM (Percent Accepted Mutation) Evolutionary model Derived from observation; small dataset of alignments All calculated from PAM1 PAM250 widely used Matrices BLOSUM (BLOck SUbstitution Matrices) Derived from observation; large dataset of highly conserved blocks Each matrix derived separately from blocks with a defined percent identity cutoff BLOSUM45 is derived from sequence blocks clustered at the 45% identity level BLOSUM62 - default matrix for BLAST Valoración de un alineamiento

14 © Copyright Ebiointel,SL 2006 Matriz PAM 250 Valoración de un alineamiento

15 © Copyright Ebiointel,SL 2006 Blosum 62 A 4 R -1 5 N -2 0 6 D -2 -2 1 6 C 0 -3 -3 -3 9 Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 - 1 -1 A R N D C Q E G H I L K M F P S T W Y V X D F Negative for less likely substitutions D Y F Positive for more likely substitutions Valoración de un alineamiento

16 © Copyright Ebiointel,SL 2006 PAM100 ==> Blosum90 PAM120 ==> Blosum80 PAM160 ==> Blosum60 PAM200 ==> Blosum52 PAM250 ==> Blosum45 PAM100 ==> Blosum90 PAM120 ==> Blosum80 PAM160 ==> Blosum60 PAM200 ==> Blosum52 PAM250 ==> Blosum45 Equivalencia PAM - BLOSUM BLOSUM: “mejor” para la detección alineamientos locales BLOSUM 62, detección similitudes débiles BLOSUM 45, detección alineamientos largos y débiles BLOSUM: “mejor” para la detección alineamientos locales BLOSUM 62, detección similitudes débiles BLOSUM 45, detección alineamientos largos y débiles Valoración de un alineamiento

17 © Copyright Ebiointel,SL 2006 PAM vs BLOSUM Modelo subyacente PAM asume un modelo evolución markoviano BLOSUM no supone ningún modelo evolutivo explícito Aminoácidos utilizados en las estimas de las puntuaciones PAM considera todas las posiciones aminoacídicas BLOSUM considera sólo los cambios en posiciones dentro de bloques conservados Conclusión: PAM es más adecuada para trazar el origen evolutivo de proteínas BLOSUM es más apropiada para hallar dominios conservados Valoración de un alineamiento

18 © Copyright Ebiointel,SL 2006 MNLSRDTA M SRDTA | ||||| Penalización por hueco (Gap penalty) W x = g + rx W es la puntuación x la longitud del gap g la penalización de abrir un gap r la de la extensión de un gap MNLSRDTA M SSRDTA | |||||| Muchos programas de alineamiento sugieren los valores apropiados Penalización al final del alineamiento Sí en secuencias homólogas misma longitud No en secuencias desconocidas o longitud diferente Valoración de un alineamiento: gaps

19 © Copyright Ebiointel,SL 2006 Programas de alineamiento de DNA Programa Tipo de Match Mismatch Penalización Penalización alineamiento score score apertura gaps extensión gaps FASTA local 5 - 4 -16 -4 Valores de penalización de gaps Programas de alineamiento de Proteínas Programa Tipo de Match y Mismatch Penalización Penalización alineamiento score apertura gaps extensión gaps FASTA local Valores BLOSUM50 - 16 - 4 -12 -2 BLASP local Valores BLOSUM62 - 6 - 4 - 8 - 2 Valoración de un alineamiento: gaps

20 © Copyright Ebiointel,SL 2006 Efecto de la variación en la penalización de huecos (gap) (Vingron & Waterman 1994) Si se penaliza alto (relativamente) no aparecerán en el alineamiento Si bajo, gaps serán ubicuos Si la penalización gaps y desemparejamientos (mismatches) es alta habrá un alineamiento local con emparejamientos exactos Si penalización desemparejamiento es alta (doble que la de emparejamiento), la penalización del gap es crucial en el alineamiento Si la penalización desemparejamiento es menor que el doble de la de emparejamiento, hay un amplio espectro de posibles alineamientos dependientes de la puntuación de los gaps y desemparejamientos El alineamiento de proteínas relacionadas muestran que gaps > 5 nunca ocurren Valoración de un alineamiento: gaps

21 © Copyright Ebiointel,SL 2006 Matriz de puntos (Dot matrix, Gibbs & McIntyre 1970 ) Cualquier alineamiento se ve como una diagonal en la matriz A| X. C|. X A T G C A G|X. X | | | | T|. X G A T G C A|. X +--------- G A T G C C| X G| X A T G C T| X | | | | A|X A T G C +------- A T G C Alineamiento: matriz de puntos

22 © Copyright Ebiointel,SL 2006 Matriz de puntos (Dot matrix) A|X X X T| X X G| X. T| X. A T C A C T G T A C| X. | | | | | | | A|X X A T C A - - G T A C| X T| X X A|X X +------------- A T C A G T A Detección de indels: inserciones / deleciones Alineamiento: matriz de puntos

23 © Copyright Ebiointel,SL 2006 Matriz de puntos de dos proteínas represoras en fagos, λ cI y P22 c2 Nucleótidos Ventana = 11 Astringencia = 7 11/7 ó 15/11 Aminoácidos Ventana = 1 Astringencia = 1 1/1 excepto búsquedas pequeños dominios 15/5 Alineamiento: matriz de puntos

24 © Copyright Ebiointel,SL 2006 Matriz de puntos de la proteína receptora humana LDL con ella misma. Ventana = 1 Astringencia = 1 Ventana = 23 Astringencia = 7 Alineamiento: matriz de puntos

25 © Copyright Ebiointel,SL 2006 Representación de un alineamiento: “camino” en la matriz AT-ACTTGAC ATGAC--GAC A A Alineamiento: matriz de puntos

26 © Copyright Ebiointel,SL 2006 Métodos de alineamiento de dos secuencias Algoritmos de programación dinámica Smith-Waterman (local) Needleman-Wunsch (global) Métodos heurísticos BLAST (Basic Local Algorithm Search Tool) Altschul et al., 1990 ; Gapped, Altschul et al., 1997 FASTA Lipman y Pearson, 1985 Métodos de alineamiento

27 © Copyright Ebiointel,SL 2006 Alineamiento local de Smith-Waterman (1981) Alineamiento global de Needlman-Wunsh (1970) Algoritmos de programación dinámica para el alineamiento de secuencias Encuentran el alineamiento o serie de alineamientos óptimos evitando calcular todos los alineamientos (y puntuaciones) de dos secuencias (m x n) Uso de un algoritmo recursivo que añade residuos en una posición sobre el alineamiento mejor hasta esa posición. Una ruta óptima que termina en un nodo debe pasar por uno de los tres nodos previos n + m n n= 7 y m= 10 -> 19448 Programación dinámica

28 © Copyright Ebiointel,SL 2006 Algoritmos de programación dinámica para el alineamiento de secuencias S(i-1,j-1) + c(i,j) S(i,j) = max S(i-1,j) + c(i,-) S(i,j-1) + c(-,j) Secuencia 1: ACGCTGASecuencia 2: ACTGT 1: ACG 2: ACT ||· 1: AC-G 2: ACTG ||·| 1: ACGC 2: ACT- ||· Puntuación (score, S): Identidad (match) = 3 No idéntico (unmatched) = -1 Hueco (gap) = -5 Score, S = 3+3-1 = 53+3-5+3 = 43+3-1-5 = 0 1: ACGC 2: ACTG ||·· 1: AC-GC 2: ACTG- ||·|| 1: ACGC- 2: ACT-G ||· Score = 5 -1 = 4Score = 4 -5 = -1Score = 0 -5 = -5 Programación dinámica

29 © Copyright Ebiointel,SL 2006 Preparación de una matriz n x m Alineamiento global de Needlman- Wunsh secuencia 1 = MNALSDRT secuencia 2 = MGSDRTTET GAP = - 12- 4 (x - 1) x = longitud hueco Programación dinámica

30 © Copyright Ebiointel,SL 2006 Poner puntuación a cada par aminoacídico (basado en matriz PAM250) En paréntesis se dan las puntuaciones de cuatros posibles emparejamientos (matches) Programación dinámica

31 © Copyright Ebiointel,SL 2006 Cálculo de la puntuación Se ponen las puntuaciones máximas en cada celda. La flecha indica la celda previa de la matriz que se usó para obtener la puntuación Cada fila y columna de la secuencia debe llenarse antes de avanzar una celda hacia la derecha y abajo Programación dinámica

32 © Copyright Ebiointel,SL 2006 Matriz de puntuación completa Se completa la matriz La última fila y columna (alineamiento global) se examina y se selecciona la mayor puntuación. El valor es 5 si no consideramos gap final, sino es -5 Programación dinámica

33 © Copyright Ebiointel,SL 2006 Matriz hacia atrás (trace-back matrix) La matriz nos permite reconstruir el alineamiento a partir del último match T-T, que tiene la puntuación mayor. La matriz muestra los movimientos de una posición a la otra que han dado máxima puntuación Programación dinámica

34 © Copyright Ebiointel,SL 2006 sequence 1 M - N A L S D R T sequence 2 M G S D R T T E T score 6 -12 1 0 -3 1 0 -1 3 = -5 Alineamiento 1 Alineamiento 2 sequence 1 M N - A L S D R T sequence 2 M G S D R T T E T score 6 -12 1 0 -3 1 0 -1 3 = -5 Alineamiento 3 (no penalización de gap final) sequence 1 M N A L S D R T - - - sequence 2 - - M G S D R T T E T score 0 0 -1 -4 2 4 6 3 0 0 0 = 10 Programación dinámica

35 © Copyright Ebiointel,SL 2006 Alineamiento local con el algoritmo de Smith-Waterman secuencia 1 S D R T secuencia 2 S D R T score 2 4 6 3 = 15 Debe haber puntuación negativa para los desemparejamientos y si la puntuación de la matriz obtiene un valor negativo se pone 0 Así el alineamiento puede empezar en cualquier punto y se acaba cuando la puntuación alcanza el valor de 0 Programación dinámica

36 © Copyright Ebiointel,SL 2006 Alineamiento global y local Needleman & Wunsch (1970) Las secuencias se alinean esencialmente de un extremo a otro Smith & Waterman (1981) Las secuencias se alinean en regiones pequeñas y aisladas

37 © Copyright Ebiointel,SL 2006 Ejemplo on-line alineamiento global vs local Preparación de una matriz n x m Global vs local on-line

38 © Copyright Ebiointel,SL 2006 Objetivo Comparar los resultados obtenidos al alinear dos secuencias problema con programes de alineamiento local Smith-Waterman (water) global Needleman and Wunsch (needle) Alineamientos Iniciar una sesión en EMBOSS EMBOSS Introducir las secuencias Sequence 1 NGPSTKDFGKISESREFDNQNGPSTKDFGKISESREFDNQ * Sequence 2 QNQLERSFGKINMRLEDALVQNQLERSFGKINMRLEDALV Comparar (water o needle), visualizar y comentar Práctica alineamiento de pares de secuencias Global vs local

39 © Copyright Ebiointel,SL 2006 MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTLFGWGYDDNPV PGGGGVYSMATLNGEAVAAIAPMPPGAPEGMPPIWNTYIAVDD VDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGWQ ANRHIGATLVNETGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEI AAGQNY Búsquedas por similitud ¿Hay en la base de datos alguna secuencia similar a mi secuencia problema? Resultados Similar to ………… Unknown but similar to sevral hypothetical proteins from… Putative hypothetical protein……..

40 © Copyright Ebiointel,SL 2006 Búsqueda de similares Búsqueda de similares en una base de datos Objetivo: comparar una secuencia frente a una base de datos, comprar dos base de datos,.. Algoritmos Exactos: Smith-Waterman (sssearch, lalign,..) Heurísticos: BLAST (búsqueda de “words” similares) FASTA (búsqueda de “k-tuplos” idénticos)

41 © Copyright Ebiointel,SL 2006 FASTA (Lipman y Pearson, 1985; Pearson y Lipman, 1988) El algoritmo busca patrones cortos consecutivos (palabras o k-tuplos, k= 1-2 aa / 4-6 nt) entre la secuencia problema y las de la base de datos. BLAST (Basic Local Alignment Search Tool) (Altschul, et al, 1990, J Mol Biol, 215:403-10) Concentra la búsqueda en patrones cortos más significativos, (palabra, word size: 3 aa / 11 nt). Rápido, menos sensible? Método heurístico: prueba y error Suele encontrar secuencias relacionadas pero nunca hay garantía absoluta. Ventaja: 50 veces más rápido que programa dinámicos Usos: búsquedas sobre bases de datos de gran tamaño Métodos heurísticos

42 © Copyright Ebiointel,SL 2006 Búsquedas con Blocks Motivos alineados sin gaps (PSSM position-specific scoring matrix) Búsquedas con secuencias de DNA o aa FASTA, BLAST Búsquedas con perfiles Archivos con alineamientos DAHQS N ESHQS Y EAHQS N EGVQS Y D-HQSNGA ESHQ-YTM EAHQSN-L EGVQSYSL >SeqDNA_Prob1.seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTA TGAGCTGGAAGAAGAGGGAGTCACCCCTCTTCGCGCTAGGATCG CTGAGCG Búsquedas de patrones y motivos PROSITE, INTERPRO, PFAM,.. DAHQS N Secuencias problema

43 © Copyright Ebiointel,SL 2006 Significación - Valoración de los alineamientos 1.Valoración mediante matrices 2.Penalización por disimilitud (aparición y extensión de gaps). Este valor es la Puntuación bruta (raw score, Sraw). 3.Puntuación de bits (Sbit). Permite comparar resultados obtenidos por diferentes sistemas. Se introducen parámetros utilizados por el programa de alineamiento. 4.E value alineamiento debido al azar. Los valores más cercanos a cero indican una mayor relevancia. Se puede considerar relevante cuando E < 0.05.

44 © Copyright Ebiointel,SL 2006 Significancia Expect Value E = numero de hits esperado por azar Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar. Valores mas bajos serán mas significativos Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar. Valores mas bajos serán mas significativos

45 © Copyright Ebiointel,SL 2006 (Basic Local Alignment Search Tool) Altschul, et al, 1990, J Mol Biol, 215:403-10 Usos búsquedas en las bases de datos alineamiento de pares de secuencias Estrategia BLAST Búsqueda de proteínas mediante criterios de semejanza (no identidad). Se utilizan matrices de semejanza Trabaja con segmentos pequeños que permiten acelerar el proceso (High-scoring segment pair) Extensión de los match hacia los lados Rápido y sensible Heurístico BLAST intenta encontrar muchos matches sacrificando la especificidad por la velocidad. Se pueden perder apareamientos. Glossary

46 © Copyright Ebiointel,SL 2006 Esquema BLAST

47 © Copyright Ebiointel,SL 2006 Nucleótidos GTACTGGACATGGACCCTACAGGAA Query: GTACTGGACAT TACTGGACATG ACTGGACATGG CTGGACATGGA TGGACATGGAC GGACATGGACC GACATGGACCC ACATGGACCCT........... Minimum word size = 7 blastn default = 11 megablast default = 28 Word Size = 11

48 © Copyright Ebiointel,SL 2006 Proteínas Word Size = 3 GTQITVEDLFYNIATRRKALKN Query: Similares LTV, MTV, ISV, LSV, etc. GTQ TQI QIT ITV TVE VED EDL DLF...

49 © Copyright Ebiointel,SL 2006

50 Selección del programa BLAST Help

51 © Copyright Ebiointel,SL 2006

52

53

54 Opciones Conserved Domain Database

55 © Copyright Ebiointel,SL 2006 Introducción de la Secuencia FASTA FORMAT

56 © Copyright Ebiointel,SL 2006 Otras opciones Expect: 10, máximo de 10 al azar. Valores inferiores son mas restrictivos. Word Size: medida de los fragmentos (k-tup FASTA)

57 © Copyright Ebiointel,SL 2006 Formatos

58 © Copyright Ebiointel,SL 2006 Práctica Objetivo general Buscar secuencias similares a las secuencias problema. BLAST DNA Copiar la Secuencia PROBLEMA i someterla a BLAST de DNA >SeqDNA_Prob1.seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAG GGAGTCA CCCCTCTTCGCGCTAGGATCGCTGAGCGTCTGGAACAATCTGGACCTACAGTTAGCCAAACCG TTGCCCG TATGGAGCGCGATGGACTTGTCGTTGTCGCCTCAGACCGCAGTCTACAAATGACACCGACAGG CCGCACT TTAGCGACTGCAGTTATGCGTAAACATCGCTTAGCTGAGCGCCTTCTTACCGATATCATTGGTC TAGATA TCAATAAAGTTCACGATGAAGCCTGCCGCTGGGAACACGTTATGAGTGACGAAGTTGAACGCA GGCTCGT GAAAGTATTGAAAGATGTCAGTCGGTCCCCCTTCGGAAACCCAATTCCAGGTCTCGACGAACT CGGCGTA GGCAATTCTGACGCGGCAGCCCCCGGAACTCGCGTTATTGACGCTGCCACCAGCATGCCCCG CAAAGTAC GCATTGTTCAGATTAACGAAATCTTTCAAGTTGAAACGGATCAGTTTACACAGCTCCTCGATGC TGACAT CCGTGTTGGATCAGAAGTCGAAATTGTAGATAGAGACGGCCACATCACGTTGAGCCACAATGG AAAAGAT GTCGAACTCCTCGATGATCTGGCTCACACTATTCGTATCGAAGAACTCTAA Iniciar una sesión BLAST NucleotideBLAST Nucleotide Limitar la búsqueda a Blast de Bacteria

59 © Copyright Ebiointel,SL 2006 BLAST Proteína Copiar la secuencia PROBLEMA i someterla a BLAST de Proteína >SeqProt-Prob1.pep MENRIDRIKKQLHSSSYKLTPQREATVRVLLENEEDHLSAEDVYLLVKEKSPEIGLATVY RTLELLTELKVVDKINFGDGVSRYDLRKEGAAHFHHHLVCMEFGAVDEIEGDLLEDVEEI IERDWKFKIKDHRLTFHGICHRCNGKETE Iniciar una sesión BLAST ProteinBLAST Protein Limitar la búsqueda a Blast de Bacteria Ejecutar Blast Práctica

60 © Copyright Ebiointel,SL 2006 Objetivo Pretendemos encontrar secuencias bacterianas en diferentes genomas de microorganismos. Realizar una búsqueda tBLASTn sobre genomas microbianos utilizando la secuencia:genomas microbianos >Proteína problema MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTSLFGWGYDDNPVPGGGGVYSMATLNGEAVAAIAPMPPGA P EGMPPIWNTYIAVDDVDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGLWQANRHIGATLVNE TGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNYRVLKAGDAEVGGCMEPPMPGVPNHWHVYFA VDDADATAAKAAAAGGQVIAEPADIPSVGRFAVLSDPQGAIFSVLKPAPQQ Práctica t n Proteína x DNA traducido a Proteína

61 © Copyright Ebiointel,SL 2006 Objetivo Detectar similares a la secuencia problema y determinar si hay errores. Realizar una búsqueda con BLASTx usando:BLASTx >DNA desconocido ATGCCCAAGAGAAGCGAATACAGGCAAGGCACGCCGAACTGGGTCGACCTTCAGACCACCGATCAGTCCG CCGCCAAAAAGTTCTACACATCGTTggtGTTCGGCTGGGGTTACGACGACCCGGTCCCCGGAGGCGGTGG GGTCTATTCCATGGCCACGCTGAACGGCGAAGCCGTGGCCGCCATCGCACCGATGCCCCCGGGTGCACCG GAGGGGATGCCGCCGATCTGGAACACCTATATCGCGGTGGACGACGTCGATGCGGTGGTGGACAAGGTGG TGCCCGGGGGCGGGCAGGTGATGATGCCGGCCTTCGACATCGGCGATGCCGGCCGGATGTCGTTCATCAC CGATCCGACCGGCGCTGCCGTGGGCCTATGGCAGGCCAATCGGCACATCGGAGCGACGTTGGTCAACGAG ACGGGCACGCTCATCTGGAACGAACTGCTCACGGAttgGCCGGATTTGGCGCTAGCGTTCTACGAGGCTG TGGTTGGCCTCACCCACTCGAGCATGGAGATAGCTGCGGGCCAGAACTATCGGGTGCTCAAGGCCGGCGA CGCGGAAGTCGGCGGCTGTATGGAACCGCCGATGCCCGGCGTGCCGAATCATTGGCACGTCTACTTTGCG GTGGATGACGCCGACcccACGGCGGCCAAAGCCGCCGCAGCGGGCGGCCAGGTCATTGCGGAACCGGCTG ACATTCCGTCGGTGGGCCGGTTCGCCGTGTTGTCCGATCCGCAGGGCGCGATCTTCAGTGTGTTGAAGCC CGCACCGCAGCAATAG Práctica X DNA traducido a Proteína x Proteína

62 © Copyright Ebiointel,SL 2006 1.Búsqueda de zonas comunes por identidad y sin gaps. Uso de k-tuplo. 2.Velocidad y sensibilidad determinadas por la longitud de la palabra usada. Las palabras cortas hacen la búsqueda más lenta y sensible. 3.Valoración de los match por similitud y unión de las regiones con gaps 4.Evaluación exhaustiva de los mejores alineamientos Alineamientos locales FASTA utiliza una matriz de substitución sólo durante la fase de extensión La reducción del tiempo de búsqueda conlleva una pérdida de sensibilidad y selectividad Estrategia k-tup DNA: 6 Proteína: 2 FASTA

63 © Copyright Ebiointel,SL 2006 Programas FASTA ProgramaFunciones fasta3 tfasta3* ssearch* DNA, proteína frente bd DNA y bd Prot (fasta) y proteínas frente bd DNA traducido (tfasta), no admite frameshifts DNA, proteína frente bd DNA y bd Prot mediante el algoritmo Smith-Waterman Muy lento <10 fasta pero muy sensible. fastx/y3 DNA (traducido 3 frames) frente bd proteínas. Admite gaps y frameshifts Velocidad x > y tfastx/y3 Proteína frente bd DNA traducido 6 frames fasts3 tfasts3* Mezcla de péptidos pequeños relacionados (mass-spec) frente bd proteína (fasts) o bd DNA (tfasts)* fastf3 tfastf3* Mezcla de péptidos (obtenida por Edman o CNBr) frente bd proteína (fastf) o bd DNA (tfastf)* >mgstm1 MILG, MLLEYTD, MGDAP >mgstm1 MGCEN, MIDYP, MLLAY, MLLGY

64 © Copyright Ebiointel,SL 2006 MATRIX Matriz de búsqueda GAP PENALTIES GAPOPEN: Penalización por apertura gap (-12 para proteínas, -16 para DNA). GAPEXT: Penalización extensión del gap (-2 para proteínas, -4 para DNA). HISTOGRAM Muestra el histograma con las frecuencias de las coincidencias por azar. SCORES Puntuación de los alineamientos ALIGNMENTS Número de alineamientos que se visualizaran KTUP Proteínas: 2DNA: 6 STRAND Cadena de DNA EXPECTATION VALUE Límite superior para la presentación de un alineamiento. Valores por defecto son 10.0 para Prot/Prot; 5.0 para proteínas frente Prot/Prot de DNA y 2.0 para búsquedas DNA/DNA. EXPECTATION VALUE THRESHOLD Límite inferior para la presentación de un alineamiento. Opciones FASTA

65 © Copyright Ebiointel,SL 2006

66 Job FASTA

67 © Copyright Ebiointel,SL 2006 Resultados FASTA

68 © Copyright Ebiointel,SL 2006 Mview Results FASTA

69 © Copyright Ebiointel,SL 2006 Visual FASTA

70 © Copyright Ebiointel,SL 2006 Práctica FASTA Búsqueda por similitud Iniciar una sesión FASTAFASTA Seleccionar el programa y fijar los parámetros de búsqueda en función de la naturaleza de la secuencia problema. Introducir la secuencia problema Someter la búsqueda Visualizar y comentar los resultados Diferencias frente a BLAST

71 © Copyright Ebiointel,SL 2006


Descargar ppt "© Copyright Ebiointel,SL 2006 Alineamiento de secuencias:"

Presentaciones similares


Anuncios Google