© Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

Slides:



Advertisements
Presentaciones similares
ALGORITMOS GENETICOS EVOLUCIÓN DE UNA POBLACIÓN DE
Advertisements

PSI-BLAST.
BLAST.
HOMOLOGY MODELLING Modelado por homologia o comparativo
Optimización de Consultas Distribuidas
Investigación algorítmica
Alineamiento de Secuencias Biológicas
DIAGRAMAS DE CLASES Completando los diagramas de interacción, es posible identificar la especificación de las clases que participarán en la solución indicando.
Programación dinámica (1)
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Encuentra las 12 diferencias
El sistema de puntuación
Aplicaciones de la derivada Resuelve problemas de optimización aplicando las ideas básicas relacionadas con extremos de funciones de una variable Bloque.
O (m × n).
RUBRICA 6 DE NOVIEMBRE DE 2012.
UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA CENTRO DE INVESTIGACIONES PSICOLÓGICAS.
La PD no es adecuada para buscar en BD
Matrices Es una estructura homogénea, compuesta por varios elementos, todos del mismo tipo y almacenados consecutivamente en memoria A cada elemento se.
Capítulo 4 BUSQUEDA INFORMADA.
Profile HMMs Perfiles de Modelos ocultos de Markov
Especificación de Consultas M
Optimización, Búsqueda Heurística
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Diseño y análisis de algoritmos
En PDB hay estructuras experimentales de proteínas.
Los HMM son modelos probabilísticos de una secuencia
SERIES TEMPORALES.
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
DEFINICIONES Sea (P) el siguiente problema de programación lineal:
Universidad de Panamá Escuela de Biología Departamento de genética Genética de Poblaciones Integrantes: Castellanos, Rebeca Robinson, Anine Robles, Jazmin.
Introducció a la Bioinformàtica
Matrices de Substitución PAM Y BLOSUM
MÉTODO DE PIXELES DE BORDE
Planificación de Procesos
Manejo de datos en el Paquete Estadístico para las Ciencias Sociales
Capítulo 7 Gestión de memoria.
3. Análisis de Correspondencias Simples
Busqueda avanzada con BLAST Preparada por Genis Parra.
Comparar secuencias = Obtener información
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Alineamiento de dos secuencias
Alineamiento.
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional.
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Algoritmos para alineamientos locales: FastA
Matrices de sustitución
Introducción al Biclustering
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
Las inserciones y deleciones se penalizan con un peso W Se construye una matriz H de n + 1 filas y m + 1 columnas. La secuencia de A se ubica en las filas.
Indexación M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Nieves Ábalos Serrano Mª Teresa Jiménez Ramírez
Bases de datos secundarias. Briefings in Bioinformatics 3 (2002):
Alineamiento local: búsqueda de homologías
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
DIAGRAMA DE FLECHAS O RUTA CRITICA
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Victoria Alejandra Montoya Expositora
Introducción a la Bioinformática
INTRODUCCIÓN A SPSS Statistic Package for Social Sciencies.
Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta.
Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
PROSITE: Guía rápida Dirección URL de PROSITE.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.
Transcripción de la presentación:

© Copyright Ebiointel,SL 2006 Alineamiento de secuencias:

© Copyright Ebiointel,SL 2006 Un alineamiento compara permitiendo: Identificar genes homólogos/similares Asignar funciones biológicas (reales, posibles?) Predecir estructura Encontrar patrones Reconstruir relaciones evolutivas …… Identificar genes homólogos/similares Asignar funciones biológicas (reales, posibles?) Predecir estructura Encontrar patrones Reconstruir relaciones evolutivas ……

© Copyright Ebiointel,SL 2006 Homólogo, similar, idéntico Homología –dos secuencias son hom ó logas s ó lo si derivan de una ancestro com ú n –implica una herencia compartida –cualitativo –se es homólogo o no se es Similitud –medida cuantitativa –se puede usar una medida de similitud para inferir homología Homología vs similitud

© Copyright Ebiointel,SL 2006 Secuencia 1: ATGCGACTGACG Secuencia 2: ATGCGACTGACG |||||||||||| Significado de un alineamiento Estadístico Por azar (alineamiento de secuencias al azar pueden producir un 20% identidad) Biológico Comparten un ancestro común. Implica una información funcional, estructural y evolutiva Alineamiento Comparar dos (alineación a pares) o más (alineación múltiple) secuencias para buscar una serie de caracteres o patrón de caracteres que están en el mismo orden en las secuencias Alineamiento de secuencias

© Copyright Ebiointel,SL 2006 Búsqueda de una puntuación (mayor o menor, astringencia) dentro de la ventana Puntuación: valoración del aparejamiento (matrices) Astringencia: mínima coincidencia admitida Ventana: longitud del bloque a comparar Alineamiento de secuencias

© Copyright Ebiointel,SL 2006 Un proceso de alineamiento debe efectuar una búsqueda activa del mejor alineamiento posible y debe considerar los cambios que sufren las secuencias: Sustituciones -> Desemparejamientos (mistmatches) Deleciones e inserciones (indel) -> Huecos (Gaps) Alineamiento de secuencias

© Copyright Ebiointel,SL 2006 Valoración (score) de un alineamiento Máxima puntuación = Alineamiento óptimo Puntuación = F (puntuación emparejamiento idéntico, puntuación emparejamiento similar, puntuación huecos –gap-) Valoración de un alineamiento

© Copyright Ebiointel,SL 2006 Valoración de un alineamiento Como valorar un alineamiento? Ejemplo Identidad = 1 Missmatch = 0 Gap = -1 Score = = 6 Ejemplo Identidad = 1 Missmatch = 0 Gap = -1 Score = = 6

© Copyright Ebiointel,SL 2006 A G C T A +1 –3 –3 -3 G –3 +1 –3 -3 C –3 – T –3 –3 –3 +1 CAGGTAGCAAGCTTGCATGTCA || |||||||||||| ||||| raw score = 19-9 = 10 CACGTAGCAAGCTTG-GTGTCA Score Match: + 1 Mismatch: Score Match: + 1 Mismatch: Score Match: + 1 Mismatch: - 3 Score Match: + 1 Mismatch: - 3 Matriz para DNA Valoración de un alineamiento

© Copyright Ebiointel,SL 2006 Modelos evolutivos DNA Matriz de substitución para DNA Transiciones / Transversiones p(transición) > p(transversión) Transiciones / Transversiones p(transición) > p(transversión) Ejemplo: A,A = 1 A,C = 0 C,T = 0,5 Gap = -1 Ejemplo: A,A = 1 A,C = 0 C,T = 0,5 Gap = -1 Matriz para DNA Valoración de un alineamiento

© Copyright Ebiointel,SL 2006 Matrices de puntuación para proteínas Secuencia A Tyr Cys Asp Ala Secuencia B Phe Met Glu Gly Matrices de susbtitución Puntuación total del alineamiento: = 4 Secuencia A Tyr Cys Asp Ala Met Secuencia B Phe Met Glu Gly Met Puntuación total del alineamiento: = 1 Matriz de identidad Matriz para Proteínas Valoración de un alineamiento

© Copyright Ebiointel,SL 2006 Modelos evolutivos Proteínas Matriz de substitución para proteínas PAM 60, 120, 250 (Dayhoff) Extrapolación desde PAM15 BLOSUM 80, 62, 40 Basadas en BLOKCS de secuencias Matriz de substitución para proteínas PAM 60, 120, 250 (Dayhoff) Extrapolación desde PAM15 BLOSUM 80, 62, 40 Basadas en BLOKCS de secuencias Mutaciones (código genético) Substituciones conservativas Matriz para Proteínas Valoración de un alineamiento

© Copyright Ebiointel,SL 2006 Matrices PAM (Percent Accepted Mutation) Evolutionary model Derived from observation; small dataset of alignments All calculated from PAM1 PAM250 widely used Matrices BLOSUM (BLOck SUbstitution Matrices) Derived from observation; large dataset of highly conserved blocks Each matrix derived separately from blocks with a defined percent identity cutoff BLOSUM45 is derived from sequence blocks clustered at the 45% identity level BLOSUM62 - default matrix for BLAST Valoración de un alineamiento

© Copyright Ebiointel,SL 2006 Matriz PAM 250 Valoración de un alineamiento

© Copyright Ebiointel,SL 2006 Blosum 62 A 4 R -1 5 N D C Q E G H I L K M F P S T W Y V X A R N D C Q E G H I L K M F P S T W Y V X D F Negative for less likely substitutions D Y F Positive for more likely substitutions Valoración de un alineamiento

© Copyright Ebiointel,SL 2006 PAM100 ==> Blosum90 PAM120 ==> Blosum80 PAM160 ==> Blosum60 PAM200 ==> Blosum52 PAM250 ==> Blosum45 PAM100 ==> Blosum90 PAM120 ==> Blosum80 PAM160 ==> Blosum60 PAM200 ==> Blosum52 PAM250 ==> Blosum45 Equivalencia PAM - BLOSUM BLOSUM: “mejor” para la detección alineamientos locales BLOSUM 62, detección similitudes débiles BLOSUM 45, detección alineamientos largos y débiles BLOSUM: “mejor” para la detección alineamientos locales BLOSUM 62, detección similitudes débiles BLOSUM 45, detección alineamientos largos y débiles Valoración de un alineamiento

© Copyright Ebiointel,SL 2006 PAM vs BLOSUM Modelo subyacente PAM asume un modelo evolución markoviano BLOSUM no supone ningún modelo evolutivo explícito Aminoácidos utilizados en las estimas de las puntuaciones PAM considera todas las posiciones aminoacídicas BLOSUM considera sólo los cambios en posiciones dentro de bloques conservados Conclusión: PAM es más adecuada para trazar el origen evolutivo de proteínas BLOSUM es más apropiada para hallar dominios conservados Valoración de un alineamiento

© Copyright Ebiointel,SL 2006 MNLSRDTA M SRDTA | ||||| Penalización por hueco (Gap penalty) W x = g + rx W es la puntuación x la longitud del gap g la penalización de abrir un gap r la de la extensión de un gap MNLSRDTA M SSRDTA | |||||| Muchos programas de alineamiento sugieren los valores apropiados Penalización al final del alineamiento Sí en secuencias homólogas misma longitud No en secuencias desconocidas o longitud diferente Valoración de un alineamiento: gaps

© Copyright Ebiointel,SL 2006 Programas de alineamiento de DNA Programa Tipo de Match Mismatch Penalización Penalización alineamiento score score apertura gaps extensión gaps FASTA local Valores de penalización de gaps Programas de alineamiento de Proteínas Programa Tipo de Match y Mismatch Penalización Penalización alineamiento score apertura gaps extensión gaps FASTA local Valores BLOSUM BLASP local Valores BLOSUM Valoración de un alineamiento: gaps

© Copyright Ebiointel,SL 2006 Efecto de la variación en la penalización de huecos (gap) (Vingron & Waterman 1994) Si se penaliza alto (relativamente) no aparecerán en el alineamiento Si bajo, gaps serán ubicuos Si la penalización gaps y desemparejamientos (mismatches) es alta habrá un alineamiento local con emparejamientos exactos Si penalización desemparejamiento es alta (doble que la de emparejamiento), la penalización del gap es crucial en el alineamiento Si la penalización desemparejamiento es menor que el doble de la de emparejamiento, hay un amplio espectro de posibles alineamientos dependientes de la puntuación de los gaps y desemparejamientos El alineamiento de proteínas relacionadas muestran que gaps > 5 nunca ocurren Valoración de un alineamiento: gaps

© Copyright Ebiointel,SL 2006 Matriz de puntos (Dot matrix, Gibbs & McIntyre 1970 ) Cualquier alineamiento se ve como una diagonal en la matriz A| X. C|. X A T G C A G|X. X | | | | T|. X G A T G C A|. X G A T G C C| X G| X A T G C T| X | | | | A|X A T G C A T G C Alineamiento: matriz de puntos

© Copyright Ebiointel,SL 2006 Matriz de puntos (Dot matrix) A|X X X T| X X G| X. T| X. A T C A C T G T A C| X. | | | | | | | A|X X A T C A - - G T A C| X T| X X A|X X A T C A G T A Detección de indels: inserciones / deleciones Alineamiento: matriz de puntos

© Copyright Ebiointel,SL 2006 Matriz de puntos de dos proteínas represoras en fagos, λ cI y P22 c2 Nucleótidos Ventana = 11 Astringencia = 7 11/7 ó 15/11 Aminoácidos Ventana = 1 Astringencia = 1 1/1 excepto búsquedas pequeños dominios 15/5 Alineamiento: matriz de puntos

© Copyright Ebiointel,SL 2006 Matriz de puntos de la proteína receptora humana LDL con ella misma. Ventana = 1 Astringencia = 1 Ventana = 23 Astringencia = 7 Alineamiento: matriz de puntos

© Copyright Ebiointel,SL 2006 Representación de un alineamiento: “camino” en la matriz AT-ACTTGAC ATGAC--GAC A A Alineamiento: matriz de puntos

© Copyright Ebiointel,SL 2006 Métodos de alineamiento de dos secuencias Algoritmos de programación dinámica Smith-Waterman (local) Needleman-Wunsch (global) Métodos heurísticos BLAST (Basic Local Algorithm Search Tool) Altschul et al., 1990 ; Gapped, Altschul et al., 1997 FASTA Lipman y Pearson, 1985 Métodos de alineamiento

© Copyright Ebiointel,SL 2006 Alineamiento local de Smith-Waterman (1981) Alineamiento global de Needlman-Wunsh (1970) Algoritmos de programación dinámica para el alineamiento de secuencias Encuentran el alineamiento o serie de alineamientos óptimos evitando calcular todos los alineamientos (y puntuaciones) de dos secuencias (m x n) Uso de un algoritmo recursivo que añade residuos en una posición sobre el alineamiento mejor hasta esa posición. Una ruta óptima que termina en un nodo debe pasar por uno de los tres nodos previos n + m n n= 7 y m= 10 -> Programación dinámica

© Copyright Ebiointel,SL 2006 Algoritmos de programación dinámica para el alineamiento de secuencias S(i-1,j-1) + c(i,j) S(i,j) = max S(i-1,j) + c(i,-) S(i,j-1) + c(-,j) Secuencia 1: ACGCTGASecuencia 2: ACTGT 1: ACG 2: ACT ||· 1: AC-G 2: ACTG ||·| 1: ACGC 2: ACT- ||· Puntuación (score, S): Identidad (match) = 3 No idéntico (unmatched) = -1 Hueco (gap) = -5 Score, S = = = = 0 1: ACGC 2: ACTG ||·· 1: AC-GC 2: ACTG- ||·|| 1: ACGC- 2: ACT-G ||· Score = 5 -1 = 4Score = 4 -5 = -1Score = 0 -5 = -5 Programación dinámica

© Copyright Ebiointel,SL 2006 Preparación de una matriz n x m Alineamiento global de Needlman- Wunsh secuencia 1 = MNALSDRT secuencia 2 = MGSDRTTET GAP = (x - 1) x = longitud hueco Programación dinámica

© Copyright Ebiointel,SL 2006 Poner puntuación a cada par aminoacídico (basado en matriz PAM250) En paréntesis se dan las puntuaciones de cuatros posibles emparejamientos (matches) Programación dinámica

© Copyright Ebiointel,SL 2006 Cálculo de la puntuación Se ponen las puntuaciones máximas en cada celda. La flecha indica la celda previa de la matriz que se usó para obtener la puntuación Cada fila y columna de la secuencia debe llenarse antes de avanzar una celda hacia la derecha y abajo Programación dinámica

© Copyright Ebiointel,SL 2006 Matriz de puntuación completa Se completa la matriz La última fila y columna (alineamiento global) se examina y se selecciona la mayor puntuación. El valor es 5 si no consideramos gap final, sino es -5 Programación dinámica

© Copyright Ebiointel,SL 2006 Matriz hacia atrás (trace-back matrix) La matriz nos permite reconstruir el alineamiento a partir del último match T-T, que tiene la puntuación mayor. La matriz muestra los movimientos de una posición a la otra que han dado máxima puntuación Programación dinámica

© Copyright Ebiointel,SL 2006 sequence 1 M - N A L S D R T sequence 2 M G S D R T T E T score = -5 Alineamiento 1 Alineamiento 2 sequence 1 M N - A L S D R T sequence 2 M G S D R T T E T score = -5 Alineamiento 3 (no penalización de gap final) sequence 1 M N A L S D R T sequence M G S D R T T E T score = 10 Programación dinámica

© Copyright Ebiointel,SL 2006 Alineamiento local con el algoritmo de Smith-Waterman secuencia 1 S D R T secuencia 2 S D R T score = 15 Debe haber puntuación negativa para los desemparejamientos y si la puntuación de la matriz obtiene un valor negativo se pone 0 Así el alineamiento puede empezar en cualquier punto y se acaba cuando la puntuación alcanza el valor de 0 Programación dinámica

© Copyright Ebiointel,SL 2006 Alineamiento global y local Needleman & Wunsch (1970) Las secuencias se alinean esencialmente de un extremo a otro Smith & Waterman (1981) Las secuencias se alinean en regiones pequeñas y aisladas

© Copyright Ebiointel,SL 2006 Ejemplo on-line alineamiento global vs local Preparación de una matriz n x m Global vs local on-line

© Copyright Ebiointel,SL 2006 Objetivo Comparar los resultados obtenidos al alinear dos secuencias problema con programes de alineamiento local Smith-Waterman (water) global Needleman and Wunsch (needle) Alineamientos Iniciar una sesión en EMBOSS EMBOSS Introducir las secuencias Sequence 1 NGPSTKDFGKISESREFDNQNGPSTKDFGKISESREFDNQ * Sequence 2 QNQLERSFGKINMRLEDALVQNQLERSFGKINMRLEDALV Comparar (water o needle), visualizar y comentar Práctica alineamiento de pares de secuencias Global vs local

© Copyright Ebiointel,SL 2006 MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTLFGWGYDDNPV PGGGGVYSMATLNGEAVAAIAPMPPGAPEGMPPIWNTYIAVDD VDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGWQ ANRHIGATLVNETGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEI AAGQNY Búsquedas por similitud ¿Hay en la base de datos alguna secuencia similar a mi secuencia problema? Resultados Similar to ………… Unknown but similar to sevral hypothetical proteins from… Putative hypothetical protein……..

© Copyright Ebiointel,SL 2006 Búsqueda de similares Búsqueda de similares en una base de datos Objetivo: comparar una secuencia frente a una base de datos, comprar dos base de datos,.. Algoritmos Exactos: Smith-Waterman (sssearch, lalign,..) Heurísticos: BLAST (búsqueda de “words” similares) FASTA (búsqueda de “k-tuplos” idénticos)

© Copyright Ebiointel,SL 2006 FASTA (Lipman y Pearson, 1985; Pearson y Lipman, 1988) El algoritmo busca patrones cortos consecutivos (palabras o k-tuplos, k= 1-2 aa / 4-6 nt) entre la secuencia problema y las de la base de datos. BLAST (Basic Local Alignment Search Tool) (Altschul, et al, 1990, J Mol Biol, 215:403-10) Concentra la búsqueda en patrones cortos más significativos, (palabra, word size: 3 aa / 11 nt). Rápido, menos sensible? Método heurístico: prueba y error Suele encontrar secuencias relacionadas pero nunca hay garantía absoluta. Ventaja: 50 veces más rápido que programa dinámicos Usos: búsquedas sobre bases de datos de gran tamaño Métodos heurísticos

© Copyright Ebiointel,SL 2006 Búsquedas con Blocks Motivos alineados sin gaps (PSSM position-specific scoring matrix) Búsquedas con secuencias de DNA o aa FASTA, BLAST Búsquedas con perfiles Archivos con alineamientos DAHQS N ESHQS Y EAHQS N EGVQS Y D-HQSNGA ESHQ-YTM EAHQSN-L EGVQSYSL >SeqDNA_Prob1.seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTA TGAGCTGGAAGAAGAGGGAGTCACCCCTCTTCGCGCTAGGATCG CTGAGCG Búsquedas de patrones y motivos PROSITE, INTERPRO, PFAM,.. DAHQS N Secuencias problema

© Copyright Ebiointel,SL 2006 Significación - Valoración de los alineamientos 1.Valoración mediante matrices 2.Penalización por disimilitud (aparición y extensión de gaps). Este valor es la Puntuación bruta (raw score, Sraw). 3.Puntuación de bits (Sbit). Permite comparar resultados obtenidos por diferentes sistemas. Se introducen parámetros utilizados por el programa de alineamiento. 4.E value alineamiento debido al azar. Los valores más cercanos a cero indican una mayor relevancia. Se puede considerar relevante cuando E < 0.05.

© Copyright Ebiointel,SL 2006 Significancia Expect Value E = numero de hits esperado por azar Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar. Valores mas bajos serán mas significativos Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar. Valores mas bajos serán mas significativos

© Copyright Ebiointel,SL 2006 (Basic Local Alignment Search Tool) Altschul, et al, 1990, J Mol Biol, 215: Usos búsquedas en las bases de datos alineamiento de pares de secuencias Estrategia BLAST Búsqueda de proteínas mediante criterios de semejanza (no identidad). Se utilizan matrices de semejanza Trabaja con segmentos pequeños que permiten acelerar el proceso (High-scoring segment pair) Extensión de los match hacia los lados Rápido y sensible Heurístico BLAST intenta encontrar muchos matches sacrificando la especificidad por la velocidad. Se pueden perder apareamientos. Glossary

© Copyright Ebiointel,SL 2006 Esquema BLAST

© Copyright Ebiointel,SL 2006 Nucleótidos GTACTGGACATGGACCCTACAGGAA Query: GTACTGGACAT TACTGGACATG ACTGGACATGG CTGGACATGGA TGGACATGGAC GGACATGGACC GACATGGACCC ACATGGACCCT Minimum word size = 7 blastn default = 11 megablast default = 28 Word Size = 11

© Copyright Ebiointel,SL 2006 Proteínas Word Size = 3 GTQITVEDLFYNIATRRKALKN Query: Similares LTV, MTV, ISV, LSV, etc. GTQ TQI QIT ITV TVE VED EDL DLF...

© Copyright Ebiointel,SL 2006

Selección del programa BLAST Help

© Copyright Ebiointel,SL 2006

Opciones Conserved Domain Database

© Copyright Ebiointel,SL 2006 Introducción de la Secuencia FASTA FORMAT

© Copyright Ebiointel,SL 2006 Otras opciones Expect: 10, máximo de 10 al azar. Valores inferiores son mas restrictivos. Word Size: medida de los fragmentos (k-tup FASTA)

© Copyright Ebiointel,SL 2006 Formatos

© Copyright Ebiointel,SL 2006 Práctica Objetivo general Buscar secuencias similares a las secuencias problema. BLAST DNA Copiar la Secuencia PROBLEMA i someterla a BLAST de DNA >SeqDNA_Prob1.seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAG GGAGTCA CCCCTCTTCGCGCTAGGATCGCTGAGCGTCTGGAACAATCTGGACCTACAGTTAGCCAAACCG TTGCCCG TATGGAGCGCGATGGACTTGTCGTTGTCGCCTCAGACCGCAGTCTACAAATGACACCGACAGG CCGCACT TTAGCGACTGCAGTTATGCGTAAACATCGCTTAGCTGAGCGCCTTCTTACCGATATCATTGGTC TAGATA TCAATAAAGTTCACGATGAAGCCTGCCGCTGGGAACACGTTATGAGTGACGAAGTTGAACGCA GGCTCGT GAAAGTATTGAAAGATGTCAGTCGGTCCCCCTTCGGAAACCCAATTCCAGGTCTCGACGAACT CGGCGTA GGCAATTCTGACGCGGCAGCCCCCGGAACTCGCGTTATTGACGCTGCCACCAGCATGCCCCG CAAAGTAC GCATTGTTCAGATTAACGAAATCTTTCAAGTTGAAACGGATCAGTTTACACAGCTCCTCGATGC TGACAT CCGTGTTGGATCAGAAGTCGAAATTGTAGATAGAGACGGCCACATCACGTTGAGCCACAATGG AAAAGAT GTCGAACTCCTCGATGATCTGGCTCACACTATTCGTATCGAAGAACTCTAA Iniciar una sesión BLAST NucleotideBLAST Nucleotide Limitar la búsqueda a Blast de Bacteria

© Copyright Ebiointel,SL 2006 BLAST Proteína Copiar la secuencia PROBLEMA i someterla a BLAST de Proteína >SeqProt-Prob1.pep MENRIDRIKKQLHSSSYKLTPQREATVRVLLENEEDHLSAEDVYLLVKEKSPEIGLATVY RTLELLTELKVVDKINFGDGVSRYDLRKEGAAHFHHHLVCMEFGAVDEIEGDLLEDVEEI IERDWKFKIKDHRLTFHGICHRCNGKETE Iniciar una sesión BLAST ProteinBLAST Protein Limitar la búsqueda a Blast de Bacteria Ejecutar Blast Práctica

© Copyright Ebiointel,SL 2006 Objetivo Pretendemos encontrar secuencias bacterianas en diferentes genomas de microorganismos. Realizar una búsqueda tBLASTn sobre genomas microbianos utilizando la secuencia:genomas microbianos >Proteína problema MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTSLFGWGYDDNPVPGGGGVYSMATLNGEAVAAIAPMPPGA P EGMPPIWNTYIAVDDVDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGLWQANRHIGATLVNE TGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNYRVLKAGDAEVGGCMEPPMPGVPNHWHVYFA VDDADATAAKAAAAGGQVIAEPADIPSVGRFAVLSDPQGAIFSVLKPAPQQ Práctica t n Proteína x DNA traducido a Proteína

© Copyright Ebiointel,SL 2006 Objetivo Detectar similares a la secuencia problema y determinar si hay errores. Realizar una búsqueda con BLASTx usando:BLASTx >DNA desconocido ATGCCCAAGAGAAGCGAATACAGGCAAGGCACGCCGAACTGGGTCGACCTTCAGACCACCGATCAGTCCG CCGCCAAAAAGTTCTACACATCGTTggtGTTCGGCTGGGGTTACGACGACCCGGTCCCCGGAGGCGGTGG GGTCTATTCCATGGCCACGCTGAACGGCGAAGCCGTGGCCGCCATCGCACCGATGCCCCCGGGTGCACCG GAGGGGATGCCGCCGATCTGGAACACCTATATCGCGGTGGACGACGTCGATGCGGTGGTGGACAAGGTGG TGCCCGGGGGCGGGCAGGTGATGATGCCGGCCTTCGACATCGGCGATGCCGGCCGGATGTCGTTCATCAC CGATCCGACCGGCGCTGCCGTGGGCCTATGGCAGGCCAATCGGCACATCGGAGCGACGTTGGTCAACGAG ACGGGCACGCTCATCTGGAACGAACTGCTCACGGAttgGCCGGATTTGGCGCTAGCGTTCTACGAGGCTG TGGTTGGCCTCACCCACTCGAGCATGGAGATAGCTGCGGGCCAGAACTATCGGGTGCTCAAGGCCGGCGA CGCGGAAGTCGGCGGCTGTATGGAACCGCCGATGCCCGGCGTGCCGAATCATTGGCACGTCTACTTTGCG GTGGATGACGCCGACcccACGGCGGCCAAAGCCGCCGCAGCGGGCGGCCAGGTCATTGCGGAACCGGCTG ACATTCCGTCGGTGGGCCGGTTCGCCGTGTTGTCCGATCCGCAGGGCGCGATCTTCAGTGTGTTGAAGCC CGCACCGCAGCAATAG Práctica X DNA traducido a Proteína x Proteína

© Copyright Ebiointel,SL Búsqueda de zonas comunes por identidad y sin gaps. Uso de k-tuplo. 2.Velocidad y sensibilidad determinadas por la longitud de la palabra usada. Las palabras cortas hacen la búsqueda más lenta y sensible. 3.Valoración de los match por similitud y unión de las regiones con gaps 4.Evaluación exhaustiva de los mejores alineamientos Alineamientos locales FASTA utiliza una matriz de substitución sólo durante la fase de extensión La reducción del tiempo de búsqueda conlleva una pérdida de sensibilidad y selectividad Estrategia k-tup DNA: 6 Proteína: 2 FASTA

© Copyright Ebiointel,SL 2006 Programas FASTA ProgramaFunciones fasta3 tfasta3* ssearch* DNA, proteína frente bd DNA y bd Prot (fasta) y proteínas frente bd DNA traducido (tfasta), no admite frameshifts DNA, proteína frente bd DNA y bd Prot mediante el algoritmo Smith-Waterman Muy lento <10 fasta pero muy sensible. fastx/y3 DNA (traducido 3 frames) frente bd proteínas. Admite gaps y frameshifts Velocidad x > y tfastx/y3 Proteína frente bd DNA traducido 6 frames fasts3 tfasts3* Mezcla de péptidos pequeños relacionados (mass-spec) frente bd proteína (fasts) o bd DNA (tfasts)* fastf3 tfastf3* Mezcla de péptidos (obtenida por Edman o CNBr) frente bd proteína (fastf) o bd DNA (tfastf)* >mgstm1 MILG, MLLEYTD, MGDAP >mgstm1 MGCEN, MIDYP, MLLAY, MLLGY

© Copyright Ebiointel,SL 2006 MATRIX Matriz de búsqueda GAP PENALTIES GAPOPEN: Penalización por apertura gap (-12 para proteínas, -16 para DNA). GAPEXT: Penalización extensión del gap (-2 para proteínas, -4 para DNA). HISTOGRAM Muestra el histograma con las frecuencias de las coincidencias por azar. SCORES Puntuación de los alineamientos ALIGNMENTS Número de alineamientos que se visualizaran KTUP Proteínas: 2DNA: 6 STRAND Cadena de DNA EXPECTATION VALUE Límite superior para la presentación de un alineamiento. Valores por defecto son 10.0 para Prot/Prot; 5.0 para proteínas frente Prot/Prot de DNA y 2.0 para búsquedas DNA/DNA. EXPECTATION VALUE THRESHOLD Límite inferior para la presentación de un alineamiento. Opciones FASTA

© Copyright Ebiointel,SL 2006

Job FASTA

© Copyright Ebiointel,SL 2006 Resultados FASTA

© Copyright Ebiointel,SL 2006 Mview Results FASTA

© Copyright Ebiointel,SL 2006 Visual FASTA

© Copyright Ebiointel,SL 2006 Práctica FASTA Búsqueda por similitud Iniciar una sesión FASTAFASTA Seleccionar el programa y fijar los parámetros de búsqueda en función de la naturaleza de la secuencia problema. Introducir la secuencia problema Someter la búsqueda Visualizar y comentar los resultados Diferencias frente a BLAST

© Copyright Ebiointel,SL 2006