Algoritmos para alineamientos locales: FastA

Algoritmos para alineamientos locales: FastA

Para qué buscar en la base de datos de las secuencias?
Identificar la función Estructura terciaria de una nueva proteína por analogía con una proteína de función y/o estructura 3D conocida

Por qué se creo? El método de Needleman and Wunch no funcionaba bien, trabajaba demasiado lento para las computadoras de ese tiempo.

Introducción Descrito por Lipman and Pearson (1985)
FASTA es un programa para hacer un alineamiento rápido de pares de proteínas y secuencias ADN Se basa en la identificación de palabras pequeñas o K-tuples, comunes a ambas secuencias bajo comparación. K-tuples Proteínas: 1 ó 2 residuos ADN: 1- 6 bases

Reminder – Dot Plot Analysis
La comparación ente k-tuples y sus derivados entre dos secuencias, pueden ser observados enfocándose en “matches” diagonales en una matriz de programación dinámica. comparisons (488 x 500)

FastA Usa una aproximación heurística para unir K-tuples que caen muy cercanas en la misma diagonal Las regiones formadas en esta forma contienen mismatches cayendo entre matching k-tuples. Si un número significativo de matches es encontrado, FastA usa un algoritmo de programacion dinámica para computar alineamientos con gaps que incorporen las regiones sin gaps.

Cómo FASTA identifica la similaridad?

FASTA Provee una forma rápida de encontrar extensiones cortas de secuencias similares entre una secuencia nueva y cualquier secuencia en la base de datos. Cada secuencia es partida en pequeñas palabras de unos cuantos caracteres de longitud. Y estas palabras son organizadas en una tabla indicando donde se encuentran ellas dentro de la secuencia. Si una o mas palabras están presentes en ambas secuencias, y especialmente si varias palabras pueden ser unidas, entonces las secuencias deben ser similares en esas regiones

FASTA usa un método algorítmico conocido como Hashing

FASTA Mas que comparar residuos individuales, busca palabras o patrones de secuencias emparejadas, llamadas K-tuples Este patrón comprende K emparejamientos consecutivos en ambas secuencias.

FASTA Debido a la habilidad del algoritmo de encontrar secuencias emparejadas en la base de datos de una secuencia con gran velocidad, FASTA es útil para búsquedas rutinarias de este tipo. Para búsquedas en ADN es teóricamente mas capaz de encontrar parejas que BLAST porque se debe usar un K-tuple menor al mínimo obligatorio uno, de 7 para el BLASTN.

¿Cómo FASTA encuentra similaridades entre secuencias?
4 steps: use lookup table to find all identities at least ktup long, find regions of identities (Fig.1A) rescan 10 regions (diagonals) with highest density of identities using PAM250 (Fig.1B) join regions if possible without decreasing score below threshold (Fig.1C) rescore ala Smith-Waterman 32 residues around initial region (Note: doesn’t save alignment) (Fig.1D)

Initial scans with ktup=1 and ktup=2
default ktup = 2 for proteins, 6 for DNA

¿Como FASTA encuentra similaridades entre secuencias?

Parametros de FASTA Busca primero palabras cortas (kups-secuencias ordenadas de k residuos) que están en la secuencia query y en el banco de datos: init 1 score. Después, usando BLOSUM 50, el algortimo asigna un puntaje a los 10 alineamientos sin gaps y con kups mas parecidos: init n score. Realiza un alineamiento con gaps y un alineamiento local optimo con puntaje registrado (puntaje optimizado): opt score.

FASTA Cuanto menor el valor de kup, mas lenta y cuidadosa seran las busquedas; valores mayores de kup favorecen busquedas mas rapidas y con menos falsos positivos. Los alineamientos resultantes, se basan en el algoritmo de Smith-Waterman.

Diferencias entre FASTA y BLAST (Durand et al 1997)
FASTA provee alineamientos de secuencias con espacios, pero de forma optimizada. BLAST provee alineamientos de secuencias sin espacios. Ambos programas no usan el mismo sistema de puntaje para alinear las secuencias de las bases de datos emparejadas con la secuencia query. 17

ktup. Tanto FASTA como BLAST usan una estrategia de búsqueda inicial basada en palabras cortas.
ktup en FASTA es el parámetro que indica el tamaño de la palabra utilizada en esta búsqueda inicial. FASTA utiliza por default ktup=2, mientras que BLAST utiliza ktup=3. Sin embargo, FASTA sólo considera identidades respecto a la palabra, mientras que BLAST utiliza identidades y sustituciones conservativas. Por lo tanto BLAST con ktup=3 es en general más sensible que FASTA con ktup=2. FASTA con ktup=1 es más sensible, pero es también más lento.

Matrices y scores

Homólogos distantes. Existe una opción en FASTA (-F) que les permite ignorar (i.e. que no aparezcan en el output) secuencias altamente similares al query. Esto es útil, por ejemplo, para focalizar una búsqueda en las secuencias más divergentes. No existe una opción similar en BLAST.

Filtrado de secuencias de baja complejidad
Filtrado de secuencias de baja complejidad. Por default, BLAST filtra secuencias de baja complejidad o repeticiones. FASTA no!. Esto puede afectar la capacidad de discriminar falsos positivos, aunque FASTA provee otro tipo de opciones para manejar este tipo de casos. Ver la sección específica sobre este punto más abajo

Secuencias cortas. Ya sea que busquen un primer o un péptido, si quieren utilizar BLAST o FASTA para esto, tengan en cuenta que BLAST es generalmente inútil al respecto. Esto es porque BLAST tiene un límite inferior sobre la longitud que puede tener una palabra (ktup). En el caso de nucleóti dos, el límite inferior es 7 (el default es 11). En este sentido FASTA es mejor, porque siempre pueden usar ktup=1. Por otra parte, en el caso específico de péptidos, FASTA provee algunos algoritmos particulares de búsqueda (fastf3, fasts3 y tfasf3, tfasts3).

Muchas secuencias son altamente repetitivas
Muchas secuencias son altamente repetitivas. Si la secuencia query contiene regiones de baja complejidad o repeticiones, es posible que una búsqueda encuentre muchas secuencias no relacionadas, con altos scores (por ej hits contra colas de poly-A o regiones ricas en Prolina). En otros casos, la secuencia puede contener vector (plásmido) o repeticiones como Alu, que ustedes pueden querer omitir en la búsqueda. BLAST permite filtrar el primer tipo de casos, mediante la opción -F. FASTA en cambio no provee esta alternativa. Es el usuario el que tiene que filtrar el query antes de realizar una búsqueda.

Versiones de FASTA FASTA: compara secuencia de una proteina Query / biblioteca de secuencias de proteínas. TFASTA: compara secuencia de una proteina Query / biblioteca de secuencias de ADN FASTF/TFASTF y FASTS/TFASTS: compara pequeños fragmentos de pépticos / base de datos de secuencias de proteína (FASTF/FASTS) o base de datos de secuencias de ADN (TFASTF/TFASTS).

FASTX y FASTY: Traduce una secuencia de ADN en sus 3 regiones de marco de lectura forward y compara estos 3 marcos con una base de datos de proteínas. TFASTX y TFASTY: compara una secuencia de proteínas con una base de datos de ADN traduciendo cada secuencia de ADN en sus 6 posibles marcos de lectura.

Ejemplo: Realizaremos un FASTA de la secuencia de M. bovis
MBOVIS(MrWr) MRALIIVDVQNDFCEGGSLAVTGGAALARAISDYLAEAADYHHVVATKDFHIDPGDDFSGTPDYSSSWPPHCVSGTPGADFHPSLDTSAIEAVFYKGAYTGAYSGFEGVDENGTPLLNWLRQRGVDEVDVVGIATDHCVRQTAEDAVRNGLATRVLVDLTAGVSADTTVAALEEMRTASVELVCSPDGTA 26

Algoritmos para alineamientos locales: FastA

Presentaciones similares

Presentación del tema: "Algoritmos para alineamientos locales: FastA"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Algoritmos para alineamientos locales: FastA

Presentaciones similares

Presentación del tema: "Algoritmos para alineamientos locales: FastA"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback