Algoritmos para alineamientos locales: FastA

Slides:



Advertisements
Presentaciones similares
Diseño y análisis de algoritmos
Advertisements

III - Gestión de memoria
Procesamiento de cadenas
BLAST.
HOMOLOGY MODELLING Modelado por homologia o comparativo
Ordenamiento Interno y Búsqueda Binaria
Aprendizaje de Microsoft® Access® 2010
MÉTODO CIENTÍFICO.
DIAGRAMAS DE FLUJO Y PSEUDOCÓDIGO
Definición Machine learning traducido al español significa el aprendizaje automático o también aprendizaje de las maquinas. A partir de esto podemos darle.
UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
Windows XP sp3.
ESPACIOS VECTORIALES.
Encuentra las 12 diferencias
International Nucleotide Sequence Database Collaboration
Detección de Secuencias Reguladoras en el Genoma
ALGORITMOS es un conjunto preescrito de instrucciones o reglas bien definidas, ordenadas y finitas que permite realizar una actividad mediante pasos.
La PD no es adecuada para buscar en BD
ANOVA Modelo I: Comparación entre medias
PROGRAMACIÓN PARALELA EN ALGORITMOS SOBRE GRAFOS
PROGRAMACION II.  Es un conjunto de datos no necesariamente del mismo tipo, los cuales se podrán manipular o realizar cualquier operación sobre cada.
Matrices Es una estructura homogénea, compuesta por varios elementos, todos del mismo tipo y almacenados consecutivamente en memoria A cada elemento se.
Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Especificación de Consultas M
Planificación de los grupos de usuarios El primer paso del proceso de planificación, decidir la estrategia global de seguridad, es como establecer la.
HAWKES LEARNING SYSTEMS math courseware specialists Copyright © 2010 by Hawkes Learning Systems/Quant Systems, Inc. All rights reserved. Capítulo 12 Más.
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.

Diseño y análisis de algoritmos
COMPUTACION 2009 Clase 6 Clase 7.
Clase 10: Estructuras de datos y arreglos.
Diseño y análisis de algoritmos
COGs Cluster of Orthologous Groups. Genes Ortólogos Comparten una gran similitud en secuencias. Pueden provenir de un ancestro común.
Búsqueda de Ancestros Comunes Para Genomas de Diferentes Especies
CÓDIGOS DE HUFFMAN. Códigos de Huffman Los códigos de Huffman, que representan caracteres por cadenas de bits de longitud variable, proporcionan alternativas.
(Organización y Manejo de Archivos)
Aplicación de estructuras de datos
Matrices de Substitución PAM Y BLOSUM
Alcance Dinámico La Asociación Actual para un Nombre dado es el encontrado recientemente durante la ejecución, y no a sido destruido aun por el retornado.
MÉTODO DE PIXELES DE BORDE
Capítulo 7 Gestión de memoria.
Los Sistemas de Información en la Empresa Introducción a los ERP 1.- El sistema de información de la empresa. Los ERP. Simplificando podemos identificar.
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Busqueda avanzada con BLAST Preparada por Genis Parra.
FILTROS. Un filtro es un programa que recibe una entrada, la procesa y devuelve una salida. Relacionando filtros simples podemos hacer prácticamente cualquier.
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Alineamiento de dos secuencias
Alineamiento.
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Análisis y Diseño de Algoritmos
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Matrices de sustitución
Parte I. Estructuras de Datos.
Alineamiento local: búsqueda de homologías
Objetivo Mostrar los fundamentos de la programación a través de ejemplos y prácticas utilizadas cotidianamente en el desarrollo de aplicaciones.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
coeficientes de correlación de
Victoria Alejandra Montoya Expositora
Introducción a la Bioinformática
Tipos de Datos.
Pixelación de imágenes avanzada usando el algoritmo slic
Lic. Carla Aguirre Montalvo
EJERCICIO SEGUNDO PARCIAL Estructuras físicas de la informacion.
75.41 Algoritmos y Programación II Cátedra Ing. Patricia Calvo Complejidad algorítmica.
ESTRUCTURAS DE DATOS “Conceptualización de estructuras de datos” Por: Eduardo Robayo.
¿Qué es una base de datos? Una base de datos se puede definir como un conjunto de información relacionada que se encuentra agrupada ó estructurada. Desde.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Capítulo 7 Números hasta 20 Primeros Básicos MATERIAL PEDAGÓGICO IRA.
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
Transcripción de la presentación:

Algoritmos para alineamientos locales: FastA

Para qué buscar en la base de datos de las secuencias? Identificar la función Estructura terciaria de una nueva proteína por analogía con una proteína de función y/o estructura 3D conocida

Por qué se creo? El método de Needleman and Wunch no funcionaba bien, trabajaba demasiado lento para las computadoras de ese tiempo.

Introducción Descrito por Lipman and Pearson (1985) FASTA es un programa para hacer un alineamiento rápido de pares de proteínas y secuencias ADN Se basa en la identificación de palabras pequeñas o K-tuples, comunes a ambas secuencias bajo comparación. K-tuples Proteínas: 1 ó 2 residuos ADN: 1- 6 bases

Reminder – Dot Plot Analysis La comparación ente k-tuples y sus derivados entre dos secuencias, pueden ser observados enfocándose en “matches” diagonales en una matriz de programación dinámica. 244000 comparisons (488 x 500)

FastA Usa una aproximación heurística para unir K-tuples que caen muy cercanas en la misma diagonal Las regiones formadas en esta forma contienen mismatches cayendo entre matching k-tuples. Si un número significativo de matches es encontrado, FastA usa un algoritmo de programacion dinámica para computar alineamientos con gaps que incorporen las regiones sin gaps.

Cómo FASTA identifica la similaridad?

FASTA Provee una forma rápida de encontrar extensiones cortas de secuencias similares entre una secuencia nueva y cualquier secuencia en la base de datos. Cada secuencia es partida en pequeñas palabras de unos cuantos caracteres de longitud. Y estas palabras son organizadas en una tabla indicando donde se encuentran ellas dentro de la secuencia. Si una o mas palabras están presentes en ambas secuencias, y especialmente si varias palabras pueden ser unidas, entonces las secuencias deben ser similares en esas regiones

FASTA usa un método algorítmico conocido como Hashing

FASTA Mas que comparar residuos individuales, busca palabras o patrones de secuencias emparejadas, llamadas K-tuples Este patrón comprende K emparejamientos consecutivos en ambas secuencias.

FASTA Debido a la habilidad del algoritmo de encontrar secuencias emparejadas en la base de datos de una secuencia con gran velocidad, FASTA es útil para búsquedas rutinarias de este tipo. Para búsquedas en ADN es teóricamente mas capaz de encontrar parejas que BLAST porque se debe usar un K-tuple menor al mínimo obligatorio uno, de 7 para el BLASTN.

¿Cómo FASTA encuentra similaridades entre secuencias? 4 steps: use lookup table to find all identities at least ktup long, find regions of identities (Fig.1A) rescan 10 regions (diagonals) with highest density of identities using PAM250 (Fig.1B) join regions if possible without decreasing score below threshold (Fig.1C) rescore ala Smith-Waterman 32 residues around initial region (Note: doesn’t save alignment) (Fig.1D)

Initial scans with ktup=1 and ktup=2 default ktup = 2 for proteins, 6 for DNA

¿Como FASTA encuentra similaridades entre secuencias?

Parametros de FASTA Busca primero palabras cortas (kups-secuencias ordenadas de k residuos) que están en la secuencia query y en el banco de datos: init 1 score. Después, usando BLOSUM 50, el algortimo asigna un puntaje a los 10 alineamientos sin gaps y con kups mas parecidos: init n score. Realiza un alineamiento con gaps y un alineamiento local optimo con puntaje registrado (puntaje optimizado): opt score.

FASTA Cuanto menor el valor de kup, mas lenta y cuidadosa seran las busquedas; valores mayores de kup favorecen busquedas mas rapidas y con menos falsos positivos. Los alineamientos resultantes, se basan en el algoritmo de Smith-Waterman.

Diferencias entre FASTA y BLAST (Durand et al 1997) FASTA provee alineamientos de secuencias con espacios, pero de forma optimizada. BLAST provee alineamientos de secuencias sin espacios. Ambos programas no usan el mismo sistema de puntaje para alinear las secuencias de las bases de datos emparejadas con la secuencia query. 17

ktup. Tanto FASTA como BLAST usan una estrategia de búsqueda inicial basada en palabras cortas. ktup en FASTA es el parámetro que indica el tamaño de la palabra utilizada en esta búsqueda inicial. FASTA utiliza por default ktup=2, mientras que BLAST utiliza ktup=3. Sin embargo, FASTA sólo considera identidades respecto a la palabra, mientras que BLAST utiliza identidades y sustituciones conservativas. Por lo tanto BLAST con ktup=3 es en general más sensible que FASTA con ktup=2. FASTA con ktup=1 es más sensible, pero es también más lento.

Matrices y scores

Homólogos distantes. Existe una opción en FASTA (-F) que les permite ignorar (i.e. que no aparezcan en el output) secuencias altamente similares al query. Esto es útil, por ejemplo, para focalizar una búsqueda en las secuencias más divergentes. No existe una opción similar en BLAST.

Filtrado de secuencias de baja complejidad Filtrado de secuencias de baja complejidad. Por default, BLAST filtra secuencias de baja complejidad o repeticiones. FASTA no!. Esto puede afectar la capacidad de discriminar falsos positivos, aunque FASTA provee otro tipo de opciones para manejar este tipo de casos. Ver la sección específica sobre este punto más abajo

Secuencias cortas. Ya sea que busquen un primer o un péptido, si quieren utilizar BLAST o FASTA para esto, tengan en cuenta que BLAST es generalmente inútil al respecto. Esto es porque BLAST tiene un límite inferior sobre la longitud que puede tener una palabra (ktup). En el caso de nucleóti dos, el límite inferior es 7 (el default es 11). En este sentido FASTA es mejor, porque siempre pueden usar ktup=1. Por otra parte, en el caso específico de péptidos, FASTA provee algunos algoritmos particulares de búsqueda (fastf3, fasts3 y tfasf3, tfasts3).

Muchas secuencias son altamente repetitivas Muchas secuencias son altamente repetitivas. Si la secuencia query contiene regiones de baja complejidad o repeticiones, es posible que una búsqueda encuentre muchas secuencias no relacionadas, con altos scores (por ej hits contra colas de poly-A o regiones ricas en Prolina). En otros casos, la secuencia puede contener vector (plásmido) o repeticiones como Alu, que ustedes pueden querer omitir en la búsqueda. BLAST permite filtrar el primer tipo de casos, mediante la opción -F. FASTA en cambio no provee esta alternativa. Es el usuario el que tiene que filtrar el query antes de realizar una búsqueda.

Versiones de FASTA FASTA: compara secuencia de una proteina Query / biblioteca de secuencias de proteínas. TFASTA: compara secuencia de una proteina Query / biblioteca de secuencias de ADN FASTF/TFASTF y FASTS/TFASTS: compara pequeños fragmentos de pépticos / base de datos de secuencias de proteína (FASTF/FASTS) o base de datos de secuencias de ADN (TFASTF/TFASTS).

FASTX y FASTY: Traduce una secuencia de ADN en sus 3 regiones de marco de lectura forward y compara estos 3 marcos con una base de datos de proteínas. TFASTX y TFASTY: compara una secuencia de proteínas con una base de datos de ADN traduciendo cada secuencia de ADN en sus 6 posibles marcos de lectura.

Ejemplo: Realizaremos un FASTA de la secuencia de M. bovis MBOVIS(MrWr) MRALIIVDVQNDFCEGGSLAVTGGAALARAISDYLAEAADYHHVVATKDFHIDPGDDFSGTPDYSSSWPPHCVSGTPGADFHPSLDTSAIEAVFYKGAYTGAYSGFEGVDENGTPLLNWLRQRGVDEVDVVGIATDHCVRQTAEDAVRNGLATRVLVDLTAGVSADTTVAALEEMRTASVELVCSPDGTA 26

27

28

29

30

31

32