La PD no es adecuada para buscar en BD

Slides:



Advertisements
Presentaciones similares
Diseño y análisis de algoritmos
Advertisements

ECONOMIA II Unidad II – Cuentas Nacionales
Procesamiento de cadenas
PSI-BLAST.

BLAST.
Búsqueda en bases de datos
OPERADORES LÓGICOS Diplomado II
ADMINISTRACIÓN DEL CAMBIO.
DIAGRAMAS DE FLUJO Y PSEUDOCÓDIGO
Tema 2: Números aleatorios. Generación de números
La prueba U DE MANN-WHITNEY
Clase # 8: Análisis Conformacional (II)
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
Alineamiento de Secuencias Biológicas
Tema II Unidad de memoria. 2 Unidad de memoria 2.1 Definiciones y conceptos básicos Localización Capacidad Unidad de transferencia
Programación dinámica (1)
Encuentra las 12 diferencias
Objetivos Específicos de la Unidad
Capitulo 10: La metodología Box-Jenkins
International Nucleotide Sequence Database Collaboration
Métodos de muestreo.
HERRAMIENTAS PARA EL CONTROL ESTADÍSTICO DE CALIDAD.
O (m × n).
ANÁLISIS DE CORRESPONDENCIAS SIMPLE
TEMA 6 ECUACIONES.
Universidad de los Andes-CODENSA
Especificación de Consultas M
Desarrollo Pre-Natal de la dentición temporal
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Práctica 1: Alineamientos Partimos de un archivo de datos que contiene 5 secuencias de mRNA asociado a la CFTR archivo de prácticas archivo de prácticas.
Diplomado en Logística de Negocios
DEFINICIONES Sea (P) el siguiente problema de programación lineal:
Administración de Memoria
Métrica v2.1 Técnicas: Modelado de datos (Parte 2)
MODELADO DE DATOS (PARTE 2) Viviana Poblete L. Modelo de Datos I.
Cynthia Fresno 1 QUESTION ANSWERING. Cynthia Fresno2 Índice: 1) ¿Qué es el question answering?. 2) Sistema de question answering. 3) TREC vs. CBC. 4)
Para construir un árbol filogenético se necesitan tres ingredientes básicos:
Métodos de Análisis Ingenieril
MÉTODO DE PIXELES DE BORDE
Capítulo 7 Gestión de memoria.
Seguridad y encriptación
Resuma el uso de la reacción en cadena de la polimerasa (PCR) para copiar y amplificar cantidades mínimas de ADN.
REACCIÓN EN CADENA DE LA POLIMERASA (PCR)
Cinética Química y Equilibrio Químico
3. Análisis de Correspondencias Simples
Comparar secuencias = Obtener información
Alineamiento de dos secuencias
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Herramientas básicas.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Algoritmos para alineamientos locales: FastA
Formularios La mayor parte de los elementos HTML de que disponemos permite al visitante visualizar los contenidos de un sitio, pero no interactuar con.
Normalidad Preparado por: Dr. Juan José García García.
Alineamiento local: búsqueda de homologías
Programación Orientada a Objeto
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Pruebas de hipótesis.
Visual Basic FUNCIONES Y PROCEDIMIENTOS
Introducción a la Bioinformática
Escalamiento Multidimensional No-Métrico. Rasgos generales Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más.
Pixelación de imágenes avanzada usando el algoritmo slic
DISTRIBUCIÓN DE PLANTAS.
MODULACION Concepto: Modular una señal consiste en modificar alguna de las características de esa señal, llamada portadora, de acuerdo con las características.
DATOS ESTADÍSTICOS.
Pruebas paramétricas y no paramétricas
REPLICACIÓN DE ADN.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
MUESTREO: DISEÑO Y PROCEDIMIENTOS
Transcripción de la presentación:

La PD no es adecuada para buscar en BD

Heurística

Un poco de historia

PNAS (1988) 85, 2444-2448 El artículo original

¿Bueno bonito y barato? No existe

Las ventajas de FASTA Mayor velocidad de computación Menor consumo de memoria Mayor sensibilidad = menos FN Mayor selectividad = menos FP selectividad = especificidad Las ventajas de FASTA

El algoritmo FASTA

Etapa nº 1: Identidad

2 for proteins = 400 k-tuples A partir de una secuencia problema se obtienen todos los k-tuplos posibles mediante el método de la ventana deslizante. Se comparan con los de las secuencias de la BD. Las regiones idénticas aparecen como una diagonal. Secuencia problema Secuencia de la BD Se agrupan las diagonales que estén a una cierta distancia una de otra y, para cada secuencia de la BD se localizan las 10 regiones con más densidad de k-tuplos idénticos. 6 for DNA = 4096 k-tuples IDENTIDAD 2 for proteins = 400 k-tuples Etapa nº 1: Localizar k-tuplos idénticos (top ten)

Etapa nº 2: Similitud (limitada al top ten)

Se puntúan los top ten (init1) Las 10 regiones con mayor densidad de k-tuplos idénticos seleccionadas en la etapa anterior se vuelven a puntuar, esta vez utilizando una matriz de sustitución. Esta puntuación es la variable init1. Se identifican las subregiones que obtienen una mayor puntuación (las denominadas regiones iniciales). La región inicial con mayor valor init1 aparece marcada con un asterisco. SIMILITUD Se puntúan los top ten (init1)

Etapa nº 3: Unión de regiones iniciales (con huecos)

Puntuación initn y ranking de secuencias FASTA intenta unir las regiones iniciales cuya puntuación supera un determinado cutoff. Se vuelven a puntuar las regiones unidas penalizando los huecos creados. Esta puntuación se denomina initn y permite hacer un ranking con las secuencias de la BD. Las secuencias que superen cierto umbral de puntuación initn pasan a la cuarta etapa Puntuación initn y ranking de secuencias

Etapa nº 4: Programación dinámica “bandeada”

Etapa nº 4: Alineamiento óptimo “bandeado” (opt) Se utiliza un algoritmo de PD modificado (SW bandeado) para alinear la secuencia problema con la secuencia de la BD. El alineamiento se limita a una estrecha banda centrada en el segmento init1 y que engloba a las diagonales de mayor puntuación. La puntuación de este alineamiento es el parámetro opt, con el que se hace un ranking de alineamientos. También se determina su significación estadística (E-value). Etapa nº 4: Alineamiento óptimo “bandeado” (opt)

Las cuatro etapas de FASTA Etapa nº 1 SIMILITUD IDENTIDAD Etapa nº 2 Los 10 mejores init1 UNIÓN (gaps) Etapa nº 3 initn Etapa nº 4 opt + E-value Resultado Operación PD bandeada Las cuatro etapas de FASTA

http://www.ebi.ac.uk/Tools/sss/fasta/

Variantes del programa FASTA

http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml

BLAST1 J. Mol. Biol. (1990), 403-410

Aplicaciones de BLAST

1.- Procesamiento previo de la secuencia problema

Mediante el método de la “ventana deslizante” se descompone la secuencia problema en “palabras”. El parámetro W (word size) determina el número de caracteres de las palabras. Habitualmente, para proteínas W = 3 y para ADN W = 11 Al aumentar W se gana velocidad a costa de perder sensibilidad Se descompone la secuencia problema en “palabras”

A cada palabra se le asocian “vecinas” (neighbors) Se puntúa cada palabra aplicando una matriz de sustitución. Sólo se tendrán en cuenta las palabras cuya puntuación supere un valor T. Al aumentar T se gana velocidad a costa de perder sensibilidad A cada palabra se le asocian “vecinas” (neighbors)

Resultado de la primera etapa de BLAST Con cada palabra se elabora una lista de “palabras parecidas” Resultado de la primera etapa de BLAST

2.- Se buscan coincidencias en las secuencias de la BD

Coincidencias (word hits) entre dos secuencias

Efecto de los parámetros W (word size) y T (threshold) Un valor de W pequeño aumenta la sensibilidad pero disminuye la velocidad. Un valor de T elevado disminuye la sensibilidad (se reduce le número de “hits” y se puede perder algún alineamiento significativo) pero aumenta la velocidad. Una selección adecuada de W, T y la matriz de puntuación permite controlar de manera eficaz la sensibilidad y la rapidez del algoritmo Efecto de los parámetros W (word size) y T (threshold)

Etapa nº 3: extensión de las “coincidencias” (hits) BLAST1 intenta extender el alineamiento a ambos lados de cada coincidencia (sin dejar huecos), utilizando una variante del algoritmo de Smith-Waterman. Etapa nº 3: extensión de las “coincidencias” (hits)

¿Cuándo se detiene la extensión? → el parámetro X Caída (X) = 5 (se para y retrocede hasta el valor máximo) Máximo = 9 Caída (X) = 2 (sigue) ¿Cuándo se detiene la extensión? → el parámetro X

Selección de los HSP (high scoring pairs)

Etapa nº 4: ranking de HSP (en función del valor E)

El valor E

BLAST2 Nucleic Acids Res. 25:3389-3402 (1997)

Etapa nº 3: algoritmo de la “doble coincidencia” BLAST-2 utiliza el algoritmo de la doble coincidencia (two-hit algorithm): una palabra sólo se extiende (sin huecos) si existe otra en la misma diagonal a una distancia menor que A. El valor del parámetro A lo establece el usuario. Esta extensión genera una serie de alineamientos con una puntuación elevada (HSP, high scoring pairs) Etapa nº 3: algoritmo de la “doble coincidencia”

Se reduce T para compensar la menor sensibilidad Este requisito reduce la sensibilidad del método (se extienden menos palabras). Esta circunstancia se puede compensar disminuyendo el parámetro T (el umbral de puntuación que se utiliza en la primera etapa para generar la lista de “palabras parecidas”). + (T = 13) • (T = 11) Se reduce T para compensar la menor sensibilidad

Se hace una extensión con huecos en los mejores HSP

¿Dónde empieza el alineamiento con huecos? Subsecuencia del HSP de 11 caracteres con la máxima puntuación Residuo central de Alanina donde comienza, en ambas direcciones, el alineamiento local con huecos ¿Dónde empieza el alineamiento con huecos?

¿Dónde acaba el alineamiento con huecos? El alineamiento local con huecos se lleva a cabo en ambas direcciones siempre y cuando la máxima puntuación alcanzada no se reduzca en un valor superior a Xg. ¿Dónde acaba el alineamiento con huecos?

Los resultados se ordenan en función del valor E Los alineamientos se muestran en función del valor E (ordenados de menor a mayor). El valor E indica el número de veces que uno esperaría encontrar por puro azar un alineamiento con una puntuación igual o mayor en una BD de igual tamaño y composición. Los resultados se ordenan en función del valor E

http://blast.ncbi.nlm.nih.gov/Blast.cgi NCBI-BLAST

http://www.ebi.ac.uk/Tools/sss/wublast/ WU-BLAST