Introducció a la Bioinformàtica

Slides:



Advertisements
Presentaciones similares
Diseño y análisis de algoritmos
Advertisements


BLAST.
ESTUDIO DE MERCADO. MÉTODOS DE PROYECCIÓN
Optimización de Consultas Distribuidas
en general, mínimos energéticos
Alineamiento de Secuencias Biológicas
Ajustando el Algoritmo al problema Universidad Nacional Oscar Lozano.
Programación dinámica (1)
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Encuentra las 12 diferencias
Tests de permutaciones y tests de aleatorización
El sistema de puntuación
Aplicaciones de la derivada Resuelve problemas de optimización aplicando las ideas básicas relacionadas con extremos de funciones de una variable Bloque.
O (m × n).
El descubrimiento de elementos reguladores en los vertebrados a través de comparación de genomas Por Pilar Gonzalez Gomez Alberto Lietor Santos.
© Copyright Ebiointel,SL 2006 Alineamiento múltiple Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos.
La PD no es adecuada para buscar en BD
Tema 2: Métodos de ajuste
Capítulo 4 BUSQUEDA INFORMADA.
Población y Muestra.
Especificación de Consultas M
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Diseño y análisis de algoritmos
Búsqueda de Ancestros Comunes Para Genomas de Diferentes Especies
3. Funciones discriminantes para la f.d.p normal.
(Organización y Manejo de Archivos)
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
Para construir un árbol filogenético se necesitan tres ingredientes básicos:
Investigación Experimental
Matrices de Substitución PAM Y BLOSUM
MÉTODO DE PIXELES DE BORDE
Capítulo 7 Gestión de memoria.
ESTADÍSTICAS DESCRIPTIVA
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Busqueda avanzada con BLAST Preparada por Genis Parra.
Comparar secuencias = Obtener información
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Alineamiento de dos secuencias
Alineamiento.
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Herramientas básicas.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Análisis y Diseño de Algoritmos
Una introducción a la computación evolutiva
Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional.
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Algoritmos para alineamientos locales: FastA
Matrices de sustitución
Capítulo 1. Conceptos básicos de la Estadística
Alineamiento de secuencias Búsqueda de secuencias en bases de datos
Las inserciones y deleciones se penalizan con un peso W Se construye una matriz H de n + 1 filas y m + 1 columnas. La secuencia de A se ubica en las filas.
Bases de datos secundarias. Briefings in Bioinformatics 3 (2002):
Alineamiento local: búsqueda de homologías
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
PRUEBAS ESTADISTICAS NO PARAMETRICAS
SEGMENTACION DE MERCADOS
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Introducción a la Bioinformática
Taller: Inteligencia Computacional
Introducción a los TADs
© Copyright Ebiointel,SL 2006 Alineamiento de secuencias:
INFERENCIA ESTADÍSTICA
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
Teoría de la Generalizabilidad
Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.
Transcripción de la presentación:

Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

Alineamiento de secuencias

Alineamiento de secuencias Comparar dos (alineación a pares) o más (alineación múltiple) secuencias para buscar una serie de caracteres o patrón de caracteres que están en el mismo orden en las secuencias Secuencia 1: ATGCGACTGACG Secuencia 2: ATGCGACTGACG |||||||||||| Significado de un alineamiento Estadístico Por azar (alineamiento de secuencias al azar pueden producir un 20% identidad) Biológico Comparten un ancestro común. Implica una información funcional, estructural y evolutiva?

Un alineamiento compara permitiendo: Alineamiento de secuencias Un alineamiento compara permitiendo: Identificar genes homólogos/similares Asignar funciones biológicas (reales, posibles?) Predecir estructura Encontrar patrones Reconstruir relaciones evolutivas ……

Homología vs similitud Homólogo, similar, idéntico Homología dos secuencias son homólogas sólo si derivan de una ancestro común implica una herencia compartida cualitativo se es homólogo o no se es Similitud medida cuantitativa se puede usar una medida de similitud para inferir homología

Global vs Local Global: Intentamos alinear todos los caracteres de las secuencias optimizando el número máximo de identidades Local: Alineamos segmentos de las secuencias donde la densidad de identidades es mayor, generamos subalinemientos

Alineamiento de secuencias Un proceso de alineamiento debe efectuar una búsqueda activa del mejor alineamiento posible y debe considerar los cambios que sufren las secuencias: Identidades -> Emparejamientos (match) Sustituciones -> Desemparejamientos (mismatch) Deleciones e inserciones (indel) -> Huecos (gaps)

Alineamiento de secuencias Cómo decidir cuál es el mejor? Respuesta: el más significativo desde el punto de vista biológico Pero: necesitamos una medida objetiva Sistemas de puntuación (scoring) reglas para asignar puntos el más simple: match, mismatch, gap Fernán Agüero

Valoración (score) de un alineamiento Valoración de un alineamiento Valoración (score) de un alineamiento Máxima puntuación = Alineamiento óptimo F (puntuación emparejamiento idéntico, puntuación emparejamiento similar, puntuación huecos –gap-) Puntuación =

Valoración de un alineamiento Como valorar un alineamiento? Ejemplo Identidad = 1 Missmatch = 0 Gap = -1 Score = 10 - 4 = 6

Matriz para DNA Una matriz no es otra cosa que un sistema de scoring que permite asignar puntuaciones individuales a cada una de las letras del alfabeto en uso Fernán Agüero

Matriz para DNA A G C T A +1 –3 –3 -3 G –3 +1 –3 -3 C –3 –3 +1 -3 Score Match: + 1 Mismatch: - 3 CAGGTAGCAAGCTTGCATGTCA || |||||||||||| ||||| raw score = 19-9 = 10 CACGTAGCAAGCTTG-GTGTCA Score Match: + 1 Mismatch: -10000

Modelos evolutivos DNA Matriz para DNA Modelos evolutivos DNA Matriz de substitución para DNA Ejemplo: A,A = 1 A,C = 0 C,T = 0,5 Gap = -1 Transiciones / Transversiones p(transición) > p(transversión)

Matrices de puntuación para proteínas Matriz para proteínas Matrices de puntuación para proteínas Matriz de identidad Secuencia A Tyr Cys Asp Ala Met Secuencia B Phe Met Glu Gly Met 0 0 0 0 1 Puntuación total del alineamiento: 0+0+0+0+1 = 1 Matrices de susbtitución Secuencia A Tyr Cys Asp Ala Secuencia B Phe Met Glu Gly 3 -1 2 0 Puntuación total del alineamiento: 3-1+2+0 = 4

Modelos evolutivos Proteínas Matriz para proteínas Modelos evolutivos Proteínas Mutaciones (código genético) Substituciones conservativas Matriz de substitución para proteínas PAM 60, 120, 250 (Dayhoff) Extrapolación desde PAM1 BLOSUM 80, 62, 40 Basadas en BLOCKS de secuencias

Matrices PAM (Percent Accepted Mutation) Evolutionary model Creadas partiendo de un grupo de secuencias homólogas con un porcentage de similitud igual o superior al 85 %. Proporcionan los cambios esperados entre proteínas homólogas a lo largo de un determinado periodo evolutivo Generan una matriz 20 x 20 Todas calculadas a partir de PAM1 (identidades aprox 99%) Se pueden extrapolar los cambios esperados en periodos cortos a los esperados en periodos largos simplemente multiplicando la matriz original n veces. La más utilizada: PAM 250 (identidades aprox 20%)

Matrices BLOSUM (BLOck SUbstitution Matrices) Creadas utilizando un gran número de secuencias NO homólogas pertenecientes a distintas familias Se evaluan las tasas de sustitución en patrones de residuos altamente conservados (BLOCKS) Generan matrices 20 x 20 Las distintas matrices se generan usando agrupaciones de bloques con mayor o menor grado de similitud La matriz por defecto: BLOSUM62

Matriz PAM 250

Blosum 62 Negative for less likely substitutions D -2 -2 1 6 C 0 -3 -3 -3 9 Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 A R N D C Q E G H I L K M F P S T W Y V X F Negative for less likely substitutions D Y F Positive for more likely substitutions Los scores provienen del la observación de los tipos y frecuencias de sustitución en distintas familias proteicas

Equivalencia PAM - BLOSUM BLOSUM: “mejor” para la detección alineamientos locales BLOSUM 62, detección similitudes débiles BLOSUM 45, detección alineamientos largos y débiles

PAM vs BLOSUM PAM asume un modelo de evolución markoviano (todos los cambios independientes) BLOSUM no supone ningún modelo evolutivo explícito PAM considera todas las posiciones amino acídicas BLOSUM considera sólo los cambios en posiciones dentro de bloques conservados PAM asume que la distribución de aa de las secuencias que la generaron es representativa de todas las familias de proteínas BLOSUM se generó usando un mayor número de secuencias y de familias distintas PAM requiere un conocimiento previo de la distancia evolutiva Conclusión: PAM es más adecuada para trazar el origen evolutivo de proteínas BLOSUM es más apropiada para hallar dominios conservados

Valoración de un alineamiento: gaps Gap penalty W = g - r(x-1) W es la puntuación x la longitud del gap g la penalización de abrir un gap r la penalizaciónde extender un gap Muchos programas de alineamiento sugieren los valores por defecto Penalización al final del alineamiento Sí en secuencias homólogas misma longitud No en secuencias desconocidas o longitud diferente

Valoración de un alineamiento: gaps Valores de penalización de gaps Programas de alineamiento de DNA Programa Tipo de Match Mismatch Penalización Penalización alineamiento score score apertura gaps extensión gaps FASTA local 5 - 4 -16 -4 Programas de alineamiento de Proteínas Programa Tipo de Match y Mismatch Penalización Penalización alineamiento score apertura gaps extensión gaps FASTA local Valores BLOSUM50 - 16 - 4 -12 -2 BLAST local Valores BLOSUM62 - 6 - 4 - 8 - 2

Valoración de un alineamiento: gaps Efecto de la variación en la penalización de huecos (gap) (Vingron & Waterman 1994) Si se penaliza alto (relativamente) no aparecerán en el alineamiento Si bajo, gaps serán ubicuos Si la penalización gaps y desemparejamientos (mismatch) es alta habrá un alineamiento local con emparejamientos exactos El alineamiento de proteínas relacionadas muestran que gaps > 5 nunca ocurren

Métodos de alineamiento Métodos de alineamiento de dos secuencias Dot Matrix (Matriz de puntos) Rápida identificación de indels / No alineamientos óptimos Dynamic Programming (Programación dinámica) Garantiza alineamiento óptimo / Computacionalmente costoso Heuristic Searches (Búsquedas heurísticas) Búsquedas rápidas en bases de datos grandes / alineamientos locales y no siempre óptimos

Matriz de puntos (Dot matrix, Gibbs & McIntyre 1970) Se ponen de manifiesto todos los emparejamientos posibles pero es el investigador quien debe determinar cuales son significativos C|    X X G| X T|  X :            A T T G C T|  X              | | : | | A|X                A T C G C +--------   A T C G C A|  X      C|      X         - A T G C A  G|X   X            | | | |  T|  X             G A T G C  A|- X   +---------    G A T G C

Alineamiento: matriz de puntos Matriz de puntos (Dot matrix) A|X     X     X  T|  X       X    G|        X   .  T|  X       .          A T C A C T G T A  C|    X   .            | | | |     | | |  A|X     X              A T C A - - G T A  C|    X  T|  X       X  A|X      X   +-------------    A T C A G T A Detección de indels: inserciones / deleciones

Alineamiento: matriz de puntos Matriz de puntos de dos proteínas represoras en fagos, λ cI y P22 c2 Nucleótidos Ventana = 11 (longitud del bloque) Astringencia = 7 (Mínima coincidencia admitida) 11/7 ó 15/11 Aminoácidos Ventana = 1 Astringencia = 1 1/1 excepto búsquedas pequeños dominios 15/5

Alineamiento: matriz de puntos Matriz de puntos de la proteína receptora humana LDL con ella misma. Ventana = 23 Astringencia = 7 Ventana = 1 Astringencia = 1

Alineamiento: matriz de puntos Dot plots sugieren caminos (paths) a través del espacio de alineamientos posibles. Dominios EGF conservados en la urokinse plasminogen activator (PLAU) y el tissue plasminogen activator (PLAT) 90 137 90 137 72 23 23 Path graphs son representaciones más explícitas de un alineamiento. Cada path es un alineamiento único. 72 PLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMP--SGPH-CLCPQHLTGNHCQKEK---CFE 137 PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72

Programación dinámica Algoritmos de programación dinámica Métodos computacionales que comparan cada pareja de caracteres y los posicionan de forma que el número de emparejamientos idénticos o relacionados sea el máximo posible Alineamiento global de Needlman-Wunsh (1970) Alineamiento local de Smith-Waterman (1981)

Programación dinámica Evalúa y puntúa todos los posibles emparejamientos para cada caracter y lo posiciona en función de dicha puntuación y de la puntuación total de los caracteres ya alineados, construyendo una “ruta” hacia el alineamiento óptimo o de mayor puntuación Uso de un algoritmo recursivo que añade residuos en una posición sobre el alineamiento mejor hasta esa posición. Una ruta óptima que termina en un nodo debe pasar por uno de los tres nodos previos S(i-1,j-1) + c(i,j) S(i,j) = max S(i-1,j) + c(i,-) S(i,j-1) + c(-,j)

Programación dinámica Score nuevo = alineamiento Score alineamiento + previo Score del nuevo emparejamiento A V D S - C V E S L C V D S - V E S L C 8 = -1 + 9 B V D S - C Y V E S L C Y V D S - C V E S L C Y 15 = 8 + 7

Dynamic programming: ejemplo Un ejemplo: G A T A C T A G A T T A C C A Construir un alineamiento óptimo entre estas dos secuencias Match: Mismatch: Gap: +1 -1 Utilizando las siguientes reglas de scoring: Fernán Agüero

Dynamic programming: ejemplo Ordenar las dos secuencias en una matriz bidimensional G A T A C T A G A T T Los vértices de cada celda se encuentran entre letras (bases). Needleman & Wunsch (1970) A C C A Fernán Agüero

Dynamic programming: ejemplo T A C T A El objetivo es encontrar la ruta (path) óptimo G A Desde aquí T T A C Hasta acá C A Fernán Agüero

Dynamic programming: ejemplo T A C T A Cada path corresponde a un alineamiento único G A T T A C C A Cuál es el óptimo? Fernán Agüero

Dynamic programming: ejemplo T A C T A G El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados). A alineada con A A Match = +1 T T A C C A Fernán Agüero

Dynamic programming: ejemplo T A C T A El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados). G A A alineada con T T Mismatch = -1 T A C C A Fernán Agüero

Dynamic programming: scores: gaps T A C T A El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados). G T alineada con NADA A Gap = -1 T T T alineada con NADA A C C A Fernán Agüero

Dynamic programming: paso a paso (1) Extender el path paso por paso G A T A C T A -1 G G – G G – -1 +1 A T T +1 -1 -1 A C C A Fernán Agüero

Dynamic programming: paso a paso (2) Incrementar el path paso a paso G A T A C T A -1 -2 G -1 +1 -2 A T Recordar el mejor subpath que lleva a cada punto en la matriz. T A C C A Fernán Agüero

Dynamic programming: paso a paso (3) Incrementar el path paso a paso G A T A C T A -1 -2 G -1 +1 -2 A +2 T Recordar el mejor subpath que lleva a cada punto en la matriz. T A C C A Fernán Agüero

Dynamic programming: paso a paso (4) Incrementar el path paso a paso G A T A C T A -1 -2 G -1 +1 -2 A -2 +2 T Recordar el mejor subpath que lleva a cada punto en la matriz. T A C C A Fernán Agüero

Dynamic programming: paso a paso (5) Incrementar el path paso a paso G A T A C T A -1 -2 -3 G -1 +1 -2 -1 A -2 +2 +1 T Recordar el mejor subpath que lleva a cada punto en la matriz. -3 -1 +1 +3 T A C C A Fernán Agüero

Dynamic programming: paso a paso (6) Incrementar el path paso a paso G A T A C T A -1 -2 -3 -4 -5 G -1 +1 -1 -2 -3 A -2 +2 +1 -1 T Recordar el mejor subpath que lleva a cada punto en la matriz. -3 -1 +1 +3 +2 +1 T -4 -2 +2 +2 +1 A -5 -3 -1 +1 +3 +2 C C A Fernán Agüero

Dynamic programming: paso a paso (7) Incrementar el path paso a paso G A T A C T A +1 -1 -2 +2 -4 -3 +3 -8 -7 -6 -5 +4 G A T Recordar el mejor subpath que lleva a cada punto en la matriz. T A C C A Fernán Agüero

Dynamic programming: best path Recorrer el camino de atrás hacia adelante para obtener el mejor path y alineamiento. G A T A C T A +1 -1 -2 +2 -4 -3 +3 -8 -7 -6 -5 +4 G A T T A C C A Fernán Agüero

Dynamic programming: alineamiento obtenido Imprimir el alineamiento A A - T C G T T A C C A Fernán Agüero

Dynamic programming: Smith-Waterman El método fue modificado (Smith-Waterman) para obtener alineamientos locales El método garantiza la obtención de un alineamiento óptimo (cuyo score no puede ser mejorado) La complejidad es proporcional al producto de las longitudes de las secuencias a alinear Fernán Agüero

Programación dinámica Preparación de una matriz n x m Alineamiento global de Needlman-Wunsh S(i-1,j-1) + c(i,j) S(i,j) = max S(i-1,j) + c(i,-) S(i,j-1) + c(-,j)

Ejemplo on-line: alineamiento global vs local Preparación de una matriz n x m

M | N G A - L - S | D | R | T | - T - E - T Ejemplo on-line: alineamiento global vs local M | N G A - L - S | D | R | T | - T - E - T

Ejemplo on-line: alineamiento global vs local D R - T G E |

Ejemplo on-line: alineamiento global vs local D R - T G E |

Ejemplo on-line: alineamiento global vs local D R - T G E |

Ejemplo on-line: alineamiento global vs local D R - T G E |

Ejemplo on-line: alineamiento global vs local D R T - G E |

Programación dinámica Alineamiento 1 sequence 1   M  -  N  A  L  S  D  R  T sequence 2   M  G  S  D  R  T  T  E  T score        6 -12 1  0 -3  1  0 -1  3  =  -5 Alineamiento 2 sequence 1   M  N  -  A  L  S  D  R  T sequence 2   M  G  S  D  R  T  T  E  T score        6 0 -12 0 -3  1  0 -1  3  =  -6 Alineamiento 3 (no penalización de gap final) sequence 1   M  N  A  L  S  D  R  T  -  -  - sequence 2   -  -  M  G  S  D  R  T  T  E  T score        0  0 -1 -4  2  4  6  3  0  0  0  =  10

Programación dinámica Alineamiento local con el algoritmo de Smith-Waterman Debe haber puntuación negativa para los desemparejamientos y si la puntuación de la matriz obtiene un valor negativo se pone 0 Así el alineamiento puede empezar en cualquier punto y se acaba cuando la puntuación alcanza el valor de 0     secuencia 1 S D R T secuencia 2 S D R T score 2 4 6 3 = 15

Alineamiento global y local Smith & Waterman (1981) Las secuencias se alinean en regiones pequeñas y aisladas Needleman & Wunsch (1970) Las secuencias se alinean esencialmente de un extremo a otro

Búsquedas por similitud Heuristic searches MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTLFGWGYDDNPVPGGGGVYSMATLNGEAVAAIAPMPPGAPEGMPPIWNTYIAVDDVDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGWQANRHIGATLVNETGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNY ¿Hay en la base de datos alguna secuencia similar a mi secuencia problema? Búsquedas por similitud Resultados Similar to ………… Unknown but similar to sevral hypothetical proteins from… Putative hypothetical protein……..

Búsqueda de similares en una base de datos Objetivo: comparar una secuencia frente a una base de datos, comprar doss base de datos,.. Algoritmos Exactos: Smith-Waterman (sssearch, lalign, ..) Heurísticos: BLAST (búsqueda de “words” similares) FASTA (búsqueda de “k-tuplos” idénticos)

Métodos heurísticos BLAST (Basic Local Alignment Search Tool) FASTA Método heurístico: prueba y error Suele encontrar secuencias relacionadas pero nunca hay garantía absoluta. Ventaja: 50 veces más rápido que programas dinámicos Usos: búsquedas sobre bases de datos de gran tamaño BLAST (Basic Local Alignment Search Tool) (Altschul, et al, 1990, J Mol Biol, 215:403-10) Concentra la búsqueda en patrones cortos más significativos, (palabra, word size: 3 aa / 11 nt). Rápido, menos sensible? FASTA (Lipman y Pearson, 1985; Pearson y Lipman, 1988) El algoritmo busca patrones cortos consecutivos (palabras o k-tuplos, k= 1-2 aa / 4-6 nt) entre la secuencia problema y las de la base de datos.

Secuencias problema Búsquedas con secuencias de DNA o aa FASTA, BLAST >SeqDNA_Prob1.seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAGGGAGTCACCCCTCTTCGCGCTAGGATCGCTGAGCG Búsquedas con perfiles Archivos con alineamientos D-HQSNGA ESHQ-YTM EAHQSN-L EGVQSYSL Búsquedas con Blocks Motivos alineados sin gaps (PSSM position-specific scoring matrix) DAHQSN ESHQSY EAHQSN EGVQSY Búsquedas de patrones y motivos PROSITE, INTERPRO, PFAM, .. DAHQSN

Significación - Valoración de los alineamientos Valoración mediante matrices Penalización por disimilitud (aparición y extensión de gaps). Este valor es la Puntuación bruta (raw score, Sraw). Puntuación de bits (Sbit). Permite comparar resultados obtenidos por diferentes sistemas. Se introducen parámetros utilizados por el programa de alineamiento. E value alineamiento debido al azar. Los valores más cercanos a cero indican una mayor relevancia. Se puede considerar relevante cuando E < 0.05.

E = numero de hits esperado por azar Significancia Expect Value E = numero de hits esperado por azar Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden encontrar 10 alineamientos con la misma puntuación por simple azar. Valores mas bajos serán mas significativos

(Basic Local Alignment Search Tool) Altschul, et al, 1990, J Mol Biol, 215:403-10 Heurístico BLAST intenta encontrar muchos matches sacrificando la especificidad por la velocidad. Se pueden perder apareamientos. Estrategia BLAST Búsqueda de proteínas mediante criterios de semejanza (no identidad). Se utilizan matrices de semejanza Trabaja con segmentos pequeños que permiten acelerar el proceso (High-scoring segment pair) Extensión de los match hacia los lados Rápido y sensible Usos búsquedas en las bases de datos alineamiento de pares de secuencias Glossary

Esquema BLAST

Nucleótidos Query: GTACTGGACATGGACCCTACAGGAA GTACTGGACAT Word Size = 11 GTACTGGACAT TACTGGACATG ACTGGACATGG CTGGACATGGA TGGACATGGAC GGACATGGACC GACATGGACCC ACATGGACCCT ........... Minimum word size = 7 blastn default = 11 megablast default = 28

Proteínas GTQITVEDLFYNIATRRKALKN Query: GTQ TQI QIT ITV TVE VED EDL Word Size = 3 GTQ TQI QIT ITV TVE VED EDL DLF ... Similares LTV, MTV, ISV, LSV, etc.

Selección del programa BLAST Help

Conserved Domain Database Opciones Conserved Domain Database

Introducción de la Secuencia FASTA FORMAT

Otras opciones Expect: 10, máximo de 10 al azar. Valores inferiores son mas restrictivos. Word Size: medida de los fragmentos (k-tup FASTA)

Formatos

Práctica Objetivo general BLAST DNA Buscar secuencias similares a las secuencias problema. BLAST DNA Copiar la Secuencia PROBLEMA i someterla a BLAST de DNA >SeqDNA_Prob1.seq ATGAAGGACTTAGTCGATACCACAGAGATGTACTTGCGTACTATCTATGAGCTGGAAGAAGAGGGAGTCA CCCCTCTTCGCGCTAGGATCGCTGAGCGTCTGGAACAATCTGGACCTACAGTTAGCCAAACCGTTGCCCG TATGGAGCGCGATGGACTTGTCGTTGTCGCCTCAGACCGCAGTCTACAAATGACACCGACAGGCCGCACT TTAGCGACTGCAGTTATGCGTAAACATCGCTTAGCTGAGCGCCTTCTTACCGATATCATTGGTCTAGATA TCAATAAAGTTCACGATGAAGCCTGCCGCTGGGAACACGTTATGAGTGACGAAGTTGAACGCAGGCTCGT GAAAGTATTGAAAGATGTCAGTCGGTCCCCCTTCGGAAACCCAATTCCAGGTCTCGACGAACTCGGCGTA GGCAATTCTGACGCGGCAGCCCCCGGAACTCGCGTTATTGACGCTGCCACCAGCATGCCCCGCAAAGTAC GCATTGTTCAGATTAACGAAATCTTTCAAGTTGAAACGGATCAGTTTACACAGCTCCTCGATGCTGACAT CCGTGTTGGATCAGAAGTCGAAATTGTAGATAGAGACGGCCACATCACGTTGAGCCACAATGGAAAAGAT GTCGAACTCCTCGATGATCTGGCTCACACTATTCGTATCGAAGAACTCTAA Iniciar una sesión BLAST Nucleotide Limitar la búsqueda a Blast de Bacteria

Práctica BLAST Proteína Copiar la secuencia PROBLEMA i someterla a BLAST de Proteína >SeqProt-Prob1.pep MENRIDRIKKQLHSSSYKLTPQREATVRVLLENEEDHLSAEDVYLLVKEKSPEIGLATVY RTLELLTELKVVDKINFGDGVSRYDLRKEGAAHFHHHLVCMEFGAVDEIEGDLLEDVEEI IERDWKFKIKDHRLTFHGICHRCNGKETE Iniciar una sesión BLAST Protein Limitar la búsqueda a Blast de Bacteria Ejecutar Blast

Proteína x DNA traducido a Proteína Práctica t n Proteína x DNA traducido a Proteína Objetivo Pretendemos encontrar secuencias bacterianas en diferentes genomas de microorganismos. Realizar una búsqueda tBLASTn sobre genomas microbianos utilizando la secuencia: >Proteína problema MPKRSEYRQGTPNWVDLQTTDQSAAKKFYTSLFGWGYDDNPVPGGGGVYSMATLNGEAVAAIAPMPPGAP EGMPPIWNTYIAVDDVDAVVDKVVPGGGQVMMPAFDIGDAGRMSFITDPTGAAVGLWQANRHIGATLVNE TGTLIWNELLTDKPDLALAFYEAVVGLTHSSMEIAAGQNYRVLKAGDAEVGGCMEPPMPGVPNHWHVYFA VDDADATAAKAAAAGGQVIAEPADIPSVGRFAVLSDPQGAIFSVLKPAPQQ

DNA traducido a Proteína x Proteína Práctica X DNA traducido a Proteína x Proteína Objetivo Detectar similares a la secuencia problema y determinar si hay errores. Realizar una búsqueda con BLASTx usando: >DNA desconocido ATGCCCAAGAGAAGCGAATACAGGCAAGGCACGCCGAACTGGGTCGACCTTCAGACCACCGATCAGTCCG CCGCCAAAAAGTTCTACACATCGTTggtGTTCGGCTGGGGTTACGACGACCCGGTCCCCGGAGGCGGTGG GGTCTATTCCATGGCCACGCTGAACGGCGAAGCCGTGGCCGCCATCGCACCGATGCCCCCGGGTGCACCG GAGGGGATGCCGCCGATCTGGAACACCTATATCGCGGTGGACGACGTCGATGCGGTGGTGGACAAGGTGG TGCCCGGGGGCGGGCAGGTGATGATGCCGGCCTTCGACATCGGCGATGCCGGCCGGATGTCGTTCATCAC CGATCCGACCGGCGCTGCCGTGGGCCTATGGCAGGCCAATCGGCACATCGGAGCGACGTTGGTCAACGAG ACGGGCACGCTCATCTGGAACGAACTGCTCACGGAttgGCCGGATTTGGCGCTAGCGTTCTACGAGGCTG TGGTTGGCCTCACCCACTCGAGCATGGAGATAGCTGCGGGCCAGAACTATCGGGTGCTCAAGGCCGGCGA CGCGGAAGTCGGCGGCTGTATGGAACCGCCGATGCCCGGCGTGCCGAATCATTGGCACGTCTACTTTGCG GTGGATGACGCCGACcccACGGCGGCCAAAGCCGCCGCAGCGGGCGGCCAGGTCATTGCGGAACCGGCTG ACATTCCGTCGGTGGGCCGGTTCGCCGTGTTGTCCGATCCGCAGGGCGCGATCTTCAGTGTGTTGAAGCC CGCACCGCAGCAATAG

Estrategia FASTA k-tup DNA: 6 Proteína: 2 Alineamientos locales FASTA utiliza una matriz de substitución sólo durante la fase de extensión La reducción del tiempo de búsqueda conlleva una pérdida de sensibilidad y selectividad Estrategia Búsqueda de zonas comunes por identidad y sin gaps. Uso de k-tuplo. Velocidad y sensibilidad determinadas por la longitud de la palabra usada. Las palabras cortas hacen la búsqueda más lenta y sensible. Valoración de los match por similitud y unión de las regiones con gaps Evaluación exhaustiva de los mejores alineamientos k-tup DNA: 6 Proteína: 2

Programas FASTA Programa Funciones fasta3 tfasta3* ssearch* fastx/y3 DNA, proteína frente bd DNA y bd Prot (fasta) y proteínas frente bd DNA traducido (tfasta), no admite frameshifts DNA, proteína frente bd DNA y bd Prot mediante el algoritmo Smith-Waterman Muy lento <10 fasta pero muy sensible. fastx/y3 DNA (traducido 3 frames) frente bd proteínas. Admite gaps y frameshifts Velocidad x > y tfastx/y3 Proteína frente bd DNA traducido 6 frames fasts3 tfasts3* Mezcla de péptidos pequeños relacionados (mass-spec) frente bd proteína (fasts) o bd DNA (tfasts)* fastf3 tfastf3* Mezcla de péptidos (obtenida por Edman o CNBr) frente bd proteína (fastf) o bd DNA (tfastf)* >mgstm1 MILG, MLLEYTD, MGDAP >mgstm1 MGCEN, MIDYP, MLLAY, MLLGY

Opciones FASTA MATRIX Matriz de búsqueda GAP PENALTIES GAPOPEN: Penalización por apertura gap (-12 para proteínas, -16 para DNA). GAPEXT: Penalización extensión del gap (-2 para proteínas, -4 para DNA). HISTOGRAM Muestra el histograma con las frecuencias de las coincidencias por azar. SCORES Puntuación de los alineamientos ALIGNMENTS Número de alineamientos que se visualizaran KTUP Proteínas: 2 DNA: 6 STRAND Cadena de DNA EXPECTATION VALUE Límite superior para la presentación de un alineamiento. Valores por defecto son 10.0 para Prot/Prot; 5.0 para proteínas frente Prot/Prot de DNA y 2.0 para búsquedas DNA/DNA. EXPECTATION VALUE THRESHOLD Límite inferior para la presentación de un alineamiento.

Job FASTA

Resultados FASTA

Mview Results FASTA

Visual FASTA

Práctica FASTA Búsqueda por similitud Iniciar una sesión FASTA Seleccionar el programa y fijar los parámetros de búsqueda en función de la naturaleza de la secuencia problema. Introducir la secuencia problema Someter la búsqueda Visualizar y comentar los resultados Diferencias frente a BLAST

Comparación múltiple de secuencias Alineamiento múltiple = Tabla 2D 1 2 3 4 5 6 7 8 9 10 I Y D G A V - E L II III F IV Q Cons y d A/I V/L e l Alineamiento múltiple = Tabla 2D Identificación de regiones conservadas Predicción de estructuras y funciones Diseño de experimentos para probar y modificar funciones de proteínas concretas Identificación de nuevos miembros de una familia de proteínas

Comparación múltiple de secuencias FHIT_HUMAN -----------MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV... APH1_SCHPO -----------MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV... HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVT-EQVFY KSKYTYALVNLKPIV PGHVLI... Y866_METJA -----------MCIF CKIINGEIP-AKVVY EDEHVLAFLDINPRN KGHTLV... Un método de alineamiento múltiple verdadero, debería alinear todas las secuencias al mismo tiempo. Pero no existe un método computacional que pueda realizar esto en tiempo razonable

Cómo se resuelve un alineamiento múltiple de 3 secuencias? Usando Prgramación dinámica en una matriz tridimensional Objetivo: encontrar el camino óptimo

Complejidad del algoritmo de Programación Dinámica (PD) El número de comparaciones que el PS tiene debe realizar para llenar la matriz (sin usar heurísticas y excluyendo gaps) es el producto de las longitudes de las dos secuencias (N x M) La complejidad del algoritmo crece en forma exponencial con el número de secuencias Alinear dos secuencias de 300 nt implica realizar 300 x 300 = 90,000 comparaciones Alinear tres secuencias de 300 nt implica realizar 300 x 300 x 300 = 27,000,000 comparaciones!!

Aproximaciones al algoritmo de Programación Dinámica Alinear todas las secuencias por pares Usar los scores para construir un árbol Alinear progresivamente (siguiendo el orden que sugiere el árbol) todas las secuencias para producir un Alineamiento Múltiple No es un verdadero Alineamiento Múltiple Las secuencias se alinean por pares

Programa de alineamiento múltiple Alineamiento progresivo Clustal W Thompson J.D., Higgins D.G., Gibson T.J. (1994) "CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice."; Nucleic Acids Res. 22:4673-4680 Programa de alineamiento múltiple Alineamiento progresivo

Clustal W Estrategia general Alineamiento rápido Alineamiento múltiple Thompson J.D., Higgins D.G., Gibson T.J. (1994) "CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice."; Nucleic Acids Res. 22:4673-4680 Estrategia general Alineamiento rápido obtención de las mejores parejas análisis de clusters creación de un árbol guía Alineamiento múltiple se utiliza el árbol guía anterior optimización alineamiento de los pares más próximos introducción de gaps para mejorar el alineamiento alineamiento de las parejas optimización mediante inclusión de nuevos gaps

Opciones Generales Clustal W YOUR EMAIL SEARCH TITLE CPU MODE clustalw_mp - multiprocessor SGI systems. clustalw - genérico (CPU simple) ALIGNMENT Permite realizar alineamientos completos utilizando algoritmos restrictivos que generan un árbol guía o algoritmos más rápidos. OUTPUT Formato del resultado (ALN, GCG, PHYLIP, PIR and GDE) OUTORDER Orden de las secuencias COLOR Muestra el alineamiento en colores (solo en formatos ALN or GCG) AVFPMILW RED Small (small+ hydrophobic (incl.aromatic -Y)) DE BLUE Acidic RHK MAGENTA Basic STYHCNGQ GREEN Hydroxyl + Amine + Basic - Q Others Gray Línea consenso "*" = residuos idénticos o conservados en todas las secuencias ":" = sustituciones conservadas "." = sustituciones semi-conservadas.

Clustal W (EBI)

Eliminar espacios entre secuencias Formato secuencias para Clustal W Formato FASTA >FOSB_HUMAN P53539 homo sapiens (human). fosb protein MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTVTA ITTSQDLQWLVQPTLISSMAQSQGQPLASQPPVVDPYDMPGTSYSTPGMSGYSSGGASGS GGPSTSGTTSGPGPARPARARPRRPREETLTPEEEEKRRVRRERNKLAAAKCRNRRRELT DRLQAETDQLEEEKAELESEIAELQKEKERLEFVLVAHKPGCKIPYEEGPGPGPLAEVRD LPGSAPAKEDGFSWLLPPPPPPPLPFQTSQDAPPNLTASLFTHSEVQVLGDPFPVVNPSY TSSFVLTCPEVSAFAGAQRTSGSDQPSDPLNSPSLLAL >FOSB_MOUSE P13346 mus musculus (mouse). fosb protein. ITTSQDLQWLVQPTLISSMAQSQGQPLASQPPAVDPYDMPGTSYSTPGLSAYSTGGASGS GGPSTSTTTSGPVSARPARARPRRPREETLTPEEEEKRRVRRERNKLAAAKCRNRRRELT LPGSTSAKEDGFGWLLPPPPPPPLPFQSSRDAPPNLTASLFTHSEVQVLGDPFPVVSPSY TSSFVLTCPEVSAFAGAQRTSGSEQPSDPLNSPSLLAL Eliminar espacios entre secuencias

Resultados

Resultados JalView

Resultados Clustal W (.dnd)

Árboles Phylodendron Phylogenetic tree printer

Práctica ClustalW - Primers Comparación múltiple Abrir una sesión Clustal W Fija los parámetros e introduce las secuencias usando el archivo múltiple al que hemos añadido todas las secuencias a alinear. Ejecutar Clustal W Visualizar los resultados Identificar y almacenar les regiones conservadas (primers) Diseño primers Realizar una traducción reversa de los primers en la Sequence Manipulation Suite de la Univ de Alberta Mediante las tablas de uso de codones, disminuir la degeneración de los primers adaptándolos al uso del Microorganismo problema Árboles Visualizar el archivo .dnd con Phylodendron (o TreeView local) Variar la topología del árbol enraizándolo a un outgroup arbitrario