Alineamiento de secuencias múltiples ¿ Por qué alinear simultáneamente varias secuencias? Un ejemplo claro de este caso sería comparar proteínas muy conservadas.

Slides:



Advertisements
Presentaciones similares
Capítulo 2 Algoritmos.
Advertisements

Diseño y análisis de algoritmos
PROTEIOS= PRIMERO O PRINCIPAL
EJERCICIO DE GENÉTICA MOLECULAR (2º BACHILLERATO, BIOLOGÍA)
Usando Modelos de Markov para buscar genes
Tratamiento con Insulina en la Diabetes Mellitus tipo 2
Lic. Edna Margarita David Giraldo Simulación de la traducción
Nilxon Rodríguez Maturana Lic. Química y Biología (U. T. CH.)
ALGORÍTMICA Dpto. Ingeniería de Sistemas y Automática
Alineamiento de Secuencias Biológicas
Técnicas Genómicas de Segunda Generación
OXIDO NITRICO (NO) Sintetizado en vivo por la enzima NO-sintetasa
Teoría de lenguajes y compiladores
Herencia y ADN Herencia genética: Características de los individuos que se transmiten a su descendencia ¿Por qué se transmiten a la descendencia? ¿Qué.
Transcribiendo copias
“La información genética – Expresión de los genes: el fenotipo”
Variabilidad genética Selección
Biología molecular del Gen
AMINOÁCIDOS Y PROTEÍNAS
Analisis y Diseño de Algoritmos Tema: Grafos 3ra Parte
Programación entera y grafos
Biograma Introducir datos en una matriz. Elegir método para máximos y mínimos. Calcular los máximos y mínimos observados. Límites.
Programación en Matlab
Bases nitrogenadas Instrucción: Te desplazarás por las diapositivas de manera automática. Si necesitas pausar la diapositiva lo puedes hacer presionando.
Análisis y Diseño de Algoritmos. Propiedades : f ( n )  O ( f ( n ) ) a ) O ( f ( n ) )  O ( g ( n ) )  f ( n )  g ( n )
Unidad VIII: Química de Aminoácidos, péptidos y proteínas.
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Estructura de Datos y Algoritmos
DEFINICIONES Sea (P) el siguiente problema de programación lineal:
Parte II. Algorítmica. 3. Algoritmos voraces.
Bioquímica Aminoácidos.
Material de apoyo Unidad 4 Estructura de datos
TIEMPO (CIELO) ESPACIO (TIERRA) CORAZÓN (AGUA) TEMPLO (MONTAÑA) 1 2 2
Divide y vencerás 1. Método general.
MORFOFISIOLOGÍA HUMANA I.
Propiedades de los determinantes.
Ordenación y Búsqueda.
Figure: Algoritmos Conceptos básicos. Programación: 1.Establecer una secuencia de acciones que: puedan ser ejecutadas por el procesador realicen una.
GREGOR MENDEL.
1. Desarrollo de Programas iterativos usando invariante
Parte I. Estructuras de Datos.
Caracterización molecular de Mycoplasma gallisepticum y Mycoplasma synoviae en ponedoras comerciales y reproductoras pesadas de la zona centro de Colombia.
PROTEINAS.
Amino Acidos: Sillares de las Proteínas
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
© 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico.
Insulinoterapia Oportuna
T.P Nº 8: Diseño de oligonucleótidos
1 Tablas HASH Agustín J. González ELO320: Estructura de Datos y Algoritmos.
Parte I. Estructuras de Datos.
EXCEL 2007 hoja de cálculo HOJAS: DESDE HASTA FILAS: VAN DESDE LA HASTA 1´048,576. COLUMNAS: VAN DESDE LA AA AA HASTA LA XFD XFD.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Oscar F. Bedoya L. Fundamentos de análisis y diseño de algoritmos.
Lic. Edna Margarita David Giraldo Transcribiendo copias
Péptidos Alberto L. Vivoni Alonso J. Roberto Ramírez Vivoni
Introducción a los TADs
DIALIGN DIagonal ALIGNments Marcelo Piriz Daiana Mir.
75.41 Algoritmos y Programación II Cátedra Ing. Patricia Calvo Complejidad algorítmica.
Clase N°11 Métodos de reducción de varianza
Aminoácidos José De Jesús Orozco Franco
LO: SWBAT explain how protein shape is determined and differentiate between the different types of mutations. Objetivo: Explica como se determina la forma.
Facultad de Ciencias Exactas Químicas y Naturales UNIVERSIDAD NACIONAL DE MISIONES Programa de Formación en Biología Celular y Molecular Laboratorio de.
VARIABILIDAD GENETICA Y BIOMEDICINA
Anexo a la Maestría de B Mol.
VARIABILIDAD GENETICA Y BIOMEDICINA
Análisis molecular de la mutación del EGFR en el CPCNP: perspectiva del patólogo en el laboratorio de biología molecular Dra. Edith Illescas Patóloga y.
PROTEINAS.
DOGMA CENTRAL DE LA BIOLOGÍA MOLECULAR
Procesos Genéticos Objetivo de la clase:
María Claudia Atencia Pineda María De Jesús Pérez Gil Facultad de Educación y Ciencias Programa de Biología Sincelejo – Sucre 2014 ESTRUCTURA GENÉTICA.
Transcripción de la presentación:

Alineamiento de secuencias múltiples ¿ Por qué alinear simultáneamente varias secuencias? Un ejemplo claro de este caso sería comparar proteínas muy conservadas evolutivamente que cumplen igual función en distintos organismos, de esta forma se podrían confeccionar árboles evolutivos. Un caso muy estudiado en mamíferos es la insulina, la cual está muy conservada en distintas especies. “Los cambios acumulados en una secuencia biológica se producen a una tasa relativamente constante e independiente de parámetros poblacionales” El alineamiento de múltiples secuencias es muy utilizado en la búsqueda de que varias especies estén emparentadas por un ancestro común.

problema: conjunto de secuencias s 1, s 2,...,s k ( del mismo alfabeto) tenemos que insertar espacios hasta que queden todas de igual longitud M Q P I L L L M L R – L L – M K – I L L L M P P V L I L ej: M Q P I L L L M L R L L M K I L L L M P P V L I L

¿ Cómo definimos la calidad de un alineamiento múltiple? M Q P I L L L M L R – L L – M K – I L L - M P P V L I L Necesitamos una definición para el score de cada columna Definimos una función que sea: 1) independiente del orden de los argumentos score(I,-,I,V)= score(V,I,I,-) 2) sume cuando los símbolos son iguales o parecidos y reste cuando son diferentes y cuando hay espacios Función SP (suma de a pares) SP-score(I,-,I,V)=p(I,-)+p(I,I)+p(I,V)+p(-,I)+p(-,V)+p(I,V) p(a,b) p(-,-)=0 buscamos el alineamiento con máximo score alineamiento múltiple   ij = alineamiento inducido por  de s i y s j

Usando programación dinámica... k secuencias de longitud n a k dimensiones a[i 1,..., i k ] score de s 1 [1...i 1 ],...,s k [1...i k ] algoritmo... -inicializar a[0,...0]  0 -llenar la matriz a O(n k ) -computar cada entrada: depende de 2 k -1 entradas anteriores O(2 k ) - score de las columnas: pares O( k 2 ) Tiempo estimado de la corrida de O(k 2 2 k n k ) Es exponencial en el input de secuencias, debido a la cantidad de celdas a llenar NP-completo !! j i M Q P I L L L M L R – L L – M K – I L L - M P P V L I L

vs V S N S N A A S SNSN V S - V--V s--s- vs-vs- v- -s -- -v s- -- V S - A S V-AV-A -v s- A- --A--A -sA-sA v- -s A- -v -s A- vsAvsA v- -s -A -v s- -A v-- -s- --A A K=3, a es de 3 dim.

NP-completo n k celdas Hay algoritmos heurísticos para computar sólo algunas celdas celdas  celdas relevantes ¿qué celdas son relevantes y por qué? idea: proyecciones de a pares de las celdas (test de relevancia) Sea  una alineación óptima para s 1,..., s k celda relevante  cada una de sus proyecciones de a pares es parte de una alineación óptima de las dos secuencias del par. Pero todavía tenemos que mirar todas las celdas... O(n k ) Un método para olvidarnos de las irrelevantes...

Estrategia para olvidar las celdas irrelevantes: En cada tiempo t consideramos un pool de celdas * celdas dependientes * celdas influyentes  i influye sobre j si i es una de las cedas usadas en la computación máxima para determinar el valor de a[j]. (cada celda depende (e influye), a lo sumo, de 2 k -1 otras) j i ¿ pool ? contiene las celdas relevantes en todos los tiempos inicialmente  0=(0,...0) en cada paso se remueve una celda del pool ( “lexicográficamente menor”)

Algoritmo de alineamiento de secuencias múltiples input: s=(s 1,...,s k ) y límite inferior L output: valor del alineamiento óptimo * Cálculo de L xy, 1  x < y  k para todo x e y, 1  x < y  k, hacer: calcular c xy, la matriz del score total para s x y s y para todo x e y, 1  x < y  k hacer: L xy  L – * Cálculo de la matriz a: pool  { 0 } while pool no esté vacío hacer: i  celda del pool lexicogrphically smallest pool  pool \ {i} if c xy [i x, i y ]  L xy,  x, y 1  x < y  k, then *test de relevancia para todo j dependiente de i hacer: if j  pool entonces pool  pool  {j} a[j]  a[i] + SP-score(Column(s,i,j-i)) else a[j]  máx {a[j], a[i] + SP-score(Column(s,i,j-i)) } return a[n 1,..., n k ]

k secuencias s 1,..., s c,...,s k elegimos una, s c, como centro de la estrella Y buscamos el alineamiento óptimo entre s i y s c problema de alineamiento entre pares programación dinámica O(kn 2 ) se usa la técnica: “once a gap, always a gap” (los gap que agregamos en s c para cada alineación de a pares, se mantienen en la alineación múltiple) Alineamiento estrella. scsc sksk s1s1 s2s2..

Un ejemplo para: 3 miembros de la superfamilia serin-proteasa  

ejemplo: 5 secuencias de ADN ¿cuál elegimos como central? un criterio posible: calcular el score de todos los pares posibles, y elegir “la más similar” s 1 = A T T G C C A T T s 2 = A T G G C C A T T s 3 = A T C C A A T T T T s 4 = A T C T T C T T s 5 = A C T G A C C s1s1 s2s2 s3s3 s4s4 s5s5 s1s s2s s3s s4s s5s alineamos s 1 con cada una...

s 1 = A T T G C C A T T s 2 = A T G G C C A T T s 1 = A T T G C C A T T s 2 = A T G G C C A T T s 3 = A T C C A A T T T T s 4 = A T C T T C T T s 5 = A C T G A C C s 1 = A T T G C C A T T - - s 3 = A T C - C A A T T T T s 1 = A T T G C C A T T s 4 = A T C T T C - T T s 1 = A T T G C C A T T s 5 = A C T G A C C - - armamos el alineamiento múltiple... (“once a gap, always a gap”) alineamientos de a pares: (s 1 y otra) s 1 = A T T G C C A T T - - s 2 = A T G G C C A T T - - s 3 = A T C - C A A T T T T s 4 = A T C T T C - T T - - s 5 = A C T G A C C ej. alineamiento estrella alin. pares O(kn 2 ) cálculo del score del alineamiento múltiple: O(k 2 l) total... O(kn 2 + k 2 l) l es la longitud de la sec. más larga en los alin.de a pares

Alineamiento árbol ¿Por qué alinear de esta manera? a veces hay árboles evolutivos para las secuencias involucradas k secuencias y un árbol con k hojas asignamos secuencias en los nodos internos computamos los pesos para cada eje =sim entre secuencias de nodos incidentes C A T G TC G C T G C T C G score total: 6 p(a,b)=1 si a=b =0 si a  b p(a,-)=-1 nodo eje

Symbol 3-letter Codons A Ala GCT GCC GCA GCG C Cys TGT TGC D Asp GAT GAC E Glu GAA GAG F Phe TTT TTC G Gly GGT GGC GGA GGG H His CAT CAC I Ile ATT ATC ATA K Lys AAA AAG L Leu TTG TTA CTT CTC CTA CTG M Met atg N Asn AAT AAC P Pro CCT CCC CCA CCG Q Gln CAA CAG R Arg CGT CGC CGA CGG AGA AGG S Ser TCT TCC TCA TCG AGT AGC T Thr ACT ACC ACA ACG V Val GTT GTC GTA GTG W Trp TGG Y Tyr TAT TAC * End TAA TAG TGA

Amino Acidos D E G P H K R C T M N Q S A I L V F W Y AA HYDROPHOBIC BASIC AA ACID AA NEUTRAL AA AROMATIC AA