Alineamiento de dos secuencias

Slides:



Advertisements
Presentaciones similares
Las bases moleculares de la herencia
Advertisements

EJERCICIOS DE REPASO DE GENÉTICA MOLECULAR
Replicación, Transcripción y Traducción.
Procesamiento de cadenas
Replicación 2ºBachillerato.
HOMOLOGY MODELLING Modelado por homologia o comparativo
PRINCIPIOS DE MODELADO POR HOMOLOGÍA
CODIGO GENETICO SINTESIS PROTEICA.
PROGRAMACION DE ESTRUCTURAS DE DATOS
Alineamiento de Secuencias Biológicas
TEMA 9 PROPORCIÓN Y ESTRUCTURAS MODULARES
Programación dinámica (1)
Encuentra las 12 diferencias
El sistema de puntuación
International Nucleotide Sequence Database Collaboration
MATRICES Concepto Se llama matriz de orden m x n a todo conjunto de elementos aij dispuestos en m líneas horizontales (filas) y n verticales (columnas)
REPLICACION La capacidad de las células de mantener un elevado grado de orden dentro de un universo caótico, depende de la información genética que se.
O (m × n).
El descubrimiento de elementos reguladores en los vertebrados a través de comparación de genomas Por Pilar Gonzalez Gomez Alberto Lietor Santos.
La PD no es adecuada para buscar en BD
INTRODUCIÓN A MICROSOFT EXCEL 2007
PROSPECCIÓN DE GENES CANDIDATOS PARA CARACTERES ASOCIADOS AL RENDIMIENTO EN TRIGO PAN Ramírez IA 1, AC Pontaroli 2 Introducción 1 FCA-UNMdP; 2 EEA Balcarce.
Actividades: Huella Genética
1 Ensamblado de fragmentos de ADN Grupo 6. 2 ORGANIZACIÓN 1. Background Biológico 2.Modelos 3.Algoritmos.
Informática empresarial
TEMA 3 ORGANIZACIÓN DEL MATERIAL HEREDITARIO EN PROCARIOTAS
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
ANALISIS DE DATOS CATEGORICOS
Unidad VII: Química de Nucleótidos
Cromosomas bacterianos artificiales
Vistas Semana 4.
Planificación de Procesos
VARIACIÓN EN EL TAMAÑO DEL GENOMA
Seguridad y encriptación
Universidad de La Laguna, 14/11/2013 Mareas y Corrientes IV: Análisis de datos de corrientes.
REACCIÓN EN CADENA DE LA POLIMERASA (PCR)
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Estructuras isostáticas de nudos articulados
Alineamiento.
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Traducción de proteínas
Métodos para secuenciar el ARN
Herramientas básicas.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Problema de inclusión en una Curva Digital Por Orellana Muñoz, Alfonso Paz Vicente, Rafael Pérez Medina, Gerardo Rodríguez Naranjo.
Errores en Excel Durante la creación y desarrollo de modelos o plantillas realizadas en Excel es posible que introduzcamos algún dato o fórmula de manera.
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Algoritmos para alineamientos locales: FastA
Matrices de sustitución
ACIDOS NUCLEICOS SEMANA 32 SEMANA 32.
Nieves Ábalos Serrano Mª Teresa Jiménez Ramírez
GENETICA MOLUCULAR.
GENETICA MOLECULAR.
II.- LAS TECNOLOGÍAS DEL ADN RECOMBINANTE Y LA INGENIERÍA GENÉTICA
Mediacentro Clase #2 de Word I. Temario Movimiento del Punto de Inserción. Movimiento del Punto de Inserción. Corrección y Borrado del Texto.
Introducción a la Bioinformática
TEMA 4.7 mRNAs EUCARIÓTICOS.
MATRICES Y DETERMINANTES
Congruencias y semejanzas de figuras planas
Planos.
MATRIZ INVERSA.
es el campo de la biología que estudia la estructura y la función de los genes a nivel molecular. La genética molecular emplea los métodos de la genética.
Organización de la forma y su entorno en el plano
Unidad 2 Matrices.
Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
 IMPARTIDA POR:  ING. NOE IBARRA ARREDONDO  21/NOV/2015 RIOVERDE, S.L.P. ALGEBRA LINEAL Orden de una Matriz Operaciones con Matrices Transformaciones.
1 C OMPUTACIÓN A VANZADA PARA M ÚSICA POR O RDENADOR ALGORITHMS FOR COMPUTING GEOMETRIC MEASURES OF MELODIC SIMILARITY 1.
Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.
Profesora: Milagros Coraspe Realizado por: Almérida, Gissell C.I.: Valladares, Angélica C.I.: Universidad De Oriente Núcleo Monagas.
Transcripción de la presentación:

Alineamiento de dos secuencias Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número de símbolos coincidentes sea máximo. Si es necesario, se introducen huecos (gaps). indel * Un sistema de puntuación Alineamiento de dos secuencias

Las tres posibilidades: match, mismatch, gap En cada una de las posiciones de un alineamiento de secuencias se puede encontrar: Un símbolo idéntico (match) que se ha conservado a lo largo de la evolución Un símbolo distinto (mismatch) que ha sido sustituido (o que ha mutado) a lo largo de la evolución Un hueco (gap), que es el resultado de la desaparicón (deletion) de un símbolo en una secuencia o de la inserción (insertion) de un símbolo en la otra. Como ambos casos son indistinguibles, también se les llama indels. Las tres posibilidades: match, mismatch, gap

Tipos de alineamiento de dos secuencias Un alineamiento global se extiende por toda la longitud de la secuencia 1.- Alineamiento global Un alineamiento local se limita a una región concreta de la secuencia 2.- Alineamiento local 3.- Alineamiento semiglobal Un alineamiento semiglobal se produce entre el final de una secuencia y el inicio de otra Tipos de alineamiento de dos secuencias

Un alineamiento global intenta alinear cada residuo de una secuencia con un residuo (o un indel) de la otra. Un alineamiento global permite (1) establecer relaciones de homología y (2) hacer un análisis filogenético. Es especialmente adecuado cuando: Se comparan genes o proteínas con una misma función Las secuencias tienen aproximadamente la misma longitud Las secuencias están estrechamente relacionadas Los dominios conservados se encuentran en el mismo orden Para hacer un alineamiento global se utiliza el algoritmo de Needleman y Wunsch Alineamiento global

En un alineamiento local, una o más regiones de una secuencia se alinean con una o más regiones de la otra. Un alineamiento local permite (1) detectar pequeñas regiones conservadas de similitud local (centros activos, dominios proteicos, exones), (2) distinguir entre exones e intrones y (3) ensamblar contigs a partir de fragmentos más pequeños Es especialmente adecuado cuando: Se comparan secuencias muy divergentes (de igual longitud o no) No se conoce el orden de los dominios conservados Se compara ADNc (o ESTs) con el ADN genómico Para hacer un alineamiento local se utiliza el algoritmo de Smith y Waterman Alineamiento local

Alineamiento semiglobal Un alineamiento semiglobal se utiliza para alinear secuencias con una longitud muy distinta Un alineamiento semiglobal permite (1) ensamblar contigs a partir de fragmentos más pequeños y (2) comparar ADNc (o ESTs) con el ADN genómico para establecer la estructura del gen Es especialmente adecuado cuando: Se comparan secuencias de muy distinta longitud El final de una secuencia se solapa con el inicio de la otra Los dominios conservados se encuentran en el mismo orden Para hacer un alineamiento semiglobal se utiliza una variante del algoritmo de Smith y Waterman que no aplica penalizaciones ni al principio ni al final de la secuencia Alineamiento semiglobal

Ejemplo de alineamientos semiglobales

Búsqueda de secuencias en BD

Existen diversos métodos para el alineamiento de dos secuencias: 1.- El algoritmo de fuerza bruta 2.- Matrices de puntos (dot-plots) 3.- El algoritmo de programación dinámica 4.- Métodos heurísticos (FASTA, BLAST) Estrategias para alinear dos secuencias

O (2n × 2m)

A lo bestia: el algoritmo de fuerza bruta

Con alineamientos locales es aún peor Trata de encontrar la secuencia común de mayor tamaño (LCS) entre dos secuencias X e Y de longitudes m y n, respectivamente. Se determinan todas las subsecuencias posibles de X (2m) y se comparan con todas las subsecuencias posibles de Y (2n) En total, hay que hacer 4(m+n) comparaciones Con gaps, hay que repetir los cálculos 2N veces para examinar la presencia de gaps en todas las posiciones posibles de las dos secuencias Según Waterman (1989) comparar dos secuencias de 300 aminoácidos requiere examinar 1088 posibilidades, casi el mismo número de partículas elementales que hay en el Universo. En la práctica, resulta imposible, tanto por el tiempo que se necesita como por los recursos de memoria que le harían falta al ordenador Con alineamientos locales es aún peor

O (m × n)

Dot-plot (Gibbs and McIntyre, 1970)

1.- Se necesitan dos secuencias: A (de longitud = m) y B (de longitud = n). 2.- Se escribe la secuencia A en la fila superior y la secuencia B (longitud = n) en la columna de la izquierda. 3.- Se construye una matriz con m columnas y n filas (m  n). 4.- Se compara cada letra de la secuencia A con cada letra de la secuencia B. Si coinciden los caracteres se marca esa posición con un punto. Si no, se deja en blanco. El algoritmo

Construcción de la matriz

Rellenado de la matriz

Características del dot plot Es un método visual que detecta todas las coincidencias posibles entre dos secuencias. Es tarea del investigador determinar cuáles son relevantes. No proporciona un alineamiento de las secuencias pero nos da una idea de qué regiones deberían estar alineadas después de utilizar cualquiera de los otros métodos y nos puede ayudar a decidir cuál es el alineamiento óptimo. Detecta relaciones entre las secuencias, o dentro de una misma secuencia que, de otra forma, serían muy difíciles de encontrar Características del dot plot

DNA vs. proteína DNA Proteína Secuencia horizontal: gen/proteína c2 del fago P22 Secuencia vertical: gen/proteína cI del fago l DNA Proteína Como sólo hay 4 nucleótidos, aparecen muchas coincidencias por mero azar que generan ruido Como hay 20 aminoácidos, hay muchas menos coincidencias por azar y presenta mucho menos ruido DNA vs. proteína

Filtrado de los datos Se puede eliminar el ruido mediante un filtrado - Secuencia horizontal: gen c2 del fago P22 - Secuencia vertical: gen cI del fago l Sin filtrar Tras aplicar un filtro Filtrado de los datos

La ventana deslizante se define mediante dos parámetros: - TAMAÑO (t): es el número de símbolos que abarca la ventana. Suele ser 15 en el caso del DNA y 2 ó 3 en el caso de proteínas. Ventanas deslizantes (t = 11 y r = 7) - RIGOR (r): es el mínimo número de coincidencias que debe haber entre las dos ventanas para colocar un punto en la matriz Se colocará un punto en la posición correspondiente al centro de la ventana cuando entre ambas ventanas exista, como mínimo, el número de coincidencias indicado por el parámetro r. Reducción del ruido: filtrado mediante ventanas deslizantes

Ejemplo de la reducción del ruido Secuencia horizontal: gen c2 del fago P22 Secuencia vertical: gen cI del fago l (t = 1 y r = 1) (sin filtrado) (t = 11 y r = 7) (t = 23 y r = 15) Ejemplo de la reducción del ruido

Valores apropiados para los parámetros de filtrado En general, hay que utilizar una ventana del tamaño del elemento que quiero localizar - Al comparar secuencias de ácidos nucleicos: - Se utilizan ventanas largas y con rigor elevado (t = 15 y r = 10, por ejemplo) - Al comparar secuencias de proteínas: - Muchas veces no se filtra la matriz (t = 1 y r = 1). - Si se filtra, se utilizan ventanas cortas con un rigor muy pequeño: (t = 2 y r = 2), (t = 3 y r = 2) - Si intento buscar dominios cortos con similitud parcial en secuencias largas usaré una ventana larga y un rigor medio (t = 20 y r = 5, por ejemplo) - A la hora de filtrar se pueden utilizar matrices de puntuación o se puede tener en cuenta la similitud entre las cadenas laterales de los aminoácidos. Valores apropiados para los parámetros de filtrado

Comparación de una secuencia (DNA o proteína) consigo misma

Comparación de una secuencia consigo misma (1) (Receptor LDL humano) - Aparece una diagonal de lado a lado - Hay simetría respecto a esa diagonal - Las líneas paralelas a ambos lados de la diagonal corresponden a repeticiones de la secuencia. - Las repeticiones invertidas o las secuencias palindrómicas aparecen como líneas perpendiculares a la diagonal principal - Las áreas con alta densidad de puntos son repeticiones cortas de un mismo nucleótido o aminoácido (regiones de poca complejidad) - Se ve mejor con un filtrado Comparación de una secuencia consigo misma (1)

Comparación de una secuencia consigo misma (2) Región de poca complejidad Regiones repetidas Repeticiones invertidas (t = 1 y r =1) (t = 23 y r =7) (t = 1 y r =1) Receptor LDL humano (sin filtrar) Receptor LDL humano (filtrado) Factor de transcripción humano Comparación de una secuencia consigo misma (2)

Secuencias repetidas Proteína SLIT de Drosophila melanogaster - En el extremo amino hay 4 regiones repetidas, ricas en leucina (A) - Hay otro dominio que se repite unas 6 veces en un tramo pequeño y otra vez más cerca del extremo carboxilo (B). Es el dominio EGF. Secuencias repetidas

Repetición en tándem de un fragmento de la secuencia …ABCDEFGEFGHIJKLMNO… Repetición en tándem

Repeticiones invertidas En las repeticiones invertidas (inverted repeats), dos segmentos distintos de la doble hélice se leen igual, pero en sentidos opuestos: 5' AGAACAnnnTGTTCT 3' 3' TCTTGTnnnACAAGA 5' Repeticiones invertidas

Repeticiones invertidas Las repeticiones invertidas se pueden encontrar en: - Secuencias implicadas en la unión de los factores de transcripción - Transposones de plantas - Genes de retrovirus insertados en el genoma del huésped - Genes duplicados - Estructuras secundarias (stem-loop) del RNA (horquillas de terminación de la transcripción) Repeticiones invertidas

Repeticiones invertidas Horquilla de terminación en la secuencia del gen UTP-glucosa-1-fosfato uridililtransferasa de Bacillus subtilis - En las regiones con apareamientos locales (estructuras stem-loop) la secuencia directa coincide con la de la hebra complementaria escrita en sentido inverso Repeticiones invertidas

5' GGCC 3' 3' CCGG 5' Secuencias palindrómicas En las secuencias palindrómicas, la secuencia de una hebra se lee igual que la de su hebra complementaria: 5' GGCC 3' 3' CCGG 5' Secuencias palindrómicas

Secuencias palindrómicas Las secuencias palindrómicas se pueden encontrar en: - Secuencias reconocidas por enzimas de restricción: Secuencias palindrómicas

Regiones con poca complejidad Receptor LDL humano - Las regiones de baja complejidad aparecen como zonas con una elevada densidad de puntos Regiones con poca complejidad

Proteína P21997 (UniProtKB/Swiss-Prot) - En las regiones de poca complejidad hay un aminoácido que se repite mucho más de lo normal. En este caso es la prolina. - En el dot plot, estas regiones aparecen como cuadrados con una elevada densidad de puntos. Regiones con poca complejidad

Comparación de dos secuencias similares (de DNA o de proteína), pero no idénticas

Lo que se puede detectar con un dot-plot Se coloca la secuencia A en la parte superior y la secuencia B en el costado izquierdo. Se coloca un punto allí donde ambas coordenadas contengan un mismo símbolo. Es un método visual que detecta rápidamente todas las coincidencias - Las regiones similares aparecen como diagonales (puede haber más de una) - Los indel provocan desplazamientos de la diagonal (en sentido vertical u horizontal) - Las transposiciones y las secuencias repetidas aparecen como diagonales paralelas a la principal - Las repeticiones inversas y las secuencias palindrómicas aparecen como líneas perpendiculares a la diagonal principal - Las regiones con poca complejidad aparecen como regiones con una elevada densidad de puntos Lo que se puede detectar con un dot-plot

- La diagonal principal corresponde a las regiones similares que pueden alinearse - Con frecuencia, estas regiones corresponden a dominios proteicos conservados Huecos - Los huecos corresponden a las regiones que no son similares y que no podrían alinearse Dominios conservados

Indels (insertion/deletions) Región insertada - Un indel provoca un desplazamiento de la diagonal - El desplazamiento de la diagonal es paralelo a la secuencia que presenta la inserción - Comparando cDNA con el DNA genómico, se pueden identificar los intrones y los exones Indels (insertion/deletions)

Secuencia repetida en tándem Región repetida - Una región repetida provoca un solapamiento en las diagonales Región repetida Región repetida Secuencia repetida en tándem

Repetición invertida o secuencia palindrómica - Una repetición invertida o una secuencia palindrómica provoca una línea perpendicular a la diagonal Repetición invertida o secuencia palindrómica

Comparación de una secuencia de proteína con su gen de ADN

Identificación de los intrones y exones - Secuencia horizontal: gen J05545.1 - Secuencia vertical: proteína P60204 (una calmodulina) - Al comparar un gen con su producto proteico se pueden diferenciar los exones y los intrones. * En rojo: exones. * En azul: intrones. - También se pueden diferenciar intrones y exones al comparar un cDNA, una EST (expressed sequence tag) o un mRNA con el DNA genómico Identificación de los intrones y exones

http://myhits.isb-sib.ch/cgi-bin/dotlet El programa Dotlet

http://www.vivo.colostate.edu/molkit/dnadot/ El programa Dnadot

Descárgate el programa (varias plataformas) http://sonnhammer.sbc.su.se/Dotter.html Descárgate el programa (varias plataformas) El programa Dotter

http://emboss.bioinformatics.nl/cgi-bin/emboss/dottup El programa Dottup

http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dottup El programa Dottup

El programa Dotmatcher http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dotmatcher El programa Dotmatcher

http://www.genebee.msu.su/services/dhm/advanced.html El programa Dothelix

El programa MatrixPlot http://www.cbs.dtu.dk/services/MatrixPlot/ El programa MatrixPlot