Comparar secuencias = Obtener información

Slides:



Advertisements
Presentaciones similares
ALGORITMOS GENETICOS EVOLUCIÓN DE UNA POBLACIÓN DE
Advertisements

Excel.
Herramientas informáticas Hojas de cálculo
Curso de PowerPoint #Unidad P1
Configurar un curso (Función del profesor) Editar el nombre, el nombre corto y el informe (que se muestra en la portada) Escoger la formato del curso y.
ESCRIBIR, INSERTAR VÍNCULOS E IMÁGENES en un WIKI Adela Fernández, Irene González, Marimar Pérez.
Objetivos del Taller Navegar por la interfase del programa. Identificar las capacidades de sus iconos. Demostrar sus posibilidades desde la visión educativa.
Iniciación al Power Point
PSI-BLAST.

BLAST.
TABLAS EN WORD.
TUTORIAL PASO A PASO Parte 2. PASO 7: Organizando los archivos Antes de dar inicio a la creación del contenido del curso debes tomar en cuenta que necesitarás.
BASE DE DATOS Primeros pasos
Master en Recursos Humanos
PRINCIPIOS DE MODELADO POR HOMOLOGÍA
Aprendizaje de Microsoft® Access® 2010
Programación dinámica (1)
Administrador de Base de Datos (Microsoft Access)
Encuentra las 12 diferencias
Optimización de sistemas de trading
El sistema de puntuación
Algoritmos Genéticos (AG) Integrantes: Rubén Levineri Miguel Rozas Juan Yañez Faltan autores y bibliografía.
La PD no es adecuada para buscar en BD
Material de la Prof. Jessie Lema
Lic. Manuel Álvaro Pacheco Hoyo
Herramientas informáticas Hojas de cálculo
Biograma Introducir datos en una matriz. Elegir método para máximos y mínimos. Calcular los máximos y mínimos observados. Límites.
Programación en Matlab
UNIDAD 2:Crear, abrir y cerrar una base de datos Hacer clic sobre la opción Nuevo de la pestaña Archivo. Se mostrarán las distintas opciones para nuevos.
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Práctica 1: Alineamientos Partimos de un archivo de datos que contiene 5 secuencias de mRNA asociado a la CFTR archivo de prácticas archivo de prácticas.
CÓDIGOS DE HUFFMAN. Códigos de Huffman Los códigos de Huffman, que representan caracteres por cadenas de bits de longitud variable, proporcionan alternativas.
Para construir un árbol filogenético se necesitan tres ingredientes básicos:
Matrices de Substitución PAM Y BLOSUM
Publicación de bases de datos Access en la web
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Alineamiento.
Autora: Francisca Montañez Muñoz
Algoritmos genéticos Introducción Esquema básico Codificación
Una introducción a la computación evolutiva
Comenzando con Excel 2000 Abrir Excel 2000 Pulsamos INICIO Elegimos PROGRAMAS Pulsamos en MICROSOFT EXCEL 2000 Elementos de la ventana de Excel 2000 Barra.
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Matrices de sustitución
Bases de datos secundarias. Briefings in Bioinformatics 3 (2002):
II QUIMESTRE PARCIAL 4.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Excel La Hoja De Cálculo.
¿Qué es una hoja de cálculo?
La configuración general de un curso se realiza desde el bloque "Ajustes", en “Administración del curso”, en “Editar ajustes” (Tenemos que estar en el.
Reconocimiento de patrones
SHUTTENBORG ACCESS CONOCE LOS PROGRAMAS. Cortés Gamboa Lizzeth
Hoja de Cálculo EXCEL Introducción a la informática
  Una ventaja de Weebly es que el proceso de registro es muy sencillo. ¿Cómo hacerlo en weebly?
Introducción a phpMyAdmin
Profesora: Angela Maiz
Tema: ¿Qué es y para qué sirve Excel?
TABLAS DINAMICAS – HERRAMIENTAS DE COLABORACION Y SEGURIDAD
¿Qué es un Mapa Conceptual?
Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta.
Proceso de resolución de un nombre de dominio. –Consultas recursivas. –Consultas iterativas. –Caché y TTL. –Recursividad y caché. Gustavo Antequera Rodríguez.
P O W E R P O I N T CONCEPTOS BÁSICOS 1.
¿Qué ES UNA BD?  Una base de datos es como un almacén en el que se guarda y organiza diferente tipo de información, pero en el computador. Las bases.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
DLM Transact SQL Sesión I Introducción al SQL Server Uso de las herramientas de consultas del Transact SQL.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
PROSITE: Guía rápida Dirección URL de PROSITE.
Unidad 7 Aplicar formatos en Excel. Fecha: 7/11/ 2011 Periodo# : 2 Objetivo: Identificar a Excel para efectuar operaciones numéricas y los usos que podemos.
CB2: Uso de las tic (tecnologías de la información y la comunicación). N5: Elaboración colaborativa de conocimiento a través de tareas y proyectos educativos.
ROCYCELA GARCIA VASQUEZ. CB2: Uso de las tic (tecnologías de la información y la comunicación). N5: Elaboración colaborativa de conocimiento a través.
Transcripción de la presentación:

Comparar secuencias = Obtener información

Alineamiento de dos secuencias Los aa importantes para el mantenimiento de la estructura y/o función de la proteína se encuentran bajo presión evolutiva: o se conservan o, si cambian, lo hacen por aa parecidos. Estos aa se pueden identificar haciendo un alineamiento de proteínas homólogas. Si dos secuencias están muy próximas en la evolución, habrán cambiado muy poco y será difícil detectar qué aa son los realmente importantes Este problema se puede resolver alineando el mayor número posible de secuencias homólogas. Si dos secuencias están muy lejanas será difícil hacer un alineamiento capaz de detectar los residuos importantes. Alineamiento de dos secuencias

Alineamiento múltiple de secuencias

Alineamiento múltiple de secuencias

Para ser útil, un AMS debe incluir un amplio rango de similitudes

El porcentaje de identidad entre secuencias

Alineamiento óptimo de múltiples secuencias

Regiones conservadas y no conservadas

Regiones conservadas y no conservadas Al alinear muchas secuencias, las columnas que contienen aa idénticos o similares destacarán claramente. Estos aa conservados corresponden a aquellas regiones de la proteína que son importantes para el mantenimiento de la estructura y/o función. Las regiones de la proteína que toleran indels suelen corresponder a regiones expuestas (bucles sin elementos de estructura secundaria. Regiones conservadas y no conservadas

AMS y predicción de estructuras

AMS y relaciones filogenéticas

Aplicaciones de los AMS (1)

Aplicaciones de los AMS (2)

Selección de secuencias para un AMS (1)

Selección de secuencias para un AMS (2)

¿Qué tipo de secuencias necesito para un AMS?

No es una buena idea seleccionar muchas secuencias

Hacer un AMS con muchas secuencias es complicado

Nombrar las secuencias de un AMS

Consejos sobre cómo hacer un AMS

Criterios para la construcción de un AMS (2)

Métodos para hacer AMS globales Métodos exactos (basados en la PD) MSA CLUSTALW T-COFFEE MUSCLE AMS globales Métodos progresivos Métodos iterativos PRRN SAGA Métodos estadísticos y probabilísticos Perfiles HMM Métodos para hacer AMS globales

1.- Métodos exactos

Método basado en la programación dinámica Programa MSA Método basado en la programación dinámica

El espacio de búsqueda con 3 secuencias (PD) 3002 = 9  104 3003 = 2,7  107 El espacio de búsqueda con 3 secuencias (PD)

Método de programación dinámica Para alinear dos secuencias de 300 aa, el algoritmo de programación dinámica (PD) utiliza una matriz bidimensional: El número de operaciones que hay que realizar es 3002. Para alinear N secuencias de 300 aa, el algoritmo de PD utiliza una matriz n-dimensional: El número de operaciones que hay que realizar es 300N. Este método necesita una gran cantidad de recursos computacionales y mucho tiempo. En la práctica apenas se utiliza: sólo si n = 3 ó, si las secuencias son cortas, 6 < n < 8. Método de programación dinámica

Reducción heurística del espacio de búsqueda

Método de la “suma de pares” Un sistema de puntuación del AMS

http://xylian.igh.cnrs.fr/msa/msa.html

2.- Métodos progresivos

J. Mol. Evol. (1987) 25: 351-360

Algoritmo del método progresivo (1) Compara todas las secuencias, dos a dos, utilizando el algoritmo de programación dinámica. Se cuenta el número de residuos que coinciden en cada pareja de secuencias. Hace un análisis de grupo (cluster analysis) para generar una jerarquía de secuencias en base a su similitud. Con esos datos se genera un árbol filogenético que servirá de guía para la construcción del AMS. El AMS comienza alineando las dos secuencias más parecidas. A continuación va añadiendo de forma progresiva las secuencias (o grupos de secuencias) que más se parecen a las que ya están alineadas. El AMS depende mucho de los alineamientos iniciales por parejas. Cualquier error cometido en las primeras etapas se va arrastrando durante todo el proceso. Algoritmo del método progresivo (1)

Algoritmo del método progresivo (2)

Inconvenientes del método progresivo

Web oficial de Clustal W – Clustal X http://www.clustal.org/clustal2/ Command-line version Graphical version Web oficial de Clustal W – Clustal X

ClustalW es el más utilizado

ClustalW compara las secuencias de dos en dos

El algoritmo de ClustalW

Se utiliza el algoritmo de programación dinámica para calcular la distancia genética entre cada pareja de secuencias (nº de mismatches /nº matches) ClustalW: etapa nº 1

ClustalW agrupa las secuencias y genera un dendrograma

Dynamic Programming Using A Substitution Matrix Alineamientos progresivos

Con esos datos se construye un “árbol guía” que sirve para decidir el orden de los alineamientos (no tiene que ser especialmente preciso). ClustalW: etapa nº 2

Se empieza alineando las dos secuencias más parecidas Se empieza alineando las dos secuencias más parecidas. A este alineamiento se le van añadiendo secuencias o alineamientos por orden decreciente de similitud. ClustalW: etapa nº 3

Página principal de ClustalW2 (EBI) http://www.ebi.ac.uk/Tools/msa/clustalw2/ El servidor EBI va a retirar ClustalW2 en Agosto de 2015 y recomienda utilizar Clustal Omega Página principal de ClustalW2 (EBI)

Otras opciones para hacer AMS (EBI)

Página principal de Clustal Omega (EBI) http://www.ebi.ac.uk/Tools/msa/clustalo/ Página principal de Clustal Omega (EBI)

Para hacer un AMS con ClustalW2: 1.- Seleccionar las secuencias en formato FASTA 2.- Introducir las secuencias en el campo 3.- Seleccionar los parámetros del alineamiento por parejas 4.- Seleccionar los parámetros del alineamiento múltiple 5.- Indicar si quieres recibir los resultados por e-mail 6.- Submit!! Cómo se hace un AMS con ClustalW2

Corta/pega las secuencias aquí (de una en una). El límite son 500. Escoge DNA o proteínas Corta/pega las secuencias aquí (de una en una). El límite son 500. Si ya tienes las secuencias seleccionadas en un único archivo, pincha aquí para cargarlo en el formulario. El tamaño máximo del archivo es 1 Mega Introduce las secuencias

Selecciona parámetros del alineamiento por parejas Selecciona el tipo de alineamiento Selecciona la penalización por abrir un indel Selecciona la penalización por extender un indel Selecciona la matriz de sustitución Selecciona parámetros del alineamiento por parejas

Selecciona parámetros del alineamiento múltiple Selecciona los parámetros del alineamiento múltiple Selecciona la penalización por extender un indel Selecciona la matriz de sustitución Selecciona la penalización por abrir un indel Indica si quieres recibir el resultado por e- mail Selecciona parámetros del alineamiento múltiple

ClustalW2 está trabajando …

Puedes guardar el alineamiento como un fichero Puedes aplicar colores Resultados de ClustalW2 (1)

Resumen de los resultados Código de colores Resultados de ClustalW2 (2)

Árbol guía (dendrograma) Distancias entre las secuencias Puedes utilizar Jalview, una herramienta que permite visualizar y/o editar el alineamiento Distancias entre las secuencias Tabla con las puntuaciones de todos los alineamientos posibles por parejas Resultados de ClustalW2 (3)

Cladograma (árbol guía utilizado para construir el AMS) Árbol filogenético en formato reconocible por el ordenador, que se puede cortar y pegar en otras herramientas bioinformáticas Cladograma (árbol guía utilizado para construir el AMS) Resultados de ClustalW2 (4)

http://www.ch.embnet.org/software/ClustalW.html ClustalW en el SIB

Otra dirección de ClustalW2 http://simgene.com/ClustalW Otra dirección de ClustalW2

Propagación del error inicial B A El gran inconveniente de ClustalW

T-Coffee = Tree-based Consistency Objective Function for alignmEnt Evaluation J. Mol. Biol. (2000) 302, 205-217

Aplicaciones de T-Coffee

T-Coffee

El algoritmo de T-Coffee Clustal Lalign 1.- El programa comienza haciendo alineamientos globales (con CLUSTAL) y locales (con Lalign) en cada pareja de secuencias 2.- A partir de los alineamientos crea una biblioteca primaria en la que cada pareja de residuos alineados está ponderada (su importancia depende del porcentaje de identidad entre las dos secuencias) El algoritmo de T-Coffee

T-Coffee extiende la biblioteca 3.- Se extiende la biblioteca: cada pareja de secuencias alineada se compara con las demás secuencias y se recalcula el factor de ponderación en cada posición del alineamiento. 4.- Se hace un alineamiento progresivo de las secuencias. Se alinean dos a dos utilizando los factores de ponderación. Se calcula la matriz de distancias y se construye un árbol guía que dirija el alineamiento. Se empieza por las más parecidas y se van añadiendo las secuencias (o pareja de secuencias) más parecidas hasta completar el alineamiento. T-Coffee extiende la biblioteca

El trazo grueso tiene mayor factor de ponderación Librería primaria: cada pareja de secuencias alineada recibe un factor de ponderación Librería extendida: Cada pareja de secuencias alineada se compara con las demás secuencias y se recalcula el factor de ponderación El trazo grueso tiene mayor factor de ponderación Ejemplo de la extensión de la biblioteca

¿Cómo toma Vd el café?

Pincha aquí para hacer un AMS sencillo http://tcoffee.crg.cat/

http://www.tcoffee.org/

Variantes del programa TCoffee

http://simgene.com/T-Coffee

MUSCLE

Nucleic Acids Research 2004, 32: 1792-1797

MUSCLE permite alinear cientos de secuencias MUSCLE: el algoritmo

El algoritmo de MUSCLE: Etapa 1 The kmer distance is derived from the fraction of kmers in common. This measure does not require an alignment, giving a significant speed advantage. El algoritmo de MUSCLE: Etapa 1

The approximate kmer distance results in a suboptimal tree. El algoritmo de MUSCLE: Etapa 2

El algoritmo de MUSCLE: Etapa 3

http://www.ebi.ac.uk/Tools/msa/muscle/

http://www.drive5.com/muscle/

3.- Métodos iterativos

Fundamento de los métodos iterativos

PRRN: el artículo original

El programa PRRP

Algoritmo del programa PRRN

Página web del programa PRRN http://www.genome.jp/tools/prrn/ Página web del programa PRRN

SAGA

Nucleic Acids Research 24 (1996): 1515-1524

1 2 4 3 El algoritmo genético

Etapa 1: Inicialización (G0) Se escriben las secuencias (una en cada fila), y cada una se desplaza hacia la derecha un número aleatorio de posiciones. Se incluyen huecos para que al final todas tengan la misma longitud. Etapa 1: Inicialización (G0)

Etapa 2: Evaluación mediante una función objetiva (SP) OF EO (SP) Etapa 2: Evaluación mediante una función objetiva (SP)

Etapa 2: Se descarta el 50% de los AMS

Se selecciona el progenitor o progenitores Se selecciona un operador El 50% con mejor puntuación pasa a la siguiente generación y el 50% restante se genera a partir de estos progenitores mediante un operador 3 Se selecciona el progenitor o progenitores Se selecciona un operador progenitores descendencia Etapa 3: Reproducción (mutaciones y recombinaciones)

Los operadores: mutaciones y recombinaciones

Mutaciones: Introducción de huecos Las mutaciones no cambian la secuencia porque se arruinaría el alineamiento. Se pueden formar grupos de secuencias según el árbol filogenético e introducir huecos en dos posiciones aleatorias del alineamiento. Mutaciones: Introducción de huecos

Mutaciones: Desplazamiento de bloques Un bloque de huecos Un bloque de residuos Mutaciones: Desplazamiento de bloques

Recombinación entre dos progenitores (1) El hijo 1 se crea a partir de la parte izquierda del padre 1 y de la parte derecha del padre 2. El hijo 2 se crea a partir de la parte derecha del padre 1 y de la parte izquierda del padre 2. Sólo uno de los dos hijos pasa a la siguiente generación: el que obtiene una mejor puntuación. Este hijo conserva las regiones alineadas de sus dos progenitores (recuadros) Recombinación entre dos progenitores (1)

Recombinación entre dos progenitores (2)

Etapa 4: Finalización

http://www.tcoffee.org/Projects_home_page/saga_home_page.html El programa SAGA

4.- Métodos estadísticos y probabilísticos

Modelo de Markov oculto (HMM) de un AMS

Herramientas para editar AMS

Los editores de AMS son programas que permiten modificar los AMS generados por otros métodos. Permiten retocar los alineamientos para que tengan en cuenta otros tipos de información o cambiar el formato por otro más adecuado para su publicación en una revista científica. http://www.jalview.org/ http://www.ch.embnet.org/software/BOX_form.html Editores de AMS

Jalview es una herramienta que te permite crear AMS o modificar AMS hechos con otros programas introduciendo otros tipos de información que ClustalW no ha tenido en cuenta. JalView

Página web oficial de JalView http://www.jalview.org/ Página web oficial de JalView

También te puedes descargar el programa http://sourceforge.net/projects/boxshade/ http://www.ch.embnet.org/software/BOX_form.html

AMS editado con JalView y sombreado con Boxshade

A modo de conclusión

Programas para hacer AMS

Programas para hacer AMS on-line

Los mejores programas para hacer AMS

Algunas recomendaciones para elegir programa