ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS

Slides:



Advertisements
Presentaciones similares
Tema 13. Inferencia estadística Principales conceptos. Muestreo
Advertisements

Algoritmo GENETICO.
PSI-BLAST.
Unidad 1 DISEÑO DE ALGORITMOS ING. Nelwi Baez. MSC
7. Máquinas Estocásticas
PROYECTO FIN DE CARRERA.  Introducción y Motivación  Fundamentos del Sistema QbH  Diseño e Implementación  Test y Resultados  Conclusiones  Trabajo.
TIPOS O ENFOQUES DE INVESTIGACION
COMPONENTIZACIÓN DE ALGORITMOS GENETICOS Y SU IMPLEMENTACIÓN EN UNA PLATAFORMA ABIERTA PARA APRENDIZAJE COMPUTACIONAL.
Programación 1 Introducción
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
Encuentra las 12 diferencias
Sistemas Inteligentes Algoritmos Geneticos
Optimización matemática Algoritmos Genéticos – Parte 2 Por: Antonio H
Algoritmos Genéticos (AG) Integrantes: Rubén Levineri Miguel Rozas Juan Yañez Faltan autores y bibliografía.
La PD no es adecuada para buscar en BD
Sesión 12: Procesos de Decisión de Markov
Uso de modelos Mixed Logit en modelación de elecciones discretas
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Informe del presupuesto y evaluación de alternativas de inversión.
Sesión 2: Métodos Probabilísticos Básicos
Profile HMMs Perfiles de Modelos ocultos de Markov
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Los HMM son modelos probabilísticos de una secuencia
Sesión 6: Campos de Markov
Probabilidad y estadística
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
Combinación de Clasificadores
Matrices de Substitución PAM Y BLOSUM
An HMM-Based Threshold Model Approach for Gesture Recognition Hyeon-Kyu Lee and Jin H. Kim IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,
MUESTREO… Jefferson Bueno Cristian Hernández Tatiana Cardona
UNIDAD 2. ALGORITMOS Y ESTRUCTURAS DE DATOS.
Introducción Líneas de Espera
INVESTIGACION DE OPERACIONES
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Comparar secuencias = Obtener información
Análisis Cuantitativo de Datos (Básico)
Alineamiento.
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Algoritmos genéticos Introducción Esquema básico Codificación
Concepto Según la estrategia de medidas repetidas, las unidades son observadas a lo largo de una serie reducida de intervalos de tiempo u ocasiones.
Análisis y Diseño de Algoritmos
Una introducción a la computación evolutiva
Matrices de sustitución
Sesión 12: Procesos de Decisión de Markov
Las inserciones y deleciones se penalizan con un peso W Se construye una matriz H de n + 1 filas y m + 1 columnas. La secuencia de A se ubica en las filas.
Nieves Ábalos Serrano Mª Teresa Jiménez Ramírez
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
Metodología de la programación
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Investigación Algorítmica ChasquiSoft. Integrantes Contreras Ames, Roy Carlos Gaspar Calle, Ronald Urlich Ames, Rafael Paredes.
Herramientas avanzadas. Lo primero: abrir el modelo.
Modelos ocultos de Markov (HMM)
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Maracaibo, 26 de Mayo de 2006 Universidad del Zulia Facultad de Ingeniería División de Postgrado Maestría en Computación Aplicada Universidad del Zulia.
ALGORITMOS GENETICOS.
Escalamiento Multidimensional No-Métrico. Rasgos generales Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más.
Tomando decisiones sobre las unidades de análisis
Taller: Inteligencia Computacional
Diagrama de Transición de Estado
Introducción a los TADs
Distribuciones de Probabilidad
MUESTREO : Generalidades
NORMA INTERNACIONAL DE AUDITORÍA 530
DATOS ESTADÍSTICOS.
UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE CIENCIAS ECONOMICAS INFERENCIA ESTADISTICA TEMA: ESTIMACION PUNTUAL, PROPIEDADES DE LAS ESTIMACIONES;
Pruebas paramétricas y no paramétricas
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
Algoritmo Genético para la solución del problema SAT René Clemente Juárez Angel Felipe Lara Valladares Junio 2012.
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Transcripción de la presentación:

ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS Grace Velapatiño María Jesús Olarte Sofía Espinoza Jimena Murguía

Alineamiento de dos secuencias - mismo principio - alineamiento múltiple Alinear óptimamente las secuencias para obtener el mayor numero de caracteres similares dentro de la misma columna del alineamiento

Métodos usados para alineamiento múltiple Alineamiento global progresivo de las secuencias - comienzan con un alineamiento de las secuencias mas parecidas y luego construyen un alineamiento adicionando mas secuencias. ( CLUSTAL) Métodos iterativos que se basan en hacer un alineamiento inicial de grupos de secuencias y luego revisan los alineamientos para lograr un resultado mas razonable.( DIALING) Métodos estadísticos y modelos probabilísticos de las secuencias.( modelos de Markov) Alineamientos basados en patrones conservados encontrados en el mismo orden en las secuencias.

Método progresivo ClustalW Hay tres etapas importantes: 1.Hacer un alineamiento por pares 2.Crear un árbol filogenetico 3.Usar el árbol filogenético para llevar a cabo el alineamiento múltiple

Principales problemas Dependencia de los alineamientos de los pares iniciales utilizados. Escoger una matriz adecuada y penalidad de gaps.

METODOS ITERATIVOS

Métodos Iterativos Repetitivo: Instrucciones ejecutadas múltiples veces, genera aproximaciones sucesivas a una solución Realinear repetidamente subgrupos de las secuencias y luego alinear éstos en un alineamiento global de todas las secuencias Objetivo: Mejorar el score general del alineamiento (Suma de pares*) Selección de los grupos: Orden de las secuencias en un árbol filogenético Secuencia separadas Selección aleatoria Programas: PRRP, DIALIGN, SAGA, etc.

Algoritmo Genético Mediante rearreglos Score cada vez más alto para el AM Simulación de los cambios evolutivos en secuencias. Programa SAGA (Sequence Alignment by Genetic Algorithm) Equivalencias Población: grupo de secuencias alineadas Fitness: score Generación: grupo de alineamientos resultantes de cambios en el grupo inicial o anterior Operadores genéticos: mutaciones (inserciones: gaps) y recombinación (rearreglos)

Población inicial Nueva población Pasos del algoritmo Población inicial Se pone a prueba el fitness de cada individuo Terminación Se alcanzó número máximo de generaciones o fitness satisfactorio Individuos con el mejor fitness son seleccionados Son modificados Mutación Recombinación Nueva población

Pasos del algoritmo Se determina un score para cada msa Mutación Población de msa Score1 Score2 Score3 Score4 Fitness Se determina un score para cada msa msas con los mejores scores Inserción de gaps Los demás msas Mutación Directamente a siguiente generación Mover bloques de gaps Siguiente generación Recombinación Condiciones de terminación Nueva población Nuevos msa

Modelo Oculto de Markov (HHM)

Modelo oculto de Markov (HMM) Modelo estadístico que asume que el sistema a modelar sigue un PROCESO DE MARKOV de parámetros desconocidos  dependencia del evento anterior OBJETIVO  determinar los parámetros desconocidos (ocultos) a partir de parámetros observables.

probabilidades de transición x — estados ocultos y — salidas observables a — probabilidades de transición b — probabilidades de salida estados ocultos probabilidades de salida salidas observables En el modelo de Markov normal los estados son visibles. (a son los únicos parámetros) En el HMM el estado no es visible más sí las variables influidas por el estado. Cada estado tiene una distribución de probabilidad sobre los posibles símbolos de salida.

HMM en el MSA Método que considera todas las posibles combinaciones de matches, mismatches, gaps y las transiciones para generar un alineamiento de un conjunto se secuencias. HMM aparte de ser utilizado para MSA también se utiliza para analizar la composición de secuencias, para localizar genes prediciendo ORF y para producir predicciones de estructuras secundarias de proteínas.

A C A - - - A T G T C A A C T A T C A C A C - - A G C En los términos de un típico modelo oculto de Markov: Estados observables  columnas individuales del alineamiento A C A - - - A T G T C A A C T A T C A C A C - - A G C A G A - - - A T C A C C G - - A T C Estados ocultos  la supuesta secuencia ancestral desde la cual las secuencias del conjunto problema se presume han descendido. El éxito de un HMM depende de tener un buen modelo “a priori”. - Cada columna es un estado - Contar el número de bases en cada columna (probabilidades)

Algoritmos asociados a HMM El HMM comienza con un alineamiento al azar  construye un modelo  mejora las probabilidades en base a un entrenamiento iterativo  se detiene cuando los alineamientos no cambian. EL algoritmo avance-retroceso: reduce la complejidad de encontrar todos los posibles caminos para alinear las secuencias. ALGORITMO DE AVANCE - RETROCESO

Algoritmos asociados a HMM El algoritmo de ViIterbi se usa para alinear sucesivamente el MSA en crecimiento con la siguiente secuencia del conjunto problema para generar un nuevo MSA. ( DIFERENTE a MDAP). ALGORITMO DE VITERBI El algoritmo de Baum-Welch utiliza una técnica iterativa que utiliza las probabilidades de transición y emisión para generar un nuevo modelo de HMM. (el proceso se repite hasta que no obtenga mejora en el modelo) ALGORITMO DE BAUM-WELCH

SOFTWARE Ventajas: Desventajas: Usualmente un HHM arroja un MSA bueno. HMMer : realiza alineamiento de secuencias y búsqueda en bases de datos. SAM (Sequence Alignment and Modeling System, sistema de alineamiento y modelado de secuencia). SAM se ha usado como una fuente de alineamientos para predicción de estructura de proteínas y para desarrollar una base de datos de proteínas predichas en la especie de levadura S. Cerevisiae Ventajas: Usualmente un HHM arroja un MSA bueno. Es un método fundamentado por la teoría de la probabilidad No se requiere de un orden en las secuencias Las penalidades de inserción y deleción no son necesarias. Se puede utilizar información experimental Desventajas: Se necesitan al menos 20 secuencias (si no más) para poder acomodar la historia evolutiva.

ALINEAMIENTOS LOCALIZADOS DE SECUENCIAS (motif finding)

Alineamientos Localizados de Secuencias (motif finding) Localización de motivos en MSA globales. Dependiendo de si las regiones altamente conservadas (‘‘motivos’’) contienen o no gaps: Profile Analysis (regiones con gaps) Block Analysis (sin gaps)

Profile Analysis (regiones con gaps) Se genera matriz, similar a una de sustitución, denominada perfil (profile) Buscar otras secuencias con motivos similares (otros miembros de la misma familia???) Para refinar los alineamientos múltiples de secuencias (MSAs), mejorándolos.

Blocks Analysis (sin gaps) Los bloques se pueden generar desde un MSA o pueden ser extraídos de secuencias sin alinear usando un conjunto precalculado de motivos previamente generado a partir de familias conocidas de genes para lo cual se han desarrollado métodos estadísticos de descubrimiento de patrones (ej: algoritmo expectación-maximización, el muestreo de Gibbs, HMM, etc). La puntuación de los bloques depende generalmente del espaciado de los caracteres con altas frecuencias, en lugar de recaer sobre el cálculo de una matriz de sustitución explícita. Utilidad: Alineamientos basados en patrones localmente conservados