Alineamiento de secuencia de proteinas con HMM Sandra Cano.

Slides:



Advertisements
Presentaciones similares
Búsqueda de una frase exacta
Advertisements

Herramientas informáticas
Estrategias Reconocer fragmentos de secuencia asociados a características funcionales o estructurales concretas Agrupar la secuencia en una familia y heredar.
Procesamiento de cadenas
PSI-BLAST.
BLAST.
Modelos de Variable Dependiente Binaria -Logit y Probit-
Contraste de Hipótesis
PRINCIPIOS DE MODELADO POR HOMOLOGÍA
METODO DE ANALISIS DE FALLAS
PROYECTO FIN DE CARRERA.  Introducción y Motivación  Fundamentos del Sistema QbH  Diseño e Implementación  Test y Resultados  Conclusiones  Trabajo.
Selección del modelo adecuado
PARADIGMAS DE LA EVALUACIÓN
La prueba U DE MANN-WHITNEY
KRIGING.
Algoritmos Aleatorizados
Alineamiento de Secuencias Biológicas
ANALISIS SINTACTICO DESCENDENTE
Encuentra las 12 diferencias
Muestra: Recolección de Datos: Análisis de Datos:
¿Cómo hacer más rentables nuestras decisiones?. Rentabilidad Monto de cada préstamo $ Costo Fijo Total $ Gastos Adm por crédito $ 130 Tasa.
ANALISIS SINTACTICO El análisis gramatical es la tarea de determinar la sintaxis, o estructura, de un programa. Por esta razón también se le conoce como.
LA EVALUACIÒN.
Análisis de supervivencia Tema 5 Itziar Aretxaga.
Profile HMMs Perfiles de Modelos ocultos de Markov
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.

Práctica 1: Alineamientos Partimos de un archivo de datos que contiene 5 secuencias de mRNA asociado a la CFTR archivo de prácticas archivo de prácticas.
Modelos Ocultos de Markov
Los HMM son modelos probabilísticos de una secuencia
Distancia entre dos secuencias: Jukes - Cantor
Descripción de Contenidos con Wavelets Jaime Gaviria.
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
Sesión 5: Modelos Ocultos de Markov
Combinación de Clasificadores
Estadística Administrativa II
An HMM-Based Threshold Model Approach for Gesture Recognition Hyeon-Kyu Lee and Jin H. Kim IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,
Unidad V: Estimación de
MUESTREO… Jefferson Bueno Cristian Hernández Tatiana Cardona
Datos: Estadística.
Seguridad y encriptación
Curso de Bioestadística. ANOVA
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Alineamiento.
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Clase 4a Significancia Estadística y Prueba Z
Análisis de la Varianza
Modelos ocultos de Markov (HMM)
Ex ungue leonis Atribuido a Johann Bernoulli al leer dos soluciones anónimas, y reconociendo en ellas la redacción y genialidad de Isaac Newton Cadenas.
Matrices de sustitución
Repaso de clase anterior
Herramientas informáticas
Alineamiento local: búsqueda de homologías
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Modelos ocultos de Markov (HMM)
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Reconocimiento de patrones
Solver complemento de excel
G ESTIÓN DE PROYECTOS Formulación de la idea del proyecto.
Tomando decisiones sobre las unidades de análisis
Hoja de Cálculo EXCEL Introducción a la informática
Funciones logarítmicas
Un requerimiento es una condición o capacidad a la que el sistema (siendo construido) debe conformar [ Rational ]. Un requerimiento de software puede.
INFERENCIA ESTADÍSTICA
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
PROSITE: Guía rápida Dirección URL de PROSITE.
Gestión de tiempos del proyecto
Transcripción de la presentación:

Alineamiento de secuencia de proteinas con HMM Sandra Cano

Que es alineamiento de secuencia ? Forma de representar y comparar dos o más cadenas para resaltar su zonas de similitud. Al determinar si una secuencia desconocida es similar, en algún sentido, a secuencias conocidas podremos identificarla y predecir su estructura y función Secuencias buscando los caracteres o patrones que aparezcan en el mismo orden en las secuencias. Alfabeto : a,c,d,e,f,g,hi,k,l,m,n,p,q,r,s,t,v,w,y

Que es un perfil? Un perfil es un conjunto de secuencias alineadas que comparten un dominio común. El problema reconocimiento de relaciones evolutivas de las proteínas.

Ejemplo de secuencias

Porque comparar secuencias? Para conocer la función de las proteinas. Para predecir la estructura 3D de las proteinas. Para determinar en que especies esta la proteina

Cual es el objetivo de la comparación? El objetivo es encontrar el alineamiento que con mayor probabilidad refleje qué cambios se han producido. Cuando dos secuencias son consideradas similares a un nivel significativo, significa que comparten propiedades biológicas como un origen evolutivo común, una estructura molecular similar y una función similar.

Ejemplos Ejemplo 1 ALRDFATHDDF SMTAEATHDSI ECDQAATHEAS A-T-H-[DE] Ejemplo 2 AGTVATVSC AGTSATHAC IGRCARGSC IGEMARLAC IGDYARWSC IGTVARVSC<= Ejemplo de secuencia consenso [AI]-G-x-x-A-[RT]-x-[AS]-C <= patrón

HMM Para perfiles han resultado de gran utilidad en estudios evolutivos o bioquimicos que toman com punto de partida un alineamiento multiple de secuencias (AMS o MSA) Permiten construir modelos (estadisticos) de familias de secuencias. Estos modelos pueden utilizarse para resolver problemas de clasificacion,alineamiento o busquedas de secuencias en base de datos.

HMM Sea ei(x) la probabilidad de observar x en la posición i. La probabilidad de una secuencia s = s1,..., sL bajo este modelo, W, (resp. La verosimilitud del modelo W dada una secuencia, s) será: No solemos puntuar directamente con las probabilidades sino más bien con (logaritmos) de la razón entre la verosimilitud del modelo dada la secuencia respecto la de un modelo nulo.

HMM Profile Sea una familia de secuencias O1,O2,...,Ok, probablemente relacionadas evolutivamente. Para cada posicion de la secuencia se definen 3 posibles estados :coincidencia, inserción y supresión A G – – – C O1 A G A G – C O2 A – C A C C O3 – G L V – C O4 + + – – – + –

HMM Profile Inserciones Alineadas El estado Ik inserta un residuo justo despues del estado de alineamiento Mk (no de Mk+1) Las secuencias pasan por los estados siguientes: O1 ⇒ M1 M2 M3 O2 ⇒ M1 M2 I2 I2 M3 O3 ⇒ M1? Se omite M2... Una supresión es una porción de la secuencia que “se salta” el alineamiento 3 y 4 El estado Dk salta el estado de alineamiento Mk es decir la columna alineada Mk.

HMM Profile Supresiones

HMM Profile – Modelo resultante El modelo resultante, integra todos los estados que hemos ido Introduciendo. Cada columna del alineamiento genera un estado de cada tipo

HMM Profile A G – – – C O1 M1M2M3 A G A G – C O2 M1M2 I2 I2M3 A – C A C C O3 M1 D2 I2 I2 I2M3 – G L V – C O4 D1M2 I2 I2M3 + + – – – + –

HMM Profile Estructura El alineamiento multiple consiste en las columnas marcadas con un ”+”. Se creara un modelo con tres estados de alineamiento y por lo tanto los mismos de supresion e insercion

HMM Profile - Contaje de emisiones Probabilidades de emision: Se estiman a partir del contaje del numero de emisiones. N(A|M1) = 3,N(Otros|M1) = 0, N(G|M2) = 3, N(Otros|M2) = 0, N(C|M3) = 4, N(Otros|M3) = 0. No aparecen estados de insercion I0, I1, I3. N(A|I2) = 2, N(C|I2) = 2, N(G|I2) = 1, N(L|I2) = 1, N(V |I2) = 1, N(Otros|I2) = 0.

HMM Profile - Contaje de transiciones Probabilidades de emision: Se estiman a partir del contaje del numero de transiciones. N(M1|B) = 3,N(D1|B) = 1, N(M2|M1) = 3, N(D2|M1) = 1, N(M3|M2) = 1, N(I2|M2) = 2, N(E|M3) = 3. N(I2|D2) = 1, N(I2|I2) = 4, N(M3|I2) = 3

HMM Profile – Clasificación de secuencias Para determinar si una secuencia O pertenece a una familia, calcularemos P(O|M): Algoritmo forward P(O|M) depende de la longitud: Utilizaremos una razon de probabilidades (verosimilitudes):

HMM Profile – Alineamiento a un modelo Para alinear una nueva secuencia tan solo se necesita la secuencia de estados a lo largo del modelo Pueden utilizarse dos opciones Algoritmo de viterbi: Dara el camino mas probable Algoritmo Forward/Backward: maximizara el numero de estados correctos Todo lo anterior presupone alineamientos globales. Es posible modificar los HMM para obtener alineamientos locales.

Programas para construir HMM HMMER Escrito por Sean Eddy y colegas en SAM

Caracteristicas - HMMER HMMER es un implementación de perfiles HMM para el análisis de secuencias biológicas. Una secuencia se compara con un perfil HMM mediante la asignación de la secuencia de residuos a los estados en los HMM, y el puntaje resultante es una probabilidad de que la secuencia esté relacionada con el modelo dado. Los valores-e para la coincidencia se encuentran utilizando la probabilidad de la secuencia en comparación con un modelo.

Paquetes - HMMER Dos de estos son programas para buscar en bases de datos: hmmpfam Busca coincidencias para una secuencia de consulta dentro de una base de datos de HMM hmmsearch Busca coincidencias para un único perfil HMM dentro de una base de datos de secuencias Los otros programas incluidos en el paquete son: hmmalign Alinea secuencias a un modelo existente. hmmbuild Construye un modelo a partir de un alineamiento múltiple de secuencias hmmcalibrate Toma un HMM y determina empíricamente los parámetros que son utilizados para realizar búsquedas más sensibles, calculando puntajes de valor esperado (valor-e) más precisos. hmmconvert Convierte un archivo de modelo a diferentes formatos, incluyendo un formato binario compacto HMMER 2, y la emulación de “mejor esfuerzo” de perfiles GCG. hmmemit Emite secuencias de un perfil HMM probabilísticamente. hmmfetch Obtiene un único modelo de una base de datos HMM. hmmindex Indexa una base de datos HMM.

HMMER

Referencias Libro The ten Most Wanted Soluctions in Protein Bioingormatics. Discusión Problema 1 Articulo revista ScienceDirect : Sequence-based protein structure prediction using a reduced state-space hidden Markov model.2006 Articulo publicado por la UAM. Comparación de secuencias biológicas allgoritmica. Doctorado de bioinformatica. HMMER: Como utilizar la herramienta Articulo Internet: Como publicar herramientas para la construcción de Modelos Ocultos de Markov por: Rafael Carillo y Claudia Lara.