Matrices de Substitución PAM Y BLOSUM

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ATRIBUTOS DE LA COMUNIDAD
Investigación de Operaciones
Contraste de Hipótesis
KRIGING CON TENDENCIA.
HOMOLOGY MODELLING Modelado por homologia o comparativo
Unidad académica: Ingenierías
KRIGING.
Tema 3 Revisión de diversos métodos robustos aplicados en algunos problemas fotogramétricos.
INFERENCIA ESTADISTICA
MODELO DE REGRESIÓN MÚLTIPLE
Encuentra las 12 diferencias
Tests de permutaciones y tests de aleatorización
El sistema de puntuación
CONCEPTOS BÁSICOS DE ESTADÍSTICA
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
ANOVA Modelo I: Comparación entre medias
Tema 2: Métodos de ajuste
UNIDAD 1 INTRODUCCION A LA QUIMICA GENERAL REPASO DE MATEMATICA
Analisis de ligamiento
La Derivada. Ya vimos: los conceptos, métodos ó instrumentos necesarios para establecer el “comportamiento” de una función.  en un entorno de x o [ 
Población y Muestra.
Especificación de Consultas M
ANALISIS MATEMÁTICO PARA ECONOMISTAS IV
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Diseño y análisis de algoritmos
ANALISIS DE DATOS CATEGORICOS
3. Funciones discriminantes para la f.d.p normal.
Sesión 6: Campos de Markov
Distancia entre dos secuencias: Jukes - Cantor
Conceptos Básicos de Probabilidad
Combinación de Clasificadores
Universidad de Panamá Escuela de Biología Departamento de genética Genética de Poblaciones Integrantes: Castellanos, Rebeca Robinson, Anine Robles, Jazmin.
Análisis de Agrupamientos y Componentes Principales
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Datos: Estadística.
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
ESTADÍSTICAS DESCRIPTIVA
El promedio como variable aleatoria: error estándar e intervalo de confianza para la media de la muestra Mario Briones L. MV, MSc 2005.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Análisis de la Varianza
Inferencia Bayesiana de Filogenias Moleculares Tania Hernández.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Una introducción a la computación evolutiva
Evolución Microbiana y Sistemática
¿QUÉ ES LA ESTADÍSTICA? La estadística es una disciplina que diseña los procedimientos para la obtención de los datos, como asimismo proporciona las herramientas.
Matrices de sustitución
Introducción al Biclustering
Las inserciones y deleciones se penalizan con un peso W Se construye una matriz H de n + 1 filas y m + 1 columnas. La secuencia de A se ubica en las filas.
Nieves Ábalos Serrano Mª Teresa Jiménez Ramírez
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
MÉTODOS DE ANÁLISIS EN LA TOMA DE DECISIONES EXISTEN PROCEDIMIENTOS DE ORDEN MATEMÁTICO, FINANCIERO, ECONÓMICO, ESTADÍSTICO ENTRE OTROS, PARA LA TOMA DE.
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Victoria Alejandra Montoya Expositora
Control Estadístico de Procesos
MATRIZ INVERSA.
MENORES Y COFACTORES.
MATRICES.
Aspectos generales de la investigación educativa en el SNIT
LÍMITES Y SUS PROPIEDADES
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Tarea # 4 PRUEBAS DE HIPÓTESIS ESTADÍSTICAS. PRUEBA DE HIPÓTESIS Hipótesis es una aseveración de una población elaborado con el propósito de poner a prueba,
Estimación estadística
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.
Transcripción de la presentación:

Matrices de Substitución PAM Y BLOSUM Miguel Angel Orrego Mabel Karel Raza Luis A. Vega Noviembre, 2004 Bioinfo-UPCH

Índice Introducción Matrices PAM Ejemplo de Matriz PAM Matrices BLOSUM Ejemplo de Matriz BLOSUM Matrices GONNET Referencias Bioinfo-UPCH

Introducción Cada método de comparación de secuencias requiere un conjunto de scores. La similaridad entre secuencias esta definida por una función de optimización basada en la medida de similaridad entre sus amino ácidos. Asi, la similaridad de matrices son la base de los métodos de análisis de secuencias. Elegir una matrix que influya en el resultado del análisis. Bioinfo-UPCH

Similaridad vs Distancia Matrices Similaridad matrices: Usada por base de datos de busqueda. Distancia matrices: Comunmente usado en el análisis Filogenético. Una similaridad maxima es fundamentalmente lo mismo que una distancia mínima. Bioinfo-UPCH

Scores de Sustitución Los elementos de la diagonal son scores dados a los amino ácidos identicos. Los elementos fuera de la diagonal son scores dados para los amino ácidos de substitución. Diversas propiedades estan dadas por Propiedades químicas. Similitud estructural Bioinfo-UPCH

Scoring Matrices Se tiene en cuenta: Similitud estructural (aminoácidos de igual tamaño) Similitud química (pI, hidrofobicidad, etc) La matriz que se utilice puede ser determinante en la comparación de secuencias. Las matrices más utilizadas son: PAM BLOSUM Bioinfo-UPCH

Matrices PAM (Point Accepted Mutation o Percent of Accepted Mutations) M. Dayhoff and R. Schwartz. Matrices for detecting distant relationship. Atlas of Protein Sequences, pages 353-358, 1979. PRINCIPIO Matrices PAM están basadas en el alineamiento global de secuencias de proteínas estrechamente relacionadas y asumen que una modificación en algún sitio depende solamente del aminoácido presente en ese sitio Mutaciones Independientes Bioinfo-UPCH Bioinfo-UPCH

Matriz PAM 1-PAM: refleja la “distancia evolutiva” que produce (en promedio) una mutación cada 100 aminoácidos en una generación. X-PAM: X mutaciones cada 100 aminoácidos en una generación. 250-PAM se utiliza para comparar secuencias que está a 250 unidades de evolución Las X-PAM son calculadas desde la 1-PAM Bioinfo-UPCH

Propiedades de una matriz de probabilidad de mutación: La matriz M1 establece una unidad de cambio evolutivo. Aplicaciones sucesivas de una matriz M1 a una secuencia produce matrices M2, M3, ..., Mn. Los elementos de la matriz PAM 0 son 1 para Mii y 0 para Mij. La PAM 1 acepta una mutación cada 100 aminoácidos En general, k unidades de evolución = M k Bioinfo-UPCH

TIPS i -> j = j -> i Porque para dos secuencias cualquiera, el a.a ancestro en el árbol filogenético no es conocido usualmente. (Mount 78) Odds score : Cociente de cambio de substitución de un amino ácido. Permite determinar si las secuencias : Variación evolutiva autentica Secuencias aleatorias con ninguna significancia biológica. El modelo de Darhoff es un proceso de Markov. Bioinfo-UPCH

Procedimiento para construir una matriz PAM Bioinfo-UPCH

Bioinfo-UPCH

PAM70 Bioinfo-UPCH

Matrices Blosum

La matriz "BLOcks SUbstitution" fue propuesta por Steven Henikoff and Jorja G. Henikoff en el año de 1992, fue creada a partir de un estudio sobre bloques conservados. Bioinfo-UPCH

  BLOSUM METHOD Data base Data Base of blocks Deriving a frequency tables from a data base of blocks Computing a logarithm of odds matrix 1.2 7.5 6.3 1.9 5.5 3.1 6.5 2.0 8.1 4.3 3.7 5.8 2.9 7.7 3.2 Bioinfo-UPCH

Bioinfo-UPCH

........A……. ........S……. Como un ejemplo del cálculo, si una columna presente en un bloque, posee 10 aminoácidos de los cuales 9 son A y 1 es S: Bioinfo-UPCH

Hay 8+7+6…..+1= 36 posibles pares AA (fAA) y 9 posibles pares AS (fAS) para ser comparados. La frecuencia de ocurrencia de un par AA, q AA = f AA/( f AA + f AS ) = 36/(36+9)= 0.8 y para un par AS, q AS = f AS /(f AA + f AS ) = 9/ (36+9) = 0.2. Bioinfo-UPCH

Las proporciones son luego convertidas en logaritmo de base 2. La frecuencia esperada de que A este en un par, p A = (q AA + q AS /2) = 0.8+0.2/2 = 0.9 y para S, p S = q AS/2 = 0.1 La frecuencia esperada de ocurrencia del par AA, e AA = p A X p A = 0.9 X 0.9 = 0.81 y para el par AS, e AS = 2 X p S X p A = 2 X 0.9 X 0.1 = 0.18 Las proporciones son luego convertidas en logaritmo de base 2. Para AA, s AA = log2 (q AA / e AA ) = -0.04 y para AS, sAS = log2 (q AS / e AS) = 0.30 Bioinfo-UPCH

Procedimiento para la construcción de una matriz Blosum: Se inicia con segmentos (bloques) conservados de secuencias: Alinear las secuencias sin permiter la presencia de huecos. Establecer el número de aminoácidos alineados por pares (fij). Bioinfo-UPCH

La frecuencia observada de cada para de aminoácidos (qij) es el cociente entre el valor de fij y el número total de pares aminoácidos (esto incluye los pare i=j, es decir los casos en los que no se presenta sustitución). La frecuencia esperada de un par de aminoácidos es el producto de las frecuencias de cada aminoácidos en el conjunto de datos. Las secuencias de un bloque son agrupadas según unos umbrales de similiaridad, por ejemplo si se utiliza un 80% de similaridad se contruye una matriz Blosum80. Bioinfo-UPCH

Bioinfo-UPCH

Características Los valores de la matriz están basados en la observación de los cambios sucedidos en patrones de aminoácidos conservados llamados bloques. Estos bloques fueron hallados en bases de datos de secuencias proteicas que representan mas de 500 familias, actuando como marcas características de dichas familias. Bioinfo-UPCH

De esta manera las matrices Blosum están basadas por un tipo mas extenso de datos y de un análisis de secuencias completamente diferente que las matrices PAM. Bioinfo-UPCH

GONNET Es un metodo alternativo para medir diferencias entre aminoacidos. Fue desarrollado por Gonnet, Cohen and Benner (1992) usando aineamiento exhaustivo de alineamiento de pares de las base de datos proteicas como las existentes actualmente. Ello usan la medida clasica de distancia para estmar un alineamiento de proteinas. Luego usan estos datos para estimar una nueva matrix distancia. Esto fue usado para refinar el alineamiento, estimando una nueva matrix de distancia. Bioinfo-UPCH

Caracteristicas Gonnet revised PAM matrix in 1992 Conocido como la Gonnet92 matrix Ordena las secuencias en un árbol Secuencias similares son representadas con ramas cercanas en el árbol. Como punto de inicio de la secuencia fueron alineados usando N (Aspargina) & W(triptofano) y matrices PAM originales. Bioinfo-UPCH

MATRIX GONNET Bioinfo-UPCH

¿Cuál matriz usar? Las matrices PAM están diseñadas fundamentalmente para estudiar homología a nivel global entre secuencias. Tienen muy en cuenta el factor de distancia evolutiva. Las matrices BLOSUM, en cambio, son preferibles cuando se estudian secuencias conservadas (sec. consenso). El factor del tiempo evolutivo es menos importante. PAM: Si no se tiene idea de cuánto tiempo hace que divergieron las secuencias, entonces conviene usar varias matrices que cubran todas las posibilidades (PAM40, PAM120, PAM250) Bioinfo-UPCH

PAM Versus BLOSUM (Resumen) PAM esta basado en un modelo evolutivo. BLOSUM esta basado en familia de proteinas. PAM esta basado en alineamiento global. BLOSUM esta basado en alineamiento local. Bioinfo-UPCH

Referencias 1. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M.O. Dayhoff, ed. National Biomedical Research Foundation, 1979 2 Urmila Kulkarni-Kale Bioinformatics Centre, University of Pune, Pune 411 007.urmila@bioinfo.ernet.in 3. Bioinformatics, Sequence and Genome Analysis Mount David W. University of Arizona, Tucson 2001. PAM pags. 76 - 85 4. Bioinformatics, Sequence and Genome Analysis Mount David W. University of Arizona, Tucson 2001.BLOSUM pags. 85 - 89 Bioinfo-UPCH