PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.

Slides:



Advertisements
Presentaciones similares
Comparación de secuencias (Sequence comparison)
Advertisements

PROTEIOS= PRIMERO O PRINCIPAL
PSI-BLAST.
The Universal Protein Resource: UniProtKB.
BLAST.
Búsqueda en bases de datos
HOMOLOGY MODELLING Modelado por homologia o comparativo
AMINOÁCIDOS Y PROTEÍNAS
Encuentra las 12 diferencias
El sistema de puntuación
SELECCION DE “TEMPLATES” Y ALINEAMIENTO. Energía X Nativa.
O (m × n).
El descubrimiento de elementos reguladores en los vertebrados a través de comparación de genomas Por Pilar Gonzalez Gomez Alberto Lietor Santos.
La PD no es adecuada para buscar en BD
Analisis y Diseño de Algoritmos Tema: Grafos 3ra Parte
Programación en Matlab
Estadística aplicada al análisis financiero
Especificación de Consultas M
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
TEMA Nº 1 Conjuntos numéricos.
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
MIDIENDO LA DESIGUALDAD
Los HMM son modelos probabilísticos de una secuencia
Mt. Martín Moreyra Navarrete.
Genoma Humano. Introducción Todas las instrucciones necesarias para crear un ser humano pueden ser escritas con la combinación de cuatro letras que representan.
Guías Modulares de Estudio Matemáticas IV – Parte B
Para construir un árbol filogenético se necesitan tres ingredientes básicos:
Matrices de Substitución PAM Y BLOSUM
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
ESTADÍSTICAS DESCRIPTIVA
Busqueda avanzada con BLAST Preparada por Genis Parra.
Comparar secuencias = Obtener información
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Alineamiento de dos secuencias
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
GENETICA MOLECULAR.
Evolución Microbiana y Sistemática
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Matrices y Determinantes
Algoritmos para alineamientos locales: FastA
Matrices de sustitución
Introducción al Biclustering
Procesamiento Digital de Imágenes
Procesamiento Digital de Imágenes
Las inserciones y deleciones se penalizan con un peso W Se construye una matriz H de n + 1 filas y m + 1 columnas. La secuencia de A se ubica en las filas.
Bases de datos secundarias. Briefings in Bioinformatics 3 (2002):
Alineamiento local: búsqueda de homologías
GENETICA MOLUCULAR.
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
coeficientes de correlación de
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Página Web
Victoria Alejandra Montoya Expositora
Diseño y análisis de algoritmos Análisis de Algoritmos II.
Introducción a la Bioinformática
Los números Reales.
MATRICES Y DETERMINANTES
Congruencias y semejanzas de figuras planas
Estadística Reporte Ejecutivo
es el campo de la biología que estudia la estructura y la función de los genes a nivel molecular. La genética molecular emplea los métodos de la genética.
Congruencias y semejanzas de figuras planas
GENE MUTATIONS/ MUTACIONES GENICAS
LO: SWBAT explain how protein shape is determined and differentiate between the different types of mutations. Objetivo: Explica como se determina la forma.
Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
PROSITE: Guía rápida Dirección URL de PROSITE.
RAFAEL MARÍA ROMÁN BRAVO OCTUBRE, 2015 Importancia de la Estadística en la Investigación.
Transcripción de la presentación:

PAM Margaret Dayhoff

Accepted Point Mutations accepted by natural selection.

Figura 1.

Numbers of accepted point mutations 260

Mutability of Amino Acids

Mutation probability matrix for the evolutionary distance of 1 PAM. 21

In this Matrix, the score for changing Phe for Tyr was PAM250 = was divided by the frequency of Phe in the sequence data, /0.04 =3.75 Log(3.75) = x 10 =5.7

Similarly the Tyr to Phe 0.20/0.03 = 6.7 Log(6.7) = x 10 = 8.3 The average of 5.7 and 8.3 is 7 The number entered in the log odds table for changes between Phe and Tyr at 250 PAMs.

PAM 250

MATRICES BLOSUM Henikoff and Henikoff 1992 Matrices estadísticas se utilizan tanto para identificar las secuencias en la base de datos cómo para estimar su significancia biológica.

Los algoritmos de alineamientos local identifican las regiones compartidas por dos secuencias que son más similares entre sí. Entonces, dominios de enlace de calcio homólogos embebido en proteínas no homólogas, exones en una secuencia genómica de ADN si se alinea con sus secuencia de ARNm.

"high-scoring segments pairs, HSPs". Durante los procesos de búsqueda y extensión se hace uso de matrices de sustitución. Entonces las secuencias reportadas serán aquellas que posean los puntajes totales más altos ("maximal-scoring segment pair, MSP").

BLOSUM (Block amino acid Substitution Matrices) Sin modelo evolutivo. Bloques de secuencias. sin gaps que incluye homólogos lejanos Basado en 2000 bloques de sec conservadas de aa, perteneciente a 500 fam relacionadas Para BLOSUM n, las secuencias con identidad > de n% se agrupan y cuentan como una sola. A mayor BLOSUM, menor distancia. Típicas: BLOSUM 62, 50, 30.

matrices log odds (logaritmo base 2) de las frecuencias de pares que se presentan en la columnas de los bloques analizados: S ab = log (q ab / е ab ) Frecuencia de ocurrencia de un aa se encuentre en un par : pi = qii + Σ qij/2 i=j

Frecuencia esperada de que los pares ocurran juntos: ε = pi *pi si i=j ε = 2pi*pj si i=j

Calculo de una matriz BLOSUM, ejemplo tomado y modificado de Henikoff and Henikoff 1992 GHGKKVADADLL AHGKKVLGADGL GHGKKVADADLL AHGKKVLGADGL GHGKKVADADLL AHGKKVLGSDGL GHGKKVADADLL AHGKKVLGADGL GHGKKVADADLL AHGKKVLGADGL bloque de secuencias (sección de una alineación local que no posee espacios) calcula el número de pares posibles en una columna como no se conoce el aminoácido ancestral, se deben tomar todos los pares posibles. En el caso del ejemplo, existen 36 pares para AA (fAA) y 9 para SA (fAS).

Para calcular los valores de una matriz BLOSUM, necesitamos las frecuencias de los pares qab (ver formula), que en este caso qAA = fAA/(fAA+ fAS) = 36/36+9 = 0.8 y qAS = fAS/(fAA+ fAS) = 9/36+9 = 0.2 La frecuencia de que A se encuentre en par. pA = (qAA + qAS/2) = /2 = 0.9 y la frecuencia esperada de S es pS = (qAS/2) = 0.2/2 = 0.1 Así mismo, necesitamos conocer la frecuencia esperada de los pares AA y AS, la cual se calcula: eAA = PA x PA = 0.9 x 0.9 = 0.81 y eAS = 2 x PS x PA = 2 x 0.1 x 0.9 = 0.18

Por último, calculamos el logaritmo (base 2) del radio de las frecuencias (qab / eab) y se multiplica por dos para trabajar con unidades de ½ de bit. En el ejemplo, S AA = log2 (qAA/eAA) = log2 (0.80/0.81) = y S AS = log2 (qAS/eAS) = log2 (0.2/0.18) = 0.30

El resultado de todo esto es que, en BLOSUM62 vemos que D - > E (aspártico -> glutámico, ambos ácidos) tiene una puntuación positiva de +2, mientras que D -> L (aspártico -> leucina, ácido a hidrofóbico) tiene un valor negativo de -4. Esto nos indica que en los alineamientos utilizados para construir la matriz BLOSUM62, se observó con mayor frecuencia de la esperada el cambio D->E, no así el cambio D->L.

Algunos de los residuos cuya conservación parece más importante son el W (11), la C (9), la H (8), la P (7), etc. (diagonales)

FILTROS secuencias de baja complejidad (filtro SEG para aminoácidos y filtro DUST para nucleótidos: enmascara con X secuencias repetitivas (filtro XNU): se aplica a secuencias con cortas repeticiones. secuencias de coiled-coils (filtro COILS): se aplica a secuencias de coiled-coils. Éstas, al tener una periodicidad (suelen tener una Leu o una Ile cada 7 residuos) pueden dar buenas puntuaciones con otras proteínas que también adopten coiled-coils, sin que por ello compartan un origen evolutivo común (sin que sean homólogas).

Extras… valor por omisión del programa Blastn es de 11 letras  excluir homologos que divergen moderadamente, azar FASTA que les permite ignorar (i.e. que no aparezcan en el output) secuencias altamente similares al query. ktup en FASTA es el parámetro que indica el tamaño de la palabra utilizada en esta búsqueda inicial FASTA utiliza por default ktup=2, mientras que BLAST utiliza ktup=3. FASTA sólo considera identidades respecto a la palabra, mientras que BLAST utiliza identidades y sustituciones conservativas

Por default, BLAST filtra secuencias de baja complejidad o repeticiones. FASTA no!  afectar la capacidad de discriminar falsos positivos

Heurísticas de BLAST y FASTA Estos métodos son muy rápidos. Básicamente utilizan los siguientes "truquillos": tablas de dispersión: en lugar de representar una secuencia como tal, utilizan una tabla tal que: posición : secuencia X: TCAGACGATTG Tabla de disperisón de X: A 3, 5, 8 C 2, 6 G 4, 7, 11 T 1, 9, 10