El sistema de puntuación

Slides:



Advertisements
Presentaciones similares
Posición Relativa de dos rectas
Advertisements

Comparación de secuencias (Sequence comparison)
Control del Enlace de Datos
BLAST.
HOMOLOGY MODELLING Modelado por homologia o comparativo
Pronósticos, Series de Tiempo y Regresión
Inteligencia Artificial Búsqueda informada y exploración
Una Introducción Básica a Sistemas de Tipos Estáticos
ALGORÍTMICA Dpto. Ingeniería de Sistemas y Automática
Preguntas tipo test (Tema I)
Alineamiento de Secuencias Biológicas
Programación dinámica (1)
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Investigación Operativa
Ecuaciones diferenciales de 1er orden :
Encuentra las 12 diferencias
Tema 3. Optimización de Código
SELECCION DE “TEMPLATES” Y ALINEAMIENTO. Energía X Nativa.
Métodos de muestreo.
O (m × n).
2- SIMPLEX.
La PD no es adecuada para buscar en BD
Simulacion de sistemas dinamicos
Analisis y Diseño de Algoritmos Tema: Grafos 3ra Parte
División de Estudios Políticos, CIDE
Teoría de Grafos.
PROGRAMACIÓN PARALELA EN ALGORITMOS SOBRE GRAFOS
Programación Lineal Unidad 1 Parte 3.
MODELOS GENERALIZADOS
Medidas de expresión para microarrays de Affimetrix.
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
En PDB hay estructuras experimentales de proteínas.
Estructura de Datos II Equipo 4 Equipo 7 Acosta Montiel Miguel A.
Los HMM son modelos probabilísticos de una secuencia
Alineamientos de secuencias
COMPUTACION EVOLUTIVA Introducción. Computación Evolutiva: Computación Evolutiva: Enfoque alternativo para abordar problemas complejos de: Enfoque alternativo.
Material de apoyo Unidad 4 Estructura de datos
Aplicación de estructuras de datos
CÁLCULO ELÉCTRICO DE LÍNEAS
Para construir un árbol filogenético se necesitan tres ingredientes básicos:
Matrices de Substitución PAM Y BLOSUM
TEMA 2.5 PUNTUACIONES TIPICAS Y ESCALAS DERIVADAS.
Comparar secuencias = Obtener información
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Alineamiento de dos secuencias
APRENDIZ: SANDRA L. CAICEDO C. ORDEN: 20194
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Escalabilidad en los Algoritmos de Aprendizaje de Redes Bayesianas ISL – Dpto de Informática – UCLM - Albacete.
Un esquema de marca de agua frágil usando mecanismos jerárquicos Grupo 3: Jorge Antonio Martínez González Pedro Alfonso Núñez Mejías Juan Manuel Arnaiz.
Matrices de sustitución
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
Las inserciones y deleciones se penalizan con un peso W Se construye una matriz H de n + 1 filas y m + 1 columnas. La secuencia de A se ubica en las filas.
Bases de datos secundarias. Briefings in Bioinformatics 3 (2002):
Alineamiento local: búsqueda de homologías
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Hidráulica de pozo 6.1. PRUEBAS DE INYECCIÓN Método de Hvorslev
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Metodología de la programación
APLICACIONES DE LAS MATRICES
INFERENCIA ESTADÍSTICA
GENE MUTATIONS/ MUTACIONES GENICAS
Fundamentos de Computación
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Bases de datos II Universidad del Cauca Ing. Wilson Ortega.
PROSITE: Guía rápida Dirección URL de PROSITE.
1 C OMPUTACIÓN A VANZADA PARA M ÚSICA POR O RDENADOR ALGORITHMS FOR COMPUTING GEOMETRIC MEASURES OF MELODIC SIMILARITY 1.
Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.
Regresión logística Tema 6c. En la regresión lineal la variable dependiente es continua En regresión logística se utiliza cuando la variable dependiente.
Transcripción de la presentación:

El sistema de puntuación Para saber cuál es el mejor alineamiento entre dos secuencias es necesario establecer un sistema de puntuación. Cada uno de los posibles alineamientos recibe una puntuación y se considera alineamiento óptimo aquél que consigue la puntuación más elevada. El sistema de puntuación consta de dos componentes: (1) una matriz de sustitución que asigna una puntuación a cada una de las sustituciones posibles y (2) una penalización por la introducción de indels. La puntuación del alineamiento resulta de sumar las puntuaciones de cada posición, en función de que los residuos coincidan, sean distintos o haya indels. El sistema de puntuación

Matrices de sustitución

Matrices PAM (aminoácidos) Margaret Dayhoff (1925 – 1983) Matrices PAM (aminoácidos)

PAM 250

Ventajas e inconvenientes de PAM

Gonnet recalculó la matriz PAM en 1992

Gonnet PAM250

Steven y Jorja Henikoff (BLOcks SUbstitution Matrix) PROSITE Database of protein families and domains Steven y Jorja Henikoff

BLOSUM 62 small hydrophylic acid hydrophylic basic small hydrophobic aromatic BLOSUM 62

Ventajas e inconvenientes de BLOSUM

PAM vs. BLOSUM (1) Based on an explicit evolutionary model Derived from small, closely related proteins with ~15% divergence Higher PAM numbers to detect more remote sequence similarities Errors in PAM 1 are scaled 250X in PAM 250 Based on empirical frequencies Uses much larger, more diverse set of protein sequences (30-90% ID) Lower BLOSUM numbers to detect more remote sequence similarities Errors in BLOSUM arise from errors in alignment PAM vs. BLOSUM (1)

PAM vs. BLOSUM (2) Built from local alignments Built from vast amount of data Counting based on groups of related sequences counted as one Useful in finding local alignments Lower BLOSUM series means more divergence Designed to find conserved domains of proteins Built from global alignments Built from small amount of data Counting is based on minimum replacement or maximum parsimony Useful in finding global alignments and remote homologs Higher PAM series means more divergence Designed to track evolutionary origins of proteins PAM vs. BLOSUM (2)

¿PAM o BLOSUM?

Otras matrices

Matriz de identidad

Matriz de sustitución de codones

Cadenas laterales de los aminoácidos

Matriz de hidrofobicidad Otros tipos de matrices User matrix Otros tipos de matrices

Matrices PAM (nucleótidos)

Mutation probability matrix (PAM-1) A G T C A 0.99 G 0.00333 0.99 T 0.00333 0.00333 0.99 C 0.00333 0.00333 0.00333 0.99 Modelo de Jukes-Cantor (uniforme)

Mutation probability matrix (PAM-1) A G T C A 0.99 G 0.006 0.99 T 0.002 0.002 0.99 C 0.002 0.002 0.006 0.99 Transition (A↔G) (C↔T) (purina↔purina) (pirimidina↔pirimidina) (purina↔pirimidina) (pirimidina↔purina) Transversion (A↔T) (A↔C) (G↔T) (G↔C) Modelo de Kimura (sesgado)

Gap penalties

A veces no me interesa que haya indels en el alineamiento (regiones muy conservadas y con funciones muy delicadas que no tolerarían ningún cambio). Puedo usar un programa que no admita indels o, alternativamente, colocar una penalización infinita a los indels. ¿Indels? No, gracias

Penalización constante Suele ser un valor negativo muy elevado (G = -11; G = -). En la práctica, evita la introducción de indels en el alineamiento. La penalización se contabiliza sólo una vez (cuando se abre el indel) y es independiente de su tamaño. Penalización constante

Se puede aplicar una penalización lineal Se puede aplicar una penalización lineal. Cada posición ocupada por un indel sufre una penalización, que es siempre la misma. G = - n  go Penalización lineal

Desde un punto de vista evolutivo, es más realista suponer que la naturaleza ha insertado/eliminado fragmentos en la secuencia de una sola vez. Por eso se introduce una penalización para la inclusión de un indel (gap open penalty) y otra penalización (menos costosa) que dependa de la longitud del indel (gap extension penalty). La inserción/eliminación es mucho menos probable que cualquier sustitución de aa, por radical que ésta sea. Por tanto, la go debe estar muy penalizada para que se introduzcan indels donde sea preciso, y no por toda la secuencia Una vez que se ha introducido un indel en un punto de la secuencia, su extensión (ge) es mucho más probable y debe estar mucho menos penalizada. Penalización afín

Dos modelos de penalización afín (1) Modelo lineal Modelo convexo Dos modelos de penalización afín (1)

Dos modelos de penalización afín (2) En la penalización afín hay dos maneras distintas de penalizar la extensión del indel : Modelo lineal: Para todo n >1, p(n+1) - p(n) = p(n) - p(n-1) (La penalización es proporcional a la longitud del indel) G = go + nge G = go + (n-1)ge Modelo convexo: Para todo n>1, p(n+1) - p(n) < p(n) - p(n-1) (Cada tramo adicional del indel penaliza menos que el anterior. Es el modelo que más se ajusta a la realidad, pero desde el punto de vista computacional es muy difícil incluirlo en el algoritmo ) G = go + k log (n) Dos modelos de penalización afín (2)

Algunas recomendaciones Es importante seleccionar una penalización apropiada en función de la matriz de puntuación elegida para que no se excluyan los indels, pero que tampoco se propaguen por todo el alineamiento. No hay una mecanismo formal para calcular el valor de la penalización. La mayor parte de los programas hacen sus propias recomendaciones, que están basadas en métodos de ensayo y error y no garantizan que para tu caso concreto sean las más adecuadas. Deberás hacer varias pruebas. Algunos valores típicos: Matriz gap opening gap extension BLOSUM 62 -12 - 3 / -12 BLOSUM 50 -15 - 8 / -15 PAM 250 -15 - 5 / - 15 Algunas recomendaciones