Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Slides:



Advertisements
Presentaciones similares
The Universal Protein Resource: UniProtKB.
Advertisements

BLAST.
Inteligencia Artificial Búsqueda informada y exploración
0 Stages of Group Development ©2008, University of Vermont and PACER Center Etapas de Desarollo de un Grupo PCL Modulo 4.
Encuentra las 12 diferencias
El sistema de puntuación
¿Cómo hacer más rentables nuestras decisiones?. Rentabilidad Monto de cada préstamo $ Costo Fijo Total $ Gastos Adm por crédito $ 130 Tasa.
Detección de Secuencias Reguladoras en el Genoma
Chantal de Leste Conde David Ramos Navarro
Modelos de Texto Estructurado M
Las señales de satélite GPS
Matrices Es una estructura homogénea, compuesta por varios elementos, todos del mismo tipo y almacenados consecutivamente en memoria A cada elemento se.
Profile HMMs Perfiles de Modelos ocultos de Markov
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
Puntos de Referencia Biológicos (BRP)
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Bayesian Inference of Phylogeny
Gestión de Objetos con Vistas de Diccionario de Datos
MODELOS DE ELECCIÓN BINARIA : ANÁLISIS PROBIT
Los HMM son modelos probabilísticos de una secuencia
Búsqueda de Ancestros Comunes Para Genomas de Diferentes Especies
Sesión 6: Campos de Markov
Vectores Aleatorios 1 Distribución conjunta de un vector aleatorio
Tema 10.3: Asignación de Espacio No Contiguo. Tema 10.3: 2 Silberschatz, Galvin and Gagne ©2005 Fundamentos de los Computadores (ITT, Sist. Electr.),
Asignación de Espacio No Contiguo
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
Perceptrón Multicapa Aplicaciones. Perceptrón Multicapa MLP Latitud Longitud... Altitud Radiación solar Aproximación de funciones MLP Estado de un reactor.
Matrices de Substitución PAM Y BLOSUM
An HMM-Based Threshold Model Approach for Gesture Recognition Hyeon-Kyu Lee and Jin H. Kim IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,
J. Mauricio López R. CENAM Time and Frequency Division Statistical Analysis of Measurements (time domain)
GRAMATICAS PARA EL ANALISIS DE SECUENCIAS BIOLOGICAS
LOS COMPONENTES ALEATORIOS DE LOS COEFICIENTES DE REGRESIÓN
The CATH Domain Structure Database Ana Gabriela Murguía Carlos Villa Soto.
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Predicción de Estructura 3D de Proteínas Reconocimiento de Plegamiento (threading) Florencio Pazos ALMA Bioinformatics, S. L.
© 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Ex ungue leonis Atribuido a Johann Bernoulli al leer dos soluciones anónimas, y reconociendo en ellas la redacción y genialidad de Isaac Newton Cadenas.
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Desarrolla en serie de Fourier:. Desarrolla en serie de Fourier:
Algoritmos para alineamientos locales: FastA
Matrices de sustitución
Generación de Números Pseudoaleatorios
DHCP, DNS, WINS. Repaso..
1 Tablas HASH Agustín J. González ELO320: Estructura de Datos y Algoritmos.
Recuperació de la informació Bioinformatics. Sequence and genome analysis David W. Mount Flexible Pattern Matching in Strings (2002) Gonzalo Navarro and.
Las inserciones y deleciones se penalizan con un peso W Se construye una matriz H de n + 1 filas y m + 1 columnas. La secuencia de A se ubica en las filas.
Otras aplicaciones de HMM Búsqueda de familias (dominios)Búsqueda de familias (dominios) Alineamientos no globales (búsqueda de secuencias flanqueantes.
Arboles B (búsqueda externa)
DISTRIBUCIONES MUESTRALES
Bases de datos secundarias. Briefings in Bioinformatics 3 (2002):
Alineamiento local: búsqueda de homologías
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
Villahermosa, Tab. 21 septiembre MATERIA: Investigacion de operaciones TEMA: Lineas de espera ALUMNOS: Maria isabel vega chanona HORA: 11:00 am a.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Apoyo a la decisión : evaluación multicriterios
Modelos ocultos de Markov (HMM)
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
2.1 DEFINICIONES CARACTERÍSTICAS Y SUPOSICIONES.
1 Applied biostatistics Francisco Javier Barón López Dpto. Medicina Preventiva Universidad de Málaga, España
© Copyright Ebiointel,SL 2006 Motivos, estructura y función Prof. Inma Ponte Motivos, estructura y función Prof. Inma Ponte.
DIALIGN DIagonal ALIGNments Marcelo Piriz Daiana Mir.
75.41 Algoritmos y Programación II Cátedra Ing. Patricia Calvo Complejidad algorítmica.
Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta.
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
PROSITE: Guía rápida Dirección URL de PROSITE.
Módulo 7: Cambios a RANs existentes Realizando Cambios en Registros de Autoridades de Nombres y de Obras/Expresiones que ya existen en el LC/NAF.
Conclusiones: En este trabajo se ha demostrado que se pueden aplicar los algoritmos OCH al ajuste de los parámetros de un modelo borroso mediante la discretización.
Transcripción de la presentación:

Uso del programa HMMER Búsqueda de familias (dominios) de proteínas

DOMINIO PROTEICO: porción de una proteína con estructura terciaria definida (40-350 aminoácidos). Unidad modular. En general asociados a una función particular. Proteínas pequeñas tienen un único dominio, proteínas grandes pueden llegar a tener más de 10 dominios. FAMILIA DE PROTEINAS: Conjunto de proteínas con dominios o funciones en común La secuencia aminoacídica puede estar conservada en mayor o menor medida. Casos extremos: 25 % de identidad aminoacídica, estructura terciaria idéntica

Dominios

Aplicación de HHMER Dada una familia de proteínas conocida….. ¿Hay nuevos miembros de esta familia?

Construcción A partir de un alineamiento múltiple, se genera un consenso, con matchs, deleciones o inserciones Los parámetros del modelo se determinan en base a la frecuencia de aparición de cada aminoácido en una posición particular Algoritmos de programación dinámica para la construcción del modelo Cálculo de frecuencias de emisión y transición: algoritmos de pesado de secuencias, Plan 7

Características HMMER Tres estados principales: Match, Deleción o Inserción Se emiten pares de residuos

Modelo Básico δ ε D pd τ δ 1-2δ-τ 1-ε- τ M pm τ B E 1-ε- τ 1-2δ-τ τ δ pi δ ε τ

Estados especiales (no dependen de los datos de entrada): PLAN 7 Estados especiales (no dependen de los datos de entrada): S, N, J, C, T Permiten encontrar matchs en cualquier lugar interno de la secuencia Dominios locales

Globinas Amplia familia de proteínas (50 secuencias de diferentes especies) 1 secuencia de “globina” de Artemia (micro camarón)

Datos de entrada: Alineamianto múltiple (Clustal o HMMER)

Construcción del modelo hmmbuild - build a hidden Markov model from an alignment HMMER 2.3.2 (Oct 2003) Copyright (C) 1992-2003 HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Alignment file: globins50.msf File format: MSF Search algorithm configuration: Multiple domain (hmmls) Model construction strategy: MAP (gapmax hint: 0.50) Null model used: (default) Prior used: (default) Sequence weighting method: G/S/C tree weights New HMM file: globin.hmm - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Alignment: #1 Number of sequences: 50 Number of columns: 308 Determining effective sequence number ... done. [2] Weighting sequences heuristically ... done. Constructing model architecture ... done. Converting counts to probabilities ... done. Setting model name, etc. ... done. [globins50] Constructed a profile HMM (length 143) Average score: 189.04 bits Minimum score: -17.62 bits Maximum score: 234.09 bits Std. deviation: 53.18 bits Finalizing model configuration ... done. Saving model to file ... done. Algortimo de programación dinámica Parámetro x determina la cantidad de residuos en el consenso

Calibración Generación de secuencias aleatorias en función de la longitud y composición aminoacídica del alineamiento múltiple Construcción de histograma distribución de los scores de las secuencias aleatorias Seteo de mu y lambda (E-value)

Calibración hmmcalibrate -- calibrate HMM search statistics HMMER 2.3.2 (Oct 2003) Copyright (C) 1992-2003 HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - HMM file: globin.hmm Length distribution mean: 325 Length distribution s.d.: 200 Number of samples: 5000 random seed: 1096635211 histogram(s) saved to: histograma - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - HMM : globins50 mu : -38.917610 lambda : 0.240948 max : -6.474000

Criterios de evaluación de los resultados Score = log2 P(seq/HMM) Búsqueda Criterios de evaluación de los resultados Score = log2 P(seq/HMM) P (seq/null) E-value = número esperado de falsos positivos (secuencias con score alto por azar)

Búsqueda hmmsearch - search a sequence database with a profile HMM [HMM has been calibrated; E-values are empirical estimates] Scores for complete sequences (score includes all domains): Sequence Description Score E-value N -------- ----------- ----- ----- S13421 S13421 GLOBIN - BRINE SHRIMP 474.3 1.7e-143 9 Parsed for domains: Sequence Domain seq-f seq-t hmm-f hmm-t score E-value -------- ------- ----- ----- ----- ----- ----- ------- S13421 7/9 932 1075 .. 1 143 [] 76.9 7.3e-24 S13421 2/9 153 293 .. 1 143 [] 63.7 6.8e-20 S13421 3/9 307 450 .. 1 143 [] 59.8 9.8e-19 S13421 8/9 1089 1234 .. 1 143 [] 57.6 4.5e-18 S13421 9/9 1248 1390 .. 1 143 [] 52.3 1.8e-16 S13421 1/9 1 143 [. 1 143 [] 51.2 4e-16 S13421 4/9 464 607 .. 1 143 [] 46.7 8.6e-15 S13421 6/9 775 918 .. 1 143 [] 42.2 2e-13 S13421 5/9 623 762 .. 1 143 [] 23.9 6.6e-08

Alignments of top-scoring domains: S13421: domain 7 of 9, from 932 to 1075: score 76.9, E = 7.3e-24 *->eekalvksvwgkveknveevGaeaLerllvvyPetkryFpkFkdLss +e a vk+ w+ v+ ++ vG +++ l++ +P+ +++FpkF d+ S13421 932 REVAVVKQTWNLVKPDLMGVGMRIFKSLFEAFPAYQAVFPKFSDVPL 978 adavkgsakvkahgkkVltalgdavkkldd...lkgalakLselHaqklr d++++++ v +h V t+l++ ++ ld++ +l+ ++L+e H+ lr S13421 979 -DKLEDTPAVGKHSISVTTKLDELIQTLDEpanLALLARQLGEDHIV-LR 1026 vdpenfkllsevllvvlaeklgkeftpevqaalekllaavataLaakYk< v+ fk +++vl+ l++ lg+ f+ ++ +++k+++++++ +++ + S13421 1027 VNKPMFKSFGKVLVRLLENDLGQRFSSFASRSWHKAYDVIVEYIEEGLQ 1075 -*

Vale la pena? para este ejemplo particular: 50 proteínas de información inicial estructura y función perfectamente conocidas

Resultados similares utilizando PSI-BLAST y CDD

Otro caso Familia de proteínas específicas de un grupo de organismos alejados evolutivamente de las especies más estudiadas (hombre, ratón, etc.) Echinococcus granulosus Poca informacion disponible de proteínas pertencientes a la misma familia

Los bancos de datos que utilizan estos programas no son completos (ej Los bancos de datos que utilizan estos programas no son completos (ej. Pfam 5193 flias) Usamos HMMER.......

Datos de entrada Datos de búsqueda 7 proteínas de las misma familia (sospecha por estructura y función) Datos de búsqueda una secuencia nueva EgB2G1/10

Parámetro modificado: -f busca dominios localmente Construcción del modelo hmmbuild - build a hidden Markov model from an alignment HMMER 2.3.2 (Oct 2003) Copyright (C) 1992-2003 HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Alignment file: AgBfam.pir File format: a2m Search algorithm configuration: Multiple local (hmmfs) S/W aggregate entry probability: 0.50 S/W aggregate exit probability: 0.50 Model construction strategy: MAP (gapmax hint: 0.50) Null model used: (default) Prior used: (default) Sequence weighting method: G/S/C tree weights New HMM file: Agb.hmm - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Alignment: #1 Number of sequences: 7 Number of columns: 86 Determining effective sequence number ... done. [5] Weighting sequences heuristically ... done. Constructing model architecture ... done. Converting counts to probabilities ... done. Setting model name, etc. ... done. [AgBfam] Constructed a profile HMM (length 86) Average score: 137.09 bits Minimum score: 115.76 bits Maximum score: 156.73 bits Std. deviation: 15.18 bits Finalizing model configuration ... done. Saving model to file ... done. Parámetro modificado: -f busca dominios localmente (prioriza dominios pequeños)

Calibración hmmcalibrate -- calibrate HMM search statistics HMMER 2.3.2 (Oct 2003) Copyright (C) 1992-2003 HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - HMM file: Agb.hmm Length distribution mean: 325 Length distribution s.d.: 200 Number of samples: 5000 random seed: 1096637147 histogram(s) saved to: histograma2 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - HMM : AgBfam mu : -10.075376 lambda : 0.640866 max : 4.144000

Búsqueda

hmmsearch - search a sequence database with a profile HMM [HMM has been calibrated; E-values are empirical estimates] Scores for complete sequences (score includes all domains): Sequence Description Score E-value N -------- ----------- ----- ------- --- P1;EgB2G1/10 22.9 6.8e-10 1 Parsed for domains: Sequence Domain seq-f seq-t hmm-f hmm-t score E-value -------- ------- ----- ----- ----- ----- ----- ------- P1;EgB2G1/10 1/1 24 87 .. 19 86 .] 22.9 6.8e-10

Alignments of top-scoring domains: P1;EgB2G1/10: domain 1 of 1, from 24 to 87: score 22.9, E = 6.8e-10 *->qerikkkemkylcereefydeDPlGkkiakhlgepkcicspvRkkri +er+k ++ l e++ f++ DPlG+ + ++ +ic i P1;EgB2G1/ 24 PERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHL-KI 69 RkrlGkYlkklQcEehkakkk<-* l kY+k+l +Ee +++ P1;EgB2G1/ 70 HEVLKKYVKDLLEEE---EEE 87

Programas que utilizan HMM

Referencias Profile hidden Markov models. Edyy S.R. 1998, Bioinformatics Review. Volume : 14,775-763. What is a hidden Markov model? Eddy S. R. 2004. Publication On line Biological Sequence Analysis: Probabilistic Models of Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh A. and Mitchison G. J. Cambridge University Press, Cambbridge UK.