La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Presentaciones similares


Presentación del tema: "Uso del programa HMMER Búsqueda de familias (dominios) de proteínas."— Transcripción de la presentación:

1 Uso del programa HMMER Búsqueda de familias (dominios) de proteínas

2 DOMINIO PROTEICO: porción de una proteína con estructura terciaria definida ( aminoácidos). Unidad modular. En general asociados a una función particular. Proteínas pequeñas tienen un único dominio, proteínas grandes pueden llegar a tener más de 10 dominios. FAMILIA DE PROTEINAS: Conjunto de proteínas con dominios o funciones en común La secuencia aminoacídica puede estar conservada en mayor o menor medida. Casos extremos: 25 % de identidad aminoacídica, estructura terciaria idéntica

3 Dominios

4 Aplicación de HHMER Dada una familia de proteínas conocida…..
¿Hay nuevos miembros de esta familia?

5 Construcción A partir de un alineamiento múltiple, se genera un consenso, con matchs, deleciones o inserciones Los parámetros del modelo se determinan en base a la frecuencia de aparición de cada aminoácido en una posición particular Algoritmos de programación dinámica para la construcción del modelo Cálculo de frecuencias de emisión y transición: algoritmos de pesado de secuencias, Plan 7

6 Características HMMER
Tres estados principales: Match, Deleción o Inserción Se emiten pares de residuos

7 Modelo Básico δ ε D pd τ δ 1-2δ-τ 1-ε- τ M pm τ B E 1-ε- τ 1-2δ-τ τ δ
pi δ ε τ

8 Estados especiales (no dependen de los datos de entrada):
PLAN 7 Estados especiales (no dependen de los datos de entrada): S, N, J, C, T Permiten encontrar matchs en cualquier lugar interno de la secuencia Dominios locales

9 Globinas Amplia familia de proteínas
(50 secuencias de diferentes especies) 1 secuencia de “globina” de Artemia (micro camarón)

10 Datos de entrada: Alineamianto múltiple
(Clustal o HMMER)

11 Construcción del modelo
hmmbuild - build a hidden Markov model from an alignment HMMER (Oct 2003) Copyright (C) HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) Alignment file: globins50.msf File format: MSF Search algorithm configuration: Multiple domain (hmmls) Model construction strategy: MAP (gapmax hint: 0.50) Null model used: (default) Prior used: (default) Sequence weighting method: G/S/C tree weights New HMM file: globin.hmm Alignment: #1 Number of sequences: 50 Number of columns: 308 Determining effective sequence number done. [2] Weighting sequences heuristically done. Constructing model architecture done. Converting counts to probabilities done. Setting model name, etc done. [globins50] Constructed a profile HMM (length 143) Average score: bits Minimum score: bits Maximum score: bits Std. deviation: bits Finalizing model configuration done. Saving model to file done. Algortimo de programación dinámica Parámetro x determina la cantidad de residuos en el consenso

12 Calibración Generación de secuencias aleatorias en función de la longitud y composición aminoacídica del alineamiento múltiple Construcción de histograma distribución de los scores de las secuencias aleatorias Seteo de mu y lambda (E-value)

13 Calibración hmmcalibrate -- calibrate HMM search statistics
HMMER (Oct 2003) Copyright (C) HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) HMM file: globin.hmm Length distribution mean: 325 Length distribution s.d.: 200 Number of samples: random seed: histogram(s) saved to: histograma HMM : globins50 mu : lambda : max :

14 Criterios de evaluación de los resultados Score = log2 P(seq/HMM)
Búsqueda Criterios de evaluación de los resultados Score = log2 P(seq/HMM) P (seq/null) E-value = número esperado de falsos positivos (secuencias con score alto por azar)

15 Búsqueda hmmsearch - search a sequence database with a profile HMM
[HMM has been calibrated; E-values are empirical estimates] Scores for complete sequences (score includes all domains): Sequence Description Score E-value N S S13421 GLOBIN - BRINE SHRIMP e Parsed for domains: Sequence Domain seq-f seq-t hmm-f hmm-t score E-value S / [] e-24 S / [] e-20 S / [] e-19 S / [] e-18 S / [] e-16 S / [ [] e-16 S / [] e-15 S / [] e-13 S / [] e-08

16 Alignments of top-scoring domains:
S13421: domain 7 of 9, from 932 to 1075: score 76.9, E = 7.3e-24 *->eekalvksvwgkveknveevGaeaLerllvvyPetkryFpkFkdLss +e a vk+ w+ v+ ++ vG +++ l++ +P+ +++FpkF d+ S REVAVVKQTWNLVKPDLMGVGMRIFKSLFEAFPAYQAVFPKFSDVPL 978 adavkgsakvkahgkkVltalgdavkkldd...lkgalakLselHaqklr d v +h V t+l++ ++ ld++ +l+ ++L+e H+ lr S DKLEDTPAVGKHSISVTTKLDELIQTLDEpanLALLARQLGEDHIV-LR 1026 vdpenfkllsevllvvlaeklgkeftpevqaalekllaavataLaakYk< v+ fk +++vl+ l++ lg+ f k S VNKPMFKSFGKVLVRLLENDLGQRFSSFASRSWHKAYDVIVEYIEEGLQ 1075 -*

17 Vale la pena? para este ejemplo particular:
50 proteínas de información inicial estructura y función perfectamente conocidas

18 Resultados similares utilizando PSI-BLAST y CDD

19 Otro caso Familia de proteínas específicas de un grupo de organismos alejados evolutivamente de las especies más estudiadas (hombre, ratón, etc.) Echinococcus granulosus Poca informacion disponible de proteínas pertencientes a la misma familia

20 Los bancos de datos que utilizan estos programas no son completos (ej
Los bancos de datos que utilizan estos programas no son completos (ej. Pfam 5193 flias) Usamos HMMER

21 Datos de entrada Datos de búsqueda
7 proteínas de las misma familia (sospecha por estructura y función) Datos de búsqueda una secuencia nueva EgB2G1/10

22 Parámetro modificado: -f busca dominios localmente
Construcción del modelo hmmbuild - build a hidden Markov model from an alignment HMMER (Oct 2003) Copyright (C) HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) Alignment file: AgBfam.pir File format: a2m Search algorithm configuration: Multiple local (hmmfs) S/W aggregate entry probability: S/W aggregate exit probability: Model construction strategy: MAP (gapmax hint: 0.50) Null model used: (default) Prior used: (default) Sequence weighting method: G/S/C tree weights New HMM file: Agb.hmm Alignment: #1 Number of sequences: 7 Number of columns: 86 Determining effective sequence number done. [5] Weighting sequences heuristically done. Constructing model architecture done. Converting counts to probabilities done. Setting model name, etc done. [AgBfam] Constructed a profile HMM (length 86) Average score: bits Minimum score: bits Maximum score: bits Std. deviation: bits Finalizing model configuration done. Saving model to file done. Parámetro modificado: -f busca dominios localmente (prioriza dominios pequeños)

23 Calibración hmmcalibrate -- calibrate HMM search statistics
HMMER (Oct 2003) Copyright (C) HHMI/Washington University School of Medicine Freely distributed under the GNU General Public License (GPL) HMM file: Agb.hmm Length distribution mean: 325 Length distribution s.d.: 200 Number of samples: random seed: histogram(s) saved to: histograma2 HMM : AgBfam mu : lambda : max :

24 Búsqueda

25 hmmsearch - search a sequence database with a profile HMM
[HMM has been calibrated; E-values are empirical estimates] Scores for complete sequences (score includes all domains): Sequence Description Score E-value N P1;EgB2G1/ e Parsed for domains: Sequence Domain seq-f seq-t hmm-f hmm-t score E-value P1;EgB2G1/10 1/ ] e-10

26 Alignments of top-scoring domains:
P1;EgB2G1/10: domain 1 of 1, from 24 to 87: score 22.9, E = 6.8e-10 *->qerikkkemkylcereefydeDPlGkkiakhlgepkcicspvRkkri +er+k ++ l e++ f++ DPlG ic i P1;EgB2G1/ PERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHL-KI 69 RkrlGkYlkklQcEehkakkk<-* l kY+k+l +Ee +++ P1;EgB2G1/ HEVLKKYVKDLLEEE---EEE 87

27 Programas que utilizan HMM

28 Referencias Profile hidden Markov models. Edyy S.R. 1998, Bioinformatics Review. Volume : 14, What is a hidden Markov model? Eddy S. R Publication On line Biological Sequence Analysis: Probabilistic Models of Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh A. and Mitchison G. J. Cambridge University Press, Cambbridge UK.

29


Descargar ppt "Uso del programa HMMER Búsqueda de familias (dominios) de proteínas."

Presentaciones similares


Anuncios Google