La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

La Bioinformática intenta extraer información útil del AMS

Presentaciones similares


Presentación del tema: "La Bioinformática intenta extraer información útil del AMS"— Transcripción de la presentación:

1

2 La Bioinformática intenta extraer información útil del AMS

3 AMS y logo que representa la secuencia consenso
En un alineamiento múltiple se colocan las secuencias de modo que el número de posiciones con residuos idénticos o parecidos sea máximo. Cuanto más separadas estén las secuencias desde el punto de vista evolutivo, más diferencias encontraremos entre ellas AMS y logo que representa la secuencia consenso

4 Análisis de secuencias proteicas

5 Las regiones conservadas se almacenan en BD2

6 Tres tipos de descriptores para definir una familia

7 Regiones conservadas en un AMS
1.- Single motif methods Fuzzy regex e-MOTIF Exact regex (PROSITE) 3.- Full domain alignment methods Profiles (PROSITE) HMMs (Pfam) Identity matrices (PRINTS) 2.- Multiple motif methods Weight matrices (BLOCKS) Regiones conservadas en un AMS

8 Tipos de motivos conservados en un AMS y BD2
Motivos (patrones) Patrones difusos Motivos únicos Dominios Reglas Motivos locales conservados Huellas dactilares Motivos múltiples Bloques Perfiles Alineamientos completos Perfiles HMM Tipos de motivos conservados en un AMS y BD2

9 1.-

10 Motivos

11 Motivos (bloques, segmentos, características)
Los residuos conservados son idénticos Motivos (bloques, segmentos, características)

12 Varios motivos conservados en un AMS

13 Expresiones regulares (regexs)

14 Patrones (expresiones regulares, secuencias consenso, firmas)
Los residuos conservados no son idénticos Patrones (expresiones regulares, secuencias consenso, firmas)

15 Los patrones permiten definir una familia de proteínas

16 Motivos únicos → expresiones regulares (patrones)
Secuencia consenso, expresión regular o patrón R-W-x2-[GA]-C-x-[QN] Motivos únicos → expresiones regulares (patrones)

17 Patrones

18 Patrón = Secuencia consenso = Expresión regular
Cómo se obtiene una expresión regular a partir de un AMS

19 { } Sintaxis para generar una expresión regular
Aminoácidos que pueden ocupar esta posición Cualquier aminoácido puede ocupar las dos posiciones siguientes Aminoácidos conservados { } Cualquier aminoácido puede ocupar esta posición Aminoácidos conservados Aminoácidos que no pueden ocupar esta posición Sintaxis para generar una expresión regular

20 Características de los patrones
Patterns are derived from single conserved regions, which are reduced to consensus expressions for db searches they are minimal expressions, so sequence information is lost the more divergent the sequences used, the more fuzzy & poorly discriminating the pattern becomes Alignment Pattern GAVDFIALCDRYF GPIDFVCFCERFY G-X-[IV]-[DE]-F-[IVL]-X2-C-[DE]-R-[FY]2 GRVEFLNRCDRYY Patterns do not tolerate similarity sequences either match or not, regardless of how similar they are matching is a binary ‘on-off’ event & frequently misses true matches single-motif methods are very hit-or-miss - how do you know if you've encoded the ‘best’ region? Características de los patrones

21 Criterios de calidad para un patrón

22 Ventajas e inconvenientes de los patrones

23 Ventajas e inconvenientes de los patrones
1.- Son fáciles de entender y utilizar por el usuario 2.- Localizan las regiones más conservadas, que suelen estar asociadas a una función biológica 3.- La búsqueda de patrones en bases de datos de proteínas se hace en un periodo de tiempo razonable Inconvenientes 1.- No localiza homólogos distantes, ya que ignora las secuencias que no coinciden por completo con el patrón Ventajas e inconvenientes de los patrones

24 Why create pattern databases? ¿Para qué crear una BD de patrones?
Arise from the need to make more specific functional diagnoses than are possible by just searching the 1's They’re built on the principle that homologous sequences may be gathered into alignments, within which are regions (motifs) that show little variation these usually reflect vital structural or functional roles Motifs are exploited in different ways to build diagnostic patterns for protein families new sequences can be searched against DBs of such patterns to see if they can be assigned to known families hence they offer a fast track to the inference of function ¿Para qué crear una BD de patrones?

25 La BD PROSITE

26 Logo de un patrón almacenado en la BD PROSITE

27 Patrón almacenado en la BD PROSITE

28 La herramienta ScanProsite
Opción 1: Se introduce una secuencia proteica para ver si contiene algún motivo de la BD Opción 2: Se introduce un patrón y se busca en BD de secuencias proteicas aquéllas que lo contienen Opción 3: Se introducen secuencias de proteínas y patrones para ver qué secuencias contienen alguno de esos motivos La herramienta ScanProsite

29 La herramienta PATTINPROT
La herramienta PATTINPROT

30 La herramienta Pattern Search
La herramienta Pattern Search

31 La herramienta Peptide Match
La herramienta Peptide Match

32 La herramienta Peptide Search (UniProt)
La herramienta Peptide Search (UniProt)

33 Hay que interpretar con cuidado los resultados de una búsqueda

34 A veces, conviene relajarse

35 Expresiones regulares difusas (permissive regexs)

36 Patrones difusos (fuzzy regular expressions)
Fuzzy regular expressions are patterns in which alternative residues are tolerated according to a set of prescribed groupings. These groups correspond to various biochemical properties (e.g. charge, size), theoretically ensuring that the resulting motifs have sensible biochemical interpretations. Its permissiveness have the potential to make more true matches, but consequently also make more false ones. Patrones difusos (fuzzy regular expressions)

37 Cómo se obtiene una expresión regular difusa

38 Ventajas y desventajas de una expresión regular difusa

39 La BD IDENTIFY almacena expresiones regulares difusas

40 En 2001, la BD IDENTIFY pasa a llamarse EMOTIF

41 La BD EMOTIF (antes IDENTIFY)
La BD EMOTIF (antes IDENTIFY)

42 Contenido del paquete eMOTIF-3.6
Sugiere una familia para tu proteína Genera motivos a partir de un AMS (sin huecos) Busca regexs en BD Contenido del paquete eMOTIF-3.6

43 Reglas (rules)

44 Reglas = Patrones cortos (3 ó 4 residuos)

45 Las reglas suelen corresponder a motivos funcionales

46 Las reglas deben ser corroboradas experimentalmente

47 Cuanto más corto sea el motivo y mayor la longitud de la base de datos, más posibilidades habrá de encontrar una coincidencia por pura casualidad. Ejemplos de reglas

48 En resumen

49 La BD ProRule (ExPASy)

50

51 3D domains are compact structural units identified by purely geometric criteria.
Dominios

52 Representación de los dominios en 3D y en 1D

53 Dominios conservados

54 CDD: una BD de dominios conservados (NCBI)
CDD: una BD de dominios conservados (NCBI)

55 https://prosite.expasy.org/
La BD PROSITE

56 La BD SMART

57 La BD SMART en modo normal
In Normal SMART, the database contains Swiss-Prot, SP-TrEMBL and stable Ensembl proteomes. La BD SMART en modo normal

58 La BD SMART en modo genómico
In Genomic SMART, only the proteomes of completely sequenced genomes are used. La BD SMART en modo genómico

59 La BD ProDom

60 2.-

61 signatures, fingerprints
Múltiples motivos: huellas dactilares y bloques

62

63 Huellas dactilares (fingerprints)

64 ¿Qué es una huella dactilar?
PSSMs ¿Qué es una huella dactilar?

65 FINGERPRINTS Huellas dactilares
Most protein families are characterised by >1 motif it is sensible to use them all to build a diagnostic signature This is the principle of fingerprints these offer improved diagnostic reliability by virtue of the biological context provided by motif neighbours Motifs are excised from alignments by hand & encoded as ungapped, unweighted local alignments residue information is augmented via iterative searches sequences matching all motifs that weren't in the original alignment are added to the motifs, & the db searched again The process is repeated until convergence results are manually annotated prior to inclusion in the db Huellas dactilares

66 AMS matriz de frecuencias  Búsqueda iterativa en BD

67 A partir de un AMS se crea una matriz de frecuencias
7 9 12 Motivo conservado (sin indels) en un AMS. Este motivo tiene una longitud de 13 residuos y una profundidad 12, ya que son 12 las secuencias alineadas. Las posiciones 7, 9 y 12 están conservadas Se cuentan las veces que aparece cada uno de los 20 aminoácidos en cada columna del alineamiento y se elabora una matriz de frecuencias (PSSM). Se trata de un sistema de puntuación específico de la posición que no está ponderado. A partir de un AMS se crea una matriz de frecuencias

68 Matriz de frecuencias = PSSM
AMS Columnas Matriz de frecuencias = PSSM

69 Análisis de una secuencia con la matriz de frecuencias (1)
Cada bloque de la huella dactilar está definido por una PSSM Se coloca la matriz de frecuencias en la posición 1 de la secuencia analizada La puntuación obtenida es 35 Se desplaza la matriz una posición y se repite la operación Secuencia de la BD explorada en busca de los bloques que componen la huella dactilar Análisis de una secuencia con la matriz de frecuencias (1)

70 Análisis de una secuencia con la matriz de frecuencias (2)
En la posición 4 de la secuencia analizada, la puntuación obtenida es 443 La secuencia resaltada con el fondo en verde corresponde a uno de los bloques que componen la huella dactilar Análisis de una secuencia con la matriz de frecuencias (2)

71 Análisis de una secuencia con la matriz de frecuencias (3)
En la posición 7 de la secuencia analizada, la puntuación obtenida es 73 Análisis de una secuencia con la matriz de frecuencias (3)

72 Generación y refinado de las huellas dactilares
A fingerprinting overview Generación y refinado de las huellas dactilares

73 PSSM refinada mediante búsquedas iterativas en BD
Tabla obtenida a partir de la anterior tras 3 iteraciones Con la matriz de frecuencias inicial se busca en BD de proteínas secuencias que contengan la huella dactilar usando una ventana deslizante de su misma anchura. Las nuevas secuencias encontradas se unen a las iniciales y se modifica la matriz de frecuencias. Se repite el proceso hasta llegar a la convergencia. PSSM refinada mediante búsquedas iterativas en BD

74 Finalización del proceso (convergencia)
End Start Finalización del proceso (convergencia)

75 La BD PRINTS

76 1.- Introduce una secuencia 2.- Busca huellas dactilares
1.- Introduce una secuencia 2.- Busca huellas dactilares La herramienta FPScan

77 FingerPRINTScan: Resultados en forma de tabla
Huellas dactilares que alcanzan la máxima puntuación Pincha aquí para ver el resultado en forma gráfica Las 10 huellas dactilares que alcanzan la máxima puntuación FingerPRINTScan: Resultados en forma de tabla

78 El tercer mejor resultado FingerPRINTScan: Resultados en forma gráfica
El mejor resultado El tercer mejor resultado FingerPRINTScan: Resultados en forma gráfica

79 La herramienta GRAPHScan
2.- Introduce el código de una huella dactilar 1.- Introduce una secuencia 3.- Go ! La herramienta GRAPHScan

80 Resultados de GRAPHScan (1)
La proteína UR2R_HUMAN contiene la huella dactilar UROTENSIN2R La proteína UR2R_HUMAN NO contiene la huella dactilar SOMATOSTATNR2r Resultados de GRAPHScan (1)

81 Resultados de GRAPHScan (2)
La proteína PRIO_HUMAN contiene la huella dactilar PRION La proteína PRIO_CHICK contiene parte de la huella dactilar PRION Sólo se conservan 4 de los 8 motivos, pero como se encuentran en el mismo orden y a la distancia correcta, el resultado se considera positivo Resultados de GRAPHScan (2)

82

83 Bloques = Patrones ponderados

84 Un bloque detectado en un AMS
En un AMS, cuando hay secuencias muy parecidas que pertenecen a organismos muy próximos desde el punto de vista evolutivo, la información está sesgada. Para compensar este efecto, se aplica un sistema de ponderación que reduce el peso relativo de las secuencias muy parecidas y aumenta el de las menos representadas. Un bloque detectado en un AMS

85 Bloques = Patrones ponderados

86 La BD BLOCKS ya no se actualiza Parece que el servidor ya no existe
Parece que el servidor ya no existe La BD BLOCKS

87 3.-

88 Perfiles y modelos de Markov ocultos
Los perfiles utilizan la información presente en las regiones conservadas, en los huecos y en las regiones no conservadas. Los modelos de Markov ocultos son modelos probabilísticos que se obtienen a partir de los alineamientos completos Perfiles y modelos de Markov ocultos

89

90 Perfiles = Regiones conservadas + no conservadas

91 Inconvenientes de un perfil

92 El perfil se genera a partir de un AMS

93 Matriz de puntuación obtenida a partir de un AMS

94 El perfil que define el AMS
El perfil tiene 23 columnas: 20 AA + z (aa desconocido) + Go + Ge El perfil tiene tantas filas como columnas tiene el AMS local El perfil es un fiel reflejo de las secuencias de partida El problema de las pseudocuentas: si algún AA no aparece en el AMS inicial no quiere decir que no haya alguna secuencia relacionada que sí lo tenga. El perfil que define el AMS

95 Un perfil de la BD PROSITE

96 Características de un perfil
Profiles Profiles are scoring tables derived from full alignments these define which residues are allowed at given positions which positions are conserved & which degenerate which positions, or regions, can tolerate insertions the scoring system is intricate, & may include evolutionary weights, results from structural studies, & data implicit in the alignment variable penalties are specified to weight against INDELs occurring in core 2' structure elements Within a profile, the I & M fields contain position-specific scores for insert & match positions in conserved regions, INDELs aren't totally forbidden, but are strongly impeded by large penalties defined in the DEFAULT field these are superseded by more permissive values in gapped regions the inherent complexity of profiles renders them highly potent discriminators, but they are time-consuming to derive Características de un perfil

97 Ventajas e inconvenientes de los perfiles
1.- Localiza homólogos distantes (con poca conservación de la secuencia 2.- Caracteriza la secuencia completa del dominio, no sólo la región más conservada 3.- Son más adecuados para predecir características estructurales de las proteínas Inconvenientes 1.- Son difíciles de construir 2.- Son menos adecuados para la detección de una función biológica determinada Ventajas e inconvenientes de los perfiles

98 La BD PROSITE

99 PSI-BLAST genera perfiles durante sus búsquedas
PSI-BLAST genera perfiles durante sus búsquedas

100 La herramienta PFSEARCH (SIB)
La herramienta PFSEARCH (SIB)

101

102 Modelos de Markov ocultos

103 Perfiles basados en modelos de Markov ocultos

104 Los distintos estados (ocultos) de un perfil HMM
Begin End Estados obligatorios que marcan el inicio y el final del modelo (no emiten caracteres) Estados principales (uno por cada columna de la secuencia ancestral). Cada estado tiene unas probabilidades de emisión distintas. Estados de inserción que introducen caracteres en el alineamiento (tiene sus propias probabilidades de emisión ) Estados de eliminación que permiten saltar de una posición del alineamiento a otra (no emiten caracteres) Los distintos estados (ocultos) de un perfil HMM

105 Un perfil HMM se construye a partir de un AMS
Para construir el perfil HMM hay que determinar las probabilidades de emisión de cada estado y las probabilidades de transición de un estado a otro. Estos hay que estimarlos a partir del AMS. Lo ideal es partir de un AMS que incluya entre 20 y 100 secuencias homólogas. Un perfil HMM se construye a partir de un AMS

106 Main to delete transition
Alineamiento de 30 secuencias (dominio SH3) Main to delete transition Begin to delete transition Insert to main transition Main to insert transition Main state (1-6) Insert state Main state (7-14) Cálculo de las probabilidades de emisión y de transición

107 Ejemplo de un perfil HMM

108

109 La BD Pfam

110 ¿Qué es una familia de proteínas?

111 Una búsqueda en la BD Pfam
1.- Introduce una secuencia 2.- Averigua si pertenece a alguna familia de proteínas Una búsqueda en la BD Pfam

112 Los registros de Pfam se clasifican en 6 grupos
Los registros de Pfam se clasifican en 6 grupos

113 La herramienta HMMER3 (SIB)
La herramienta HMMER3 (SIB)

114

115 La herramienta MOTIF Search
La herramienta MOTIF Search

116 La herramienta Motif Scan (SIB)
La herramienta Motif Scan (SIB)

117

118 ¿Tengo que buscar en todas las BD de proteínas?

119 ¿Por qué resulta tan útil InterPro?

120 El consorcio InterPro (1)

121 El consorcio InterPro (2)

122 Tipos de registro en InterPro

123 Contenidos de la versión 73.0 de InterPro (25-3-2019)
La versión más reciente de InterPro es la Se hizo pública el 25 de Marzo de 2019. Contenidos de la versión 73.0 de InterPro ( )

124 InterPro permite introducir anotaciones en UniProtKB

125 Página principal de InterPro
Página principal de InterPro

126 La herramienta InterProScan
Introduce una secuencia para ver si contiene las características de una familia La herramienta InterProScan

127 El programa InterProScan


Descargar ppt "La Bioinformática intenta extraer información útil del AMS"

Presentaciones similares


Anuncios Google