Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porRaimo Hakala Modificado hace 5 años
2
La Bioinformática intenta extraer información útil del AMS
3
AMS y logo que representa la secuencia consenso
En un alineamiento múltiple se colocan las secuencias de modo que el número de posiciones con residuos idénticos o parecidos sea máximo. Cuanto más separadas estén las secuencias desde el punto de vista evolutivo, más diferencias encontraremos entre ellas AMS y logo que representa la secuencia consenso
4
Análisis de secuencias proteicas
5
Las regiones conservadas se almacenan en BD2
6
Tres tipos de descriptores para definir una familia
7
Regiones conservadas en un AMS
1.- Single motif methods Fuzzy regex e-MOTIF Exact regex (PROSITE) 3.- Full domain alignment methods Profiles (PROSITE) HMMs (Pfam) Identity matrices (PRINTS) 2.- Multiple motif methods Weight matrices (BLOCKS) Regiones conservadas en un AMS
8
Tipos de motivos conservados en un AMS y BD2
Motivos (patrones) Patrones difusos Motivos únicos Dominios Reglas Motivos locales conservados Huellas dactilares Motivos múltiples Bloques Perfiles Alineamientos completos Perfiles HMM Tipos de motivos conservados en un AMS y BD2
9
1.-
10
Motivos
11
Motivos (bloques, segmentos, características)
Los residuos conservados son idénticos Motivos (bloques, segmentos, características)
12
Varios motivos conservados en un AMS
13
Expresiones regulares (regexs)
14
Patrones (expresiones regulares, secuencias consenso, firmas)
Los residuos conservados no son idénticos Patrones (expresiones regulares, secuencias consenso, firmas)
15
Los patrones permiten definir una familia de proteínas
16
Motivos únicos → expresiones regulares (patrones)
Secuencia consenso, expresión regular o patrón R-W-x2-[GA]-C-x-[QN] Motivos únicos → expresiones regulares (patrones)
17
Patrones
18
Patrón = Secuencia consenso = Expresión regular
Cómo se obtiene una expresión regular a partir de un AMS
19
{ } Sintaxis para generar una expresión regular
Aminoácidos que pueden ocupar esta posición Cualquier aminoácido puede ocupar las dos posiciones siguientes Aminoácidos conservados { } Cualquier aminoácido puede ocupar esta posición Aminoácidos conservados Aminoácidos que no pueden ocupar esta posición Sintaxis para generar una expresión regular
20
Características de los patrones
Patterns are derived from single conserved regions, which are reduced to consensus expressions for db searches they are minimal expressions, so sequence information is lost the more divergent the sequences used, the more fuzzy & poorly discriminating the pattern becomes Alignment Pattern GAVDFIALCDRYF GPIDFVCFCERFY G-X-[IV]-[DE]-F-[IVL]-X2-C-[DE]-R-[FY]2 GRVEFLNRCDRYY Patterns do not tolerate similarity sequences either match or not, regardless of how similar they are matching is a binary ‘on-off’ event & frequently misses true matches single-motif methods are very hit-or-miss - how do you know if you've encoded the ‘best’ region? Características de los patrones
21
Criterios de calidad para un patrón
22
Ventajas e inconvenientes de los patrones
23
Ventajas e inconvenientes de los patrones
1.- Son fáciles de entender y utilizar por el usuario 2.- Localizan las regiones más conservadas, que suelen estar asociadas a una función biológica 3.- La búsqueda de patrones en bases de datos de proteínas se hace en un periodo de tiempo razonable Inconvenientes 1.- No localiza homólogos distantes, ya que ignora las secuencias que no coinciden por completo con el patrón Ventajas e inconvenientes de los patrones
24
Why create pattern databases? ¿Para qué crear una BD de patrones?
Arise from the need to make more specific functional diagnoses than are possible by just searching the 1's They’re built on the principle that homologous sequences may be gathered into alignments, within which are regions (motifs) that show little variation these usually reflect vital structural or functional roles Motifs are exploited in different ways to build diagnostic patterns for protein families new sequences can be searched against DBs of such patterns to see if they can be assigned to known families hence they offer a fast track to the inference of function ¿Para qué crear una BD de patrones?
25
La BD PROSITE
26
Logo de un patrón almacenado en la BD PROSITE
27
Patrón almacenado en la BD PROSITE
28
La herramienta ScanProsite
Opción 1: Se introduce una secuencia proteica para ver si contiene algún motivo de la BD Opción 2: Se introduce un patrón y se busca en BD de secuencias proteicas aquéllas que lo contienen Opción 3: Se introducen secuencias de proteínas y patrones para ver qué secuencias contienen alguno de esos motivos La herramienta ScanProsite
29
La herramienta PATTINPROT
La herramienta PATTINPROT
30
La herramienta Pattern Search
La herramienta Pattern Search
31
La herramienta Peptide Match
La herramienta Peptide Match
32
La herramienta Peptide Search (UniProt)
La herramienta Peptide Search (UniProt)
33
Hay que interpretar con cuidado los resultados de una búsqueda
34
A veces, conviene relajarse
35
Expresiones regulares difusas (permissive regexs)
36
Patrones difusos (fuzzy regular expressions)
Fuzzy regular expressions are patterns in which alternative residues are tolerated according to a set of prescribed groupings. These groups correspond to various biochemical properties (e.g. charge, size), theoretically ensuring that the resulting motifs have sensible biochemical interpretations. Its permissiveness have the potential to make more true matches, but consequently also make more false ones. Patrones difusos (fuzzy regular expressions)
37
Cómo se obtiene una expresión regular difusa
38
Ventajas y desventajas de una expresión regular difusa
39
La BD IDENTIFY almacena expresiones regulares difusas
40
En 2001, la BD IDENTIFY pasa a llamarse EMOTIF
41
La BD EMOTIF (antes IDENTIFY)
La BD EMOTIF (antes IDENTIFY)
42
Contenido del paquete eMOTIF-3.6
Sugiere una familia para tu proteína Genera motivos a partir de un AMS (sin huecos) Busca regexs en BD Contenido del paquete eMOTIF-3.6
43
Reglas (rules)
44
Reglas = Patrones cortos (3 ó 4 residuos)
45
Las reglas suelen corresponder a motivos funcionales
46
Las reglas deben ser corroboradas experimentalmente
47
Cuanto más corto sea el motivo y mayor la longitud de la base de datos, más posibilidades habrá de encontrar una coincidencia por pura casualidad. Ejemplos de reglas
48
En resumen
49
La BD ProRule (ExPASy)
51
3D domains are compact structural units identified by purely geometric criteria.
Dominios
52
Representación de los dominios en 3D y en 1D
53
Dominios conservados
54
CDD: una BD de dominios conservados (NCBI)
CDD: una BD de dominios conservados (NCBI)
55
https://prosite.expasy.org/
La BD PROSITE
56
La BD SMART
57
La BD SMART en modo normal
In Normal SMART, the database contains Swiss-Prot, SP-TrEMBL and stable Ensembl proteomes. La BD SMART en modo normal
58
La BD SMART en modo genómico
In Genomic SMART, only the proteomes of completely sequenced genomes are used. La BD SMART en modo genómico
59
La BD ProDom
60
2.-
61
signatures, fingerprints
Múltiples motivos: huellas dactilares y bloques
63
Huellas dactilares (fingerprints)
64
¿Qué es una huella dactilar?
PSSMs ¿Qué es una huella dactilar?
65
FINGERPRINTS Huellas dactilares
Most protein families are characterised by >1 motif it is sensible to use them all to build a diagnostic signature This is the principle of fingerprints these offer improved diagnostic reliability by virtue of the biological context provided by motif neighbours Motifs are excised from alignments by hand & encoded as ungapped, unweighted local alignments residue information is augmented via iterative searches sequences matching all motifs that weren't in the original alignment are added to the motifs, & the db searched again The process is repeated until convergence results are manually annotated prior to inclusion in the db Huellas dactilares
66
AMS matriz de frecuencias Búsqueda iterativa en BD
67
A partir de un AMS se crea una matriz de frecuencias
7 9 12 Motivo conservado (sin indels) en un AMS. Este motivo tiene una longitud de 13 residuos y una profundidad 12, ya que son 12 las secuencias alineadas. Las posiciones 7, 9 y 12 están conservadas Se cuentan las veces que aparece cada uno de los 20 aminoácidos en cada columna del alineamiento y se elabora una matriz de frecuencias (PSSM). Se trata de un sistema de puntuación específico de la posición que no está ponderado. A partir de un AMS se crea una matriz de frecuencias
68
Matriz de frecuencias = PSSM
AMS Columnas Matriz de frecuencias = PSSM
69
Análisis de una secuencia con la matriz de frecuencias (1)
Cada bloque de la huella dactilar está definido por una PSSM Se coloca la matriz de frecuencias en la posición 1 de la secuencia analizada La puntuación obtenida es 35 Se desplaza la matriz una posición y se repite la operación Secuencia de la BD explorada en busca de los bloques que componen la huella dactilar Análisis de una secuencia con la matriz de frecuencias (1)
70
Análisis de una secuencia con la matriz de frecuencias (2)
En la posición 4 de la secuencia analizada, la puntuación obtenida es 443 La secuencia resaltada con el fondo en verde corresponde a uno de los bloques que componen la huella dactilar Análisis de una secuencia con la matriz de frecuencias (2)
71
Análisis de una secuencia con la matriz de frecuencias (3)
En la posición 7 de la secuencia analizada, la puntuación obtenida es 73 Análisis de una secuencia con la matriz de frecuencias (3)
72
Generación y refinado de las huellas dactilares
A fingerprinting overview Generación y refinado de las huellas dactilares
73
PSSM refinada mediante búsquedas iterativas en BD
Tabla obtenida a partir de la anterior tras 3 iteraciones Con la matriz de frecuencias inicial se busca en BD de proteínas secuencias que contengan la huella dactilar usando una ventana deslizante de su misma anchura. Las nuevas secuencias encontradas se unen a las iniciales y se modifica la matriz de frecuencias. Se repite el proceso hasta llegar a la convergencia. PSSM refinada mediante búsquedas iterativas en BD
74
Finalización del proceso (convergencia)
End Start Finalización del proceso (convergencia)
75
La BD PRINTS
76
1.- Introduce una secuencia 2.- Busca huellas dactilares
1.- Introduce una secuencia 2.- Busca huellas dactilares La herramienta FPScan
77
FingerPRINTScan: Resultados en forma de tabla
Huellas dactilares que alcanzan la máxima puntuación Pincha aquí para ver el resultado en forma gráfica Las 10 huellas dactilares que alcanzan la máxima puntuación FingerPRINTScan: Resultados en forma de tabla
78
El tercer mejor resultado FingerPRINTScan: Resultados en forma gráfica
El mejor resultado El tercer mejor resultado FingerPRINTScan: Resultados en forma gráfica
79
La herramienta GRAPHScan
2.- Introduce el código de una huella dactilar 1.- Introduce una secuencia 3.- Go ! La herramienta GRAPHScan
80
Resultados de GRAPHScan (1)
La proteína UR2R_HUMAN contiene la huella dactilar UROTENSIN2R La proteína UR2R_HUMAN NO contiene la huella dactilar SOMATOSTATNR2r Resultados de GRAPHScan (1)
81
Resultados de GRAPHScan (2)
La proteína PRIO_HUMAN contiene la huella dactilar PRION La proteína PRIO_CHICK contiene parte de la huella dactilar PRION Sólo se conservan 4 de los 8 motivos, pero como se encuentran en el mismo orden y a la distancia correcta, el resultado se considera positivo Resultados de GRAPHScan (2)
83
Bloques = Patrones ponderados
84
Un bloque detectado en un AMS
En un AMS, cuando hay secuencias muy parecidas que pertenecen a organismos muy próximos desde el punto de vista evolutivo, la información está sesgada. Para compensar este efecto, se aplica un sistema de ponderación que reduce el peso relativo de las secuencias muy parecidas y aumenta el de las menos representadas. Un bloque detectado en un AMS
85
Bloques = Patrones ponderados
86
La BD BLOCKS ya no se actualiza Parece que el servidor ya no existe
Parece que el servidor ya no existe La BD BLOCKS
87
3.-
88
Perfiles y modelos de Markov ocultos
Los perfiles utilizan la información presente en las regiones conservadas, en los huecos y en las regiones no conservadas. Los modelos de Markov ocultos son modelos probabilísticos que se obtienen a partir de los alineamientos completos Perfiles y modelos de Markov ocultos
90
Perfiles = Regiones conservadas + no conservadas
91
Inconvenientes de un perfil
92
El perfil se genera a partir de un AMS
93
Matriz de puntuación obtenida a partir de un AMS
94
El perfil que define el AMS
El perfil tiene 23 columnas: 20 AA + z (aa desconocido) + Go + Ge El perfil tiene tantas filas como columnas tiene el AMS local El perfil es un fiel reflejo de las secuencias de partida El problema de las pseudocuentas: si algún AA no aparece en el AMS inicial no quiere decir que no haya alguna secuencia relacionada que sí lo tenga. El perfil que define el AMS
95
Un perfil de la BD PROSITE
96
Características de un perfil
Profiles Profiles are scoring tables derived from full alignments these define which residues are allowed at given positions which positions are conserved & which degenerate which positions, or regions, can tolerate insertions the scoring system is intricate, & may include evolutionary weights, results from structural studies, & data implicit in the alignment variable penalties are specified to weight against INDELs occurring in core 2' structure elements Within a profile, the I & M fields contain position-specific scores for insert & match positions in conserved regions, INDELs aren't totally forbidden, but are strongly impeded by large penalties defined in the DEFAULT field these are superseded by more permissive values in gapped regions the inherent complexity of profiles renders them highly potent discriminators, but they are time-consuming to derive Características de un perfil
97
Ventajas e inconvenientes de los perfiles
1.- Localiza homólogos distantes (con poca conservación de la secuencia 2.- Caracteriza la secuencia completa del dominio, no sólo la región más conservada 3.- Son más adecuados para predecir características estructurales de las proteínas Inconvenientes 1.- Son difíciles de construir 2.- Son menos adecuados para la detección de una función biológica determinada Ventajas e inconvenientes de los perfiles
98
La BD PROSITE
99
PSI-BLAST genera perfiles durante sus búsquedas
PSI-BLAST genera perfiles durante sus búsquedas
100
La herramienta PFSEARCH (SIB)
La herramienta PFSEARCH (SIB)
102
Modelos de Markov ocultos
103
Perfiles basados en modelos de Markov ocultos
104
Los distintos estados (ocultos) de un perfil HMM
Begin End Estados obligatorios que marcan el inicio y el final del modelo (no emiten caracteres) Estados principales (uno por cada columna de la secuencia ancestral). Cada estado tiene unas probabilidades de emisión distintas. Estados de inserción que introducen caracteres en el alineamiento (tiene sus propias probabilidades de emisión ) Estados de eliminación que permiten saltar de una posición del alineamiento a otra (no emiten caracteres) Los distintos estados (ocultos) de un perfil HMM
105
Un perfil HMM se construye a partir de un AMS
Para construir el perfil HMM hay que determinar las probabilidades de emisión de cada estado y las probabilidades de transición de un estado a otro. Estos hay que estimarlos a partir del AMS. Lo ideal es partir de un AMS que incluya entre 20 y 100 secuencias homólogas. Un perfil HMM se construye a partir de un AMS
106
Main to delete transition
Alineamiento de 30 secuencias (dominio SH3) Main to delete transition Begin to delete transition Insert to main transition Main to insert transition Main state (1-6) Insert state Main state (7-14) Cálculo de las probabilidades de emisión y de transición
107
Ejemplo de un perfil HMM
109
La BD Pfam
110
¿Qué es una familia de proteínas?
111
Una búsqueda en la BD Pfam
1.- Introduce una secuencia 2.- Averigua si pertenece a alguna familia de proteínas Una búsqueda en la BD Pfam
112
Los registros de Pfam se clasifican en 6 grupos
Los registros de Pfam se clasifican en 6 grupos
113
La herramienta HMMER3 (SIB)
La herramienta HMMER3 (SIB)
115
La herramienta MOTIF Search
La herramienta MOTIF Search
116
La herramienta Motif Scan (SIB)
La herramienta Motif Scan (SIB)
118
¿Tengo que buscar en todas las BD de proteínas?
119
¿Por qué resulta tan útil InterPro?
120
El consorcio InterPro (1)
121
El consorcio InterPro (2)
122
Tipos de registro en InterPro
123
Contenidos de la versión 73.0 de InterPro (25-3-2019)
La versión más reciente de InterPro es la Se hizo pública el 25 de Marzo de 2019. Contenidos de la versión 73.0 de InterPro ( )
124
InterPro permite introducir anotaciones en UniProtKB
125
Página principal de InterPro
Página principal de InterPro
126
La herramienta InterProScan
Introduce una secuencia para ver si contiene las características de una familia La herramienta InterProScan
127
El programa InterProScan
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.