La Bioinformática intenta extraer información útil del AMS
AMS y logo que representa la secuencia consenso En un alineamiento múltiple se colocan las secuencias de modo que el número de posiciones con residuos idénticos o parecidos sea máximo. Cuanto más separadas estén las secuencias desde el punto de vista evolutivo, más diferencias encontraremos entre ellas AMS y logo que representa la secuencia consenso
Análisis de secuencias proteicas
Las regiones conservadas se almacenan en BD2
Tres tipos de descriptores para definir una familia
Regiones conservadas en un AMS 1.- Single motif methods Fuzzy regex e-MOTIF Exact regex (PROSITE) 3.- Full domain alignment methods Profiles (PROSITE) HMMs (Pfam) Identity matrices (PRINTS) 2.- Multiple motif methods Weight matrices (BLOCKS) Regiones conservadas en un AMS
Tipos de motivos conservados en un AMS y BD2 Motivos (patrones) Patrones difusos Motivos únicos Dominios Reglas Motivos locales conservados Huellas dactilares Motivos múltiples Bloques Perfiles Alineamientos completos Perfiles HMM Tipos de motivos conservados en un AMS y BD2
1.-
Motivos
Motivos (bloques, segmentos, características) Los residuos conservados son idénticos Motivos (bloques, segmentos, características)
Varios motivos conservados en un AMS
Expresiones regulares (regexs)
Patrones (expresiones regulares, secuencias consenso, firmas) Los residuos conservados no son idénticos Patrones (expresiones regulares, secuencias consenso, firmas)
Los patrones permiten definir una familia de proteínas
Motivos únicos → expresiones regulares (patrones) Secuencia consenso, expresión regular o patrón R-W-x2-[GA]-C-x-[QN] Motivos únicos → expresiones regulares (patrones)
Patrones
Patrón = Secuencia consenso = Expresión regular Cómo se obtiene una expresión regular a partir de un AMS
{ } Sintaxis para generar una expresión regular Aminoácidos que pueden ocupar esta posición Cualquier aminoácido puede ocupar las dos posiciones siguientes Aminoácidos conservados { } Cualquier aminoácido puede ocupar esta posición Aminoácidos conservados Aminoácidos que no pueden ocupar esta posición Sintaxis para generar una expresión regular
Características de los patrones Patterns are derived from single conserved regions, which are reduced to consensus expressions for db searches they are minimal expressions, so sequence information is lost the more divergent the sequences used, the more fuzzy & poorly discriminating the pattern becomes Alignment Pattern GAVDFIALCDRYF GPIDFVCFCERFY G-X-[IV]-[DE]-F-[IVL]-X2-C-[DE]-R-[FY]2 GRVEFLNRCDRYY Patterns do not tolerate similarity sequences either match or not, regardless of how similar they are matching is a binary ‘on-off’ event & frequently misses true matches single-motif methods are very hit-or-miss - how do you know if you've encoded the ‘best’ region? Características de los patrones
Criterios de calidad para un patrón
Ventajas e inconvenientes de los patrones
Ventajas e inconvenientes de los patrones 1.- Son fáciles de entender y utilizar por el usuario 2.- Localizan las regiones más conservadas, que suelen estar asociadas a una función biológica 3.- La búsqueda de patrones en bases de datos de proteínas se hace en un periodo de tiempo razonable Inconvenientes 1.- No localiza homólogos distantes, ya que ignora las secuencias que no coinciden por completo con el patrón Ventajas e inconvenientes de los patrones
Why create pattern databases? ¿Para qué crear una BD de patrones? Arise from the need to make more specific functional diagnoses than are possible by just searching the 1's They’re built on the principle that homologous sequences may be gathered into alignments, within which are regions (motifs) that show little variation these usually reflect vital structural or functional roles Motifs are exploited in different ways to build diagnostic patterns for protein families new sequences can be searched against DBs of such patterns to see if they can be assigned to known families hence they offer a fast track to the inference of function ¿Para qué crear una BD de patrones?
http://prosite.expasy.org/ La BD PROSITE
Logo de un patrón almacenado en la BD PROSITE
Patrón almacenado en la BD PROSITE
La herramienta ScanProsite http://prosite.expasy.org/scanprosite Opción 1: Se introduce una secuencia proteica para ver si contiene algún motivo de la BD Opción 2: Se introduce un patrón y se busca en BD de secuencias proteicas aquéllas que lo contienen Opción 3: Se introducen secuencias de proteínas y patrones para ver qué secuencias contienen alguno de esos motivos La herramienta ScanProsite
La herramienta PATTINPROT https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_pattinprot.html La herramienta PATTINPROT
La herramienta Pattern Search http://myhits.isb-sib.ch/cgi-bin/pattern_search La herramienta Pattern Search
La herramienta Peptide Match http://research.bioinformatics.udel.edu/peptidematch/index.jsp La herramienta Peptide Match
La herramienta Peptide Search (UniProt) http://www.uniprot.org/peptidesearch/ La herramienta Peptide Search (UniProt)
Hay que interpretar con cuidado los resultados de una búsqueda
A veces, conviene relajarse
Expresiones regulares difusas (permissive regexs)
Patrones difusos (fuzzy regular expressions) Fuzzy regular expressions are patterns in which alternative residues are tolerated according to a set of prescribed groupings. These groups correspond to various biochemical properties (e.g. charge, size), theoretically ensuring that the resulting motifs have sensible biochemical interpretations. Its permissiveness have the potential to make more true matches, but consequently also make more false ones. Patrones difusos (fuzzy regular expressions)
Cómo se obtiene una expresión regular difusa
Ventajas y desventajas de una expresión regular difusa
La BD IDENTIFY almacena expresiones regulares difusas
En 2001, la BD IDENTIFY pasa a llamarse EMOTIF
La BD EMOTIF (antes IDENTIFY) http://motif.stanford.edu/distributions/emotif/ La BD EMOTIF (antes IDENTIFY)
Contenido del paquete eMOTIF-3.6 Sugiere una familia para tu proteína Genera motivos a partir de un AMS (sin huecos) Busca regexs en BD Contenido del paquete eMOTIF-3.6
Reglas (rules)
Reglas = Patrones cortos (3 ó 4 residuos)
Las reglas suelen corresponder a motivos funcionales
Las reglas deben ser corroboradas experimentalmente
Cuanto más corto sea el motivo y mayor la longitud de la base de datos, más posibilidades habrá de encontrar una coincidencia por pura casualidad. Ejemplos de reglas
En resumen
http://prosite.expasy.org/prorule.html La BD ProRule (ExPASy)
3D domains are compact structural units identified by purely geometric criteria. Dominios
Representación de los dominios en 3D y en 1D
Dominios conservados
CDD: una BD de dominios conservados (NCBI) https://www.ncbi.nlm.nih.gov/cdd CDD: una BD de dominios conservados (NCBI)
https://prosite.expasy.org/ La BD PROSITE
http://smart.embl-heidelberg.de/smart/change_mode.pl La BD SMART
La BD SMART en modo normal In Normal SMART, the database contains Swiss-Prot, SP-TrEMBL and stable Ensembl proteomes. La BD SMART en modo normal
La BD SMART en modo genómico In Genomic SMART, only the proteomes of completely sequenced genomes are used. La BD SMART en modo genómico
http://prodom.prabi.fr/prodom/current/html/home.php La BD ProDom
2.-
signatures, fingerprints Múltiples motivos: huellas dactilares y bloques
Huellas dactilares (fingerprints)
¿Qué es una huella dactilar? PSSMs ¿Qué es una huella dactilar?
FINGERPRINTS Huellas dactilares Most protein families are characterised by >1 motif it is sensible to use them all to build a diagnostic signature This is the principle of fingerprints these offer improved diagnostic reliability by virtue of the biological context provided by motif neighbours Motifs are excised from alignments by hand & encoded as ungapped, unweighted local alignments residue information is augmented via iterative searches sequences matching all motifs that weren't in the original alignment are added to the motifs, & the db searched again The process is repeated until convergence results are manually annotated prior to inclusion in the db Huellas dactilares
AMS matriz de frecuencias Búsqueda iterativa en BD
A partir de un AMS se crea una matriz de frecuencias 7 9 12 Motivo conservado (sin indels) en un AMS. Este motivo tiene una longitud de 13 residuos y una profundidad 12, ya que son 12 las secuencias alineadas. Las posiciones 7, 9 y 12 están conservadas Se cuentan las veces que aparece cada uno de los 20 aminoácidos en cada columna del alineamiento y se elabora una matriz de frecuencias (PSSM). Se trata de un sistema de puntuación específico de la posición que no está ponderado. A partir de un AMS se crea una matriz de frecuencias
Matriz de frecuencias = PSSM AMS Columnas Matriz de frecuencias = PSSM
Análisis de una secuencia con la matriz de frecuencias (1) Cada bloque de la huella dactilar está definido por una PSSM Se coloca la matriz de frecuencias en la posición 1 de la secuencia analizada La puntuación obtenida es 35 Se desplaza la matriz una posición y se repite la operación Secuencia de la BD explorada en busca de los bloques que componen la huella dactilar Análisis de una secuencia con la matriz de frecuencias (1)
Análisis de una secuencia con la matriz de frecuencias (2) En la posición 4 de la secuencia analizada, la puntuación obtenida es 443 La secuencia resaltada con el fondo en verde corresponde a uno de los bloques que componen la huella dactilar Análisis de una secuencia con la matriz de frecuencias (2)
Análisis de una secuencia con la matriz de frecuencias (3) En la posición 7 de la secuencia analizada, la puntuación obtenida es 73 Análisis de una secuencia con la matriz de frecuencias (3)
Generación y refinado de las huellas dactilares A fingerprinting overview Generación y refinado de las huellas dactilares
PSSM refinada mediante búsquedas iterativas en BD Tabla obtenida a partir de la anterior tras 3 iteraciones Con la matriz de frecuencias inicial se busca en BD de proteínas secuencias que contengan la huella dactilar usando una ventana deslizante de su misma anchura. Las nuevas secuencias encontradas se unen a las iniciales y se modifica la matriz de frecuencias. Se repite el proceso hasta llegar a la convergencia. PSSM refinada mediante búsquedas iterativas en BD
Finalización del proceso (convergencia) End Start Finalización del proceso (convergencia)
http://130.88.97.239/PRINTS/index.php La BD PRINTS
1.- Introduce una secuencia 2.- Busca huellas dactilares http://130.88.97.239/cgi-bin/dbbrowser/fingerPRINTScan/FPScan_fam.cgi 1.- Introduce una secuencia 2.- Busca huellas dactilares La herramienta FPScan
FingerPRINTScan: Resultados en forma de tabla Huellas dactilares que alcanzan la máxima puntuación Pincha aquí para ver el resultado en forma gráfica Las 10 huellas dactilares que alcanzan la máxima puntuación FingerPRINTScan: Resultados en forma de tabla
El tercer mejor resultado FingerPRINTScan: Resultados en forma gráfica El mejor resultado El tercer mejor resultado FingerPRINTScan: Resultados en forma gráfica
La herramienta GRAPHScan http://130.88.97.239/cgi-bin/dbbrowser/fingerPRINTScan/GRAPHScan.cgi 2.- Introduce el código de una huella dactilar 1.- Introduce una secuencia 3.- Go ! La herramienta GRAPHScan
Resultados de GRAPHScan (1) La proteína UR2R_HUMAN contiene la huella dactilar UROTENSIN2R La proteína UR2R_HUMAN NO contiene la huella dactilar SOMATOSTATNR2r Resultados de GRAPHScan (1)
Resultados de GRAPHScan (2) La proteína PRIO_HUMAN contiene la huella dactilar PRION La proteína PRIO_CHICK contiene parte de la huella dactilar PRION Sólo se conservan 4 de los 8 motivos, pero como se encuentran en el mismo orden y a la distancia correcta, el resultado se considera positivo Resultados de GRAPHScan (2)
Bloques = Patrones ponderados
Un bloque detectado en un AMS En un AMS, cuando hay secuencias muy parecidas que pertenecen a organismos muy próximos desde el punto de vista evolutivo, la información está sesgada. Para compensar este efecto, se aplica un sistema de ponderación que reduce el peso relativo de las secuencias muy parecidas y aumenta el de las menos representadas. Un bloque detectado en un AMS
Bloques = Patrones ponderados
La BD BLOCKS ya no se actualiza Parece que el servidor ya no existe http://blocks.fhcrc.org/ Parece que el servidor ya no existe La BD BLOCKS
3.-
Perfiles y modelos de Markov ocultos Los perfiles utilizan la información presente en las regiones conservadas, en los huecos y en las regiones no conservadas. Los modelos de Markov ocultos son modelos probabilísticos que se obtienen a partir de los alineamientos completos Perfiles y modelos de Markov ocultos
Perfiles = Regiones conservadas + no conservadas
Inconvenientes de un perfil
El perfil se genera a partir de un AMS
Matriz de puntuación obtenida a partir de un AMS
El perfil que define el AMS El perfil tiene 23 columnas: 20 AA + z (aa desconocido) + Go + Ge El perfil tiene tantas filas como columnas tiene el AMS local El perfil es un fiel reflejo de las secuencias de partida El problema de las pseudocuentas: si algún AA no aparece en el AMS inicial no quiere decir que no haya alguna secuencia relacionada que sí lo tenga. El perfil que define el AMS
Un perfil de la BD PROSITE
Características de un perfil Profiles Profiles are scoring tables derived from full alignments these define which residues are allowed at given positions which positions are conserved & which degenerate which positions, or regions, can tolerate insertions the scoring system is intricate, & may include evolutionary weights, results from structural studies, & data implicit in the alignment variable penalties are specified to weight against INDELs occurring in core 2' structure elements Within a profile, the I & M fields contain position-specific scores for insert & match positions in conserved regions, INDELs aren't totally forbidden, but are strongly impeded by large penalties defined in the DEFAULT field these are superseded by more permissive values in gapped regions the inherent complexity of profiles renders them highly potent discriminators, but they are time-consuming to derive Características de un perfil
Ventajas e inconvenientes de los perfiles 1.- Localiza homólogos distantes (con poca conservación de la secuencia 2.- Caracteriza la secuencia completa del dominio, no sólo la región más conservada 3.- Son más adecuados para predecir características estructurales de las proteínas Inconvenientes 1.- Son difíciles de construir 2.- Son menos adecuados para la detección de una función biológica determinada Ventajas e inconvenientes de los perfiles
http://prosite.expasy.org/prosite.html La BD PROSITE
PSI-BLAST genera perfiles durante sus búsquedas https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome PSI-BLAST genera perfiles durante sus búsquedas
La herramienta PFSEARCH (SIB) http://myhits.isb-sib.ch/cgi-bin/profile_search La herramienta PFSEARCH (SIB)
Modelos de Markov ocultos
Perfiles basados en modelos de Markov ocultos
Los distintos estados (ocultos) de un perfil HMM Begin End Estados obligatorios que marcan el inicio y el final del modelo (no emiten caracteres) Estados principales (uno por cada columna de la secuencia ancestral). Cada estado tiene unas probabilidades de emisión distintas. Estados de inserción que introducen caracteres en el alineamiento (tiene sus propias probabilidades de emisión ) Estados de eliminación que permiten saltar de una posición del alineamiento a otra (no emiten caracteres) Los distintos estados (ocultos) de un perfil HMM
Un perfil HMM se construye a partir de un AMS Para construir el perfil HMM hay que determinar las probabilidades de emisión de cada estado y las probabilidades de transición de un estado a otro. Estos hay que estimarlos a partir del AMS. Lo ideal es partir de un AMS que incluya entre 20 y 100 secuencias homólogas. Un perfil HMM se construye a partir de un AMS
Main to delete transition Alineamiento de 30 secuencias (dominio SH3) Main to delete transition Begin to delete transition Insert to main transition Main to insert transition Main state (1-6) Insert state Main state (7-14) Cálculo de las probabilidades de emisión y de transición
Ejemplo de un perfil HMM
http://pfam.xfam.org/ La BD Pfam
¿Qué es una familia de proteínas?
Una búsqueda en la BD Pfam http://pfam.xfam.org/search#tabview=tab0 1.- Introduce una secuencia 2.- Averigua si pertenece a alguna familia de proteínas Una búsqueda en la BD Pfam
Los registros de Pfam se clasifican en 6 grupos http://pfam.xfam.org/help Los registros de Pfam se clasifican en 6 grupos
La herramienta HMMER3 (SIB) http://myhits.isb-sib.ch/cgi-bin/hmmer3_search La herramienta HMMER3 (SIB)
La herramienta MOTIF Search http://www.genome.jp/tools/motif/ La herramienta MOTIF Search
La herramienta Motif Scan (SIB) http://myhits.isb-sib.ch/cgi-bin/motif_scan La herramienta Motif Scan (SIB)
¿Tengo que buscar en todas las BD de proteínas?
¿Por qué resulta tan útil InterPro?
El consorcio InterPro (1)
El consorcio InterPro (2)
Tipos de registro en InterPro
Contenidos de la versión 73.0 de InterPro (25-3-2019) La versión más reciente de InterPro es la 73.0. Se hizo pública el 25 de Marzo de 2019. Contenidos de la versión 73.0 de InterPro (25-3-2019)
InterPro permite introducir anotaciones en UniProtKB
Página principal de InterPro http://www.ebi.ac.uk/interpro/ Página principal de InterPro
La herramienta InterProScan Introduce una secuencia para ver si contiene las características de una familia http://www.ebi.ac.uk/interpro/search/sequence-search La herramienta InterProScan
El programa InterProScan