La Bioinformática intenta extraer información útil del AMS

La Bioinformática intenta extraer información útil del AMS

AMS y logo que representa la secuencia consenso
En un alineamiento múltiple se colocan las secuencias de modo que el número de posiciones con residuos idénticos o parecidos sea máximo. Cuanto más separadas estén las secuencias desde el punto de vista evolutivo, más diferencias encontraremos entre ellas AMS y logo que representa la secuencia consenso

Análisis de secuencias proteicas

Las regiones conservadas se almacenan en BD2

Tres tipos de descriptores para definir una familia

Regiones conservadas en un AMS
1.- Single motif methods Fuzzy regex e-MOTIF Exact regex (PROSITE) 3.- Full domain alignment methods Profiles (PROSITE) HMMs (Pfam) Identity matrices (PRINTS) 2.- Multiple motif methods Weight matrices (BLOCKS) Regiones conservadas en un AMS

Tipos de motivos conservados en un AMS y BD2
Motivos (patrones) Patrones difusos Motivos únicos Dominios Reglas Motivos locales conservados Huellas dactilares Motivos múltiples Bloques Perfiles Alineamientos completos Perfiles HMM Tipos de motivos conservados en un AMS y BD2

Motivos

Motivos (bloques, segmentos, características)
Los residuos conservados son idénticos Motivos (bloques, segmentos, características)

Varios motivos conservados en un AMS

Expresiones regulares (regexs)

Patrones (expresiones regulares, secuencias consenso, firmas)
Los residuos conservados no son idénticos Patrones (expresiones regulares, secuencias consenso, firmas)

Los patrones permiten definir una familia de proteínas

Motivos únicos → expresiones regulares (patrones)
Secuencia consenso, expresión regular o patrón R-W-x2-[GA]-C-x-[QN] Motivos únicos → expresiones regulares (patrones)

Patrones

Patrón = Secuencia consenso = Expresión regular
Cómo se obtiene una expresión regular a partir de un AMS

{ } Sintaxis para generar una expresión regular
Aminoácidos que pueden ocupar esta posición Cualquier aminoácido puede ocupar las dos posiciones siguientes Aminoácidos conservados { } Cualquier aminoácido puede ocupar esta posición Aminoácidos conservados Aminoácidos que no pueden ocupar esta posición Sintaxis para generar una expresión regular

Características de los patrones
Patterns are derived from single conserved regions, which are reduced to consensus expressions for db searches they are minimal expressions, so sequence information is lost the more divergent the sequences used, the more fuzzy & poorly discriminating the pattern becomes Alignment Pattern GAVDFIALCDRYF GPIDFVCFCERFY G-X-[IV]-[DE]-F-[IVL]-X2-C-[DE]-R-[FY]2 GRVEFLNRCDRYY Patterns do not tolerate similarity sequences either match or not, regardless of how similar they are matching is a binary ‘on-off’ event & frequently misses true matches single-motif methods are very hit-or-miss - how do you know if you've encoded the ‘best’ region? Características de los patrones

Criterios de calidad para un patrón

Ventajas e inconvenientes de los patrones

Ventajas e inconvenientes de los patrones
1.- Son fáciles de entender y utilizar por el usuario 2.- Localizan las regiones más conservadas, que suelen estar asociadas a una función biológica 3.- La búsqueda de patrones en bases de datos de proteínas se hace en un periodo de tiempo razonable Inconvenientes 1.- No localiza homólogos distantes, ya que ignora las secuencias que no coinciden por completo con el patrón Ventajas e inconvenientes de los patrones

Why create pattern databases? ¿Para qué crear una BD de patrones?
Arise from the need to make more specific functional diagnoses than are possible by just searching the 1's They’re built on the principle that homologous sequences may be gathered into alignments, within which are regions (motifs) that show little variation these usually reflect vital structural or functional roles Motifs are exploited in different ways to build diagnostic patterns for protein families new sequences can be searched against DBs of such patterns to see if they can be assigned to known families hence they offer a fast track to the inference of function ¿Para qué crear una BD de patrones?

La BD PROSITE

Logo de un patrón almacenado en la BD PROSITE

Patrón almacenado en la BD PROSITE

La herramienta ScanProsite
Opción 1: Se introduce una secuencia proteica para ver si contiene algún motivo de la BD Opción 2: Se introduce un patrón y se busca en BD de secuencias proteicas aquéllas que lo contienen Opción 3: Se introducen secuencias de proteínas y patrones para ver qué secuencias contienen alguno de esos motivos La herramienta ScanProsite

La herramienta PATTINPROT
La herramienta PATTINPROT

La herramienta Pattern Search
La herramienta Pattern Search

La herramienta Peptide Match
La herramienta Peptide Match

La herramienta Peptide Search (UniProt)
La herramienta Peptide Search (UniProt)

Hay que interpretar con cuidado los resultados de una búsqueda

A veces, conviene relajarse

Expresiones regulares difusas (permissive regexs)

Patrones difusos (fuzzy regular expressions)
Fuzzy regular expressions are patterns in which alternative residues are tolerated according to a set of prescribed groupings. These groups correspond to various biochemical properties (e.g. charge, size), theoretically ensuring that the resulting motifs have sensible biochemical interpretations. Its permissiveness have the potential to make more true matches, but consequently also make more false ones. Patrones difusos (fuzzy regular expressions)

Cómo se obtiene una expresión regular difusa

Ventajas y desventajas de una expresión regular difusa

La BD IDENTIFY almacena expresiones regulares difusas

En 2001, la BD IDENTIFY pasa a llamarse EMOTIF

La BD EMOTIF (antes IDENTIFY)
La BD EMOTIF (antes IDENTIFY)

Contenido del paquete eMOTIF-3.6
Sugiere una familia para tu proteína Genera motivos a partir de un AMS (sin huecos) Busca regexs en BD Contenido del paquete eMOTIF-3.6

Reglas (rules)

Reglas = Patrones cortos (3 ó 4 residuos)

Las reglas suelen corresponder a motivos funcionales

Las reglas deben ser corroboradas experimentalmente

Cuanto más corto sea el motivo y mayor la longitud de la base de datos, más posibilidades habrá de encontrar una coincidencia por pura casualidad. Ejemplos de reglas

En resumen

La BD ProRule (ExPASy)

3D domains are compact structural units identified by purely geometric criteria.
Dominios

Representación de los dominios en 3D y en 1D

Dominios conservados

CDD: una BD de dominios conservados (NCBI)
CDD: una BD de dominios conservados (NCBI)

https://prosite.expasy.org/
La BD PROSITE

La BD SMART

La BD SMART en modo normal
In Normal SMART, the database contains Swiss-Prot, SP-TrEMBL and stable Ensembl proteomes. La BD SMART en modo normal

La BD SMART en modo genómico
In Genomic SMART, only the proteomes of completely sequenced genomes are used. La BD SMART en modo genómico

La BD ProDom

signatures, fingerprints
Múltiples motivos: huellas dactilares y bloques

Huellas dactilares (fingerprints)

¿Qué es una huella dactilar?
PSSMs ¿Qué es una huella dactilar?

FINGERPRINTS Huellas dactilares
Most protein families are characterised by >1 motif it is sensible to use them all to build a diagnostic signature This is the principle of fingerprints these offer improved diagnostic reliability by virtue of the biological context provided by motif neighbours Motifs are excised from alignments by hand & encoded as ungapped, unweighted local alignments residue information is augmented via iterative searches sequences matching all motifs that weren't in the original alignment are added to the motifs, & the db searched again The process is repeated until convergence results are manually annotated prior to inclusion in the db Huellas dactilares

AMS matriz de frecuencias  Búsqueda iterativa en BD

A partir de un AMS se crea una matriz de frecuencias
7 9 12 Motivo conservado (sin indels) en un AMS. Este motivo tiene una longitud de 13 residuos y una profundidad 12, ya que son 12 las secuencias alineadas. Las posiciones 7, 9 y 12 están conservadas Se cuentan las veces que aparece cada uno de los 20 aminoácidos en cada columna del alineamiento y se elabora una matriz de frecuencias (PSSM). Se trata de un sistema de puntuación específico de la posición que no está ponderado. A partir de un AMS se crea una matriz de frecuencias

Matriz de frecuencias = PSSM
AMS Columnas Matriz de frecuencias = PSSM

Análisis de una secuencia con la matriz de frecuencias (1)
Cada bloque de la huella dactilar está definido por una PSSM Se coloca la matriz de frecuencias en la posición 1 de la secuencia analizada La puntuación obtenida es 35 Se desplaza la matriz una posición y se repite la operación Secuencia de la BD explorada en busca de los bloques que componen la huella dactilar Análisis de una secuencia con la matriz de frecuencias (1)

En la posición 4 de la secuencia analizada, la puntuación obtenida es 443 La secuencia resaltada con el fondo en verde corresponde a uno de los bloques que componen la huella dactilar Análisis de una secuencia con la matriz de frecuencias (2)

En la posición 7 de la secuencia analizada, la puntuación obtenida es 73 Análisis de una secuencia con la matriz de frecuencias (3)

Generación y refinado de las huellas dactilares
A fingerprinting overview Generación y refinado de las huellas dactilares

PSSM refinada mediante búsquedas iterativas en BD
Tabla obtenida a partir de la anterior tras 3 iteraciones Con la matriz de frecuencias inicial se busca en BD de proteínas secuencias que contengan la huella dactilar usando una ventana deslizante de su misma anchura. Las nuevas secuencias encontradas se unen a las iniciales y se modifica la matriz de frecuencias. Se repite el proceso hasta llegar a la convergencia. PSSM refinada mediante búsquedas iterativas en BD

Finalización del proceso (convergencia)
End Start Finalización del proceso (convergencia)

La BD PRINTS

1.- Introduce una secuencia 2.- Busca huellas dactilares
1.- Introduce una secuencia 2.- Busca huellas dactilares La herramienta FPScan

FingerPRINTScan: Resultados en forma de tabla
Huellas dactilares que alcanzan la máxima puntuación Pincha aquí para ver el resultado en forma gráfica Las 10 huellas dactilares que alcanzan la máxima puntuación FingerPRINTScan: Resultados en forma de tabla

El tercer mejor resultado FingerPRINTScan: Resultados en forma gráfica
El mejor resultado El tercer mejor resultado FingerPRINTScan: Resultados en forma gráfica

La herramienta GRAPHScan
2.- Introduce el código de una huella dactilar 1.- Introduce una secuencia 3.- Go ! La herramienta GRAPHScan

Resultados de GRAPHScan (1)
La proteína UR2R_HUMAN contiene la huella dactilar UROTENSIN2R La proteína UR2R_HUMAN NO contiene la huella dactilar SOMATOSTATNR2r Resultados de GRAPHScan (1)

Resultados de GRAPHScan (2)
La proteína PRIO_HUMAN contiene la huella dactilar PRION La proteína PRIO_CHICK contiene parte de la huella dactilar PRION Sólo se conservan 4 de los 8 motivos, pero como se encuentran en el mismo orden y a la distancia correcta, el resultado se considera positivo Resultados de GRAPHScan (2)

Bloques = Patrones ponderados

Un bloque detectado en un AMS
En un AMS, cuando hay secuencias muy parecidas que pertenecen a organismos muy próximos desde el punto de vista evolutivo, la información está sesgada. Para compensar este efecto, se aplica un sistema de ponderación que reduce el peso relativo de las secuencias muy parecidas y aumenta el de las menos representadas. Un bloque detectado en un AMS

Bloques = Patrones ponderados

La BD BLOCKS ya no se actualiza Parece que el servidor ya no existe
Parece que el servidor ya no existe La BD BLOCKS

Perfiles y modelos de Markov ocultos
Los perfiles utilizan la información presente en las regiones conservadas, en los huecos y en las regiones no conservadas. Los modelos de Markov ocultos son modelos probabilísticos que se obtienen a partir de los alineamientos completos Perfiles y modelos de Markov ocultos

Perfiles = Regiones conservadas + no conservadas

Inconvenientes de un perfil

El perfil se genera a partir de un AMS

Matriz de puntuación obtenida a partir de un AMS

El perfil que define el AMS
El perfil tiene 23 columnas: 20 AA + z (aa desconocido) + Go + Ge El perfil tiene tantas filas como columnas tiene el AMS local El perfil es un fiel reflejo de las secuencias de partida El problema de las pseudocuentas: si algún AA no aparece en el AMS inicial no quiere decir que no haya alguna secuencia relacionada que sí lo tenga. El perfil que define el AMS

Un perfil de la BD PROSITE

Características de un perfil
Profiles Profiles are scoring tables derived from full alignments these define which residues are allowed at given positions which positions are conserved & which degenerate which positions, or regions, can tolerate insertions the scoring system is intricate, & may include evolutionary weights, results from structural studies, & data implicit in the alignment variable penalties are specified to weight against INDELs occurring in core 2' structure elements Within a profile, the I & M fields contain position-specific scores for insert & match positions in conserved regions, INDELs aren't totally forbidden, but are strongly impeded by large penalties defined in the DEFAULT field these are superseded by more permissive values in gapped regions the inherent complexity of profiles renders them highly potent discriminators, but they are time-consuming to derive Características de un perfil

Ventajas e inconvenientes de los perfiles
1.- Localiza homólogos distantes (con poca conservación de la secuencia 2.- Caracteriza la secuencia completa del dominio, no sólo la región más conservada 3.- Son más adecuados para predecir características estructurales de las proteínas Inconvenientes 1.- Son difíciles de construir 2.- Son menos adecuados para la detección de una función biológica determinada Ventajas e inconvenientes de los perfiles

La BD PROSITE

PSI-BLAST genera perfiles durante sus búsquedas
PSI-BLAST genera perfiles durante sus búsquedas

La herramienta PFSEARCH (SIB)
La herramienta PFSEARCH (SIB)

Modelos de Markov ocultos

Perfiles basados en modelos de Markov ocultos

Los distintos estados (ocultos) de un perfil HMM
Begin End Estados obligatorios que marcan el inicio y el final del modelo (no emiten caracteres) Estados principales (uno por cada columna de la secuencia ancestral). Cada estado tiene unas probabilidades de emisión distintas. Estados de inserción que introducen caracteres en el alineamiento (tiene sus propias probabilidades de emisión ) Estados de eliminación que permiten saltar de una posición del alineamiento a otra (no emiten caracteres) Los distintos estados (ocultos) de un perfil HMM

Un perfil HMM se construye a partir de un AMS
Para construir el perfil HMM hay que determinar las probabilidades de emisión de cada estado y las probabilidades de transición de un estado a otro. Estos hay que estimarlos a partir del AMS. Lo ideal es partir de un AMS que incluya entre 20 y 100 secuencias homólogas. Un perfil HMM se construye a partir de un AMS

Main to delete transition
Alineamiento de 30 secuencias (dominio SH3) Main to delete transition Begin to delete transition Insert to main transition Main to insert transition Main state (1-6) Insert state Main state (7-14) Cálculo de las probabilidades de emisión y de transición

Ejemplo de un perfil HMM

La BD Pfam

¿Qué es una familia de proteínas?

Una búsqueda en la BD Pfam
1.- Introduce una secuencia 2.- Averigua si pertenece a alguna familia de proteínas Una búsqueda en la BD Pfam

Los registros de Pfam se clasifican en 6 grupos
Los registros de Pfam se clasifican en 6 grupos

La herramienta HMMER3 (SIB)
La herramienta HMMER3 (SIB)

La herramienta MOTIF Search
La herramienta MOTIF Search

La herramienta Motif Scan (SIB)
La herramienta Motif Scan (SIB)

¿Tengo que buscar en todas las BD de proteínas?

¿Por qué resulta tan útil InterPro?

El consorcio InterPro (1)

El consorcio InterPro (2)

Tipos de registro en InterPro

Contenidos de la versión 73.0 de InterPro (25-3-2019)
La versión más reciente de InterPro es la Se hizo pública el 25 de Marzo de 2019. Contenidos de la versión 73.0 de InterPro ( )

InterPro permite introducir anotaciones en UniProtKB

Página principal de InterPro
Página principal de InterPro

La herramienta InterProScan
Introduce una secuencia para ver si contiene las características de una familia La herramienta InterProScan

El programa InterProScan

La Bioinformática intenta extraer información útil del AMS

Presentaciones similares

Presentación del tema: "La Bioinformática intenta extraer información útil del AMS"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

La Bioinformática intenta extraer información útil del AMS

Presentaciones similares

Presentación del tema: "La Bioinformática intenta extraer información útil del AMS"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback