La Bioinformática intenta extraer información útil del AMS

Slides:



Advertisements
Presentaciones similares
The Universal Protein Resource: UniProtKB.
Advertisements

BLAST.
El pretérito The preterite tense is used to talk about actions that occurred in the past. These events occurred and ended at specific times These events.
VOCABULARIO #2.4 ¡Aprenda! Forming Questions Señora Sequin.
Los HMM son modelos probabilísticos de una secuencia
Notes #18 Numbers 31 and higher Standard 1.2
Bases de datos secundarias. Briefings in Bioinformatics 3 (2002):
Objectives To learn some different techniques to help you memorise your ‘Healthy Living’ Written Controlled Assessment. To practise these techniques and.
10.4 Adverbs ANTE TODO  Adverbs are words that describe how, when, and where actions take place.  They can modify verbs, adjectives, and even other adverbs.
To be, or not to be? Let’s start out with one of the most important verbs in Spanish: ser, which means “to be.”
Forming Questions ¡Aprenda! Forming Questions By Patricia Carl October 2013.
Aim: How do scientists use biotechnology to manipulate genomes? Objetivo: ¿Cómo los científicos utilizan biotecnología para manipular genomas?
PROSITE: Guía rápida Dirección URL de PROSITE.
Sra. Schwarz Los verbos tener, hacer, y poner. Sra. Schwarz El verbo tenerEl verbo tener  The verb tener means “to have.”  Tener is a stem-changing.
Infraestructura para integración de sistemas multi-similitud Ismael Sanz.
Graficos ¿Còmo aplicamos los gràficos?. Reto: 7 En muchas ocasiones la información proporcionada en una tabla es tan singulares o importante que se decide.
LecturePLUS Timberlake1 The Atom Atomic Number and Mass Number Isotopes.
¿Cuánto tiempo hace que…? You can ask when something happened in Spanish by using: ¿Cuándo + [preterit verb]…? ¿Cuándo llegaste a la clínica? When did.
Affirmative and Negative Words P. 31 Realidades 2.
Spanish verbs in –er/ir How to conjugate Spanish –er & -ir verbs.
The Preterite Tense Spanish 1 – 6.2.
EQUILIBRIUM OF A PARTICLE IN 2-D Today’s Objectives: Students will be able to : a) Draw a free body diagram (FBD), and, b) Apply equations of equilibrium.
¿Qué son los verbos irregulares?
-go Verbs There is a small but very important group of verbs that we call the “-go” verbs. These verbs are : Hacer: Poner: Salir: Tener: Traer: Venir:
Briefings in Bioinformatics 3 (2002):
PALABRAS NEGATIVAS SAQUEN APUNTES.
To be, or not to be? Let’s start out with one of the most important verbs in Spanish: ser, which means “to be.”
-go Verbs There is a small but very important group of verbs that we call the “-go” verbs. These verbs are: Hacer: to make/do Poner: to put Salir:
¿Qué es GenBank?
To be, or not to be? Let’s start out with one of the most important verbs in Spanish: ser, which means “to be.”
Aim: How do scientists identify people using DNA Fingerprinting
#27- Por and Para.
Notes: La Hora (Time) How do I tell time in Spanish?
Avancemos 3 – Unidad 2 Lección 1
RCM SAE JA 1011 Evaluation Criteria for Reliability-Centered Maintenance (RCM) Processes Criterios de evaluación para los procesos de Mantenimiento Centrado.
Graficos ¿Còmo aplicamos los gràficos?.
ANTE TODO Adverbs are words that describe how, when, and where actions take place. They can modify verbs, adjectives, and even other adverbs. In previous.
¿Qué sabes tocar?.
Base de Datos II Almacenamiento.
Getting to know you more!
First Grade Dual High Frequency Words
More sentences that contain if…
ELECTROMAGNET Gregory Miguel Concuan Motta Ana Belén Guerra Marroquín Brayan Stid Ortiz Sosa.
—Sí, me quiere, de eso estoy seguro.
Warm Up Pass these nouns from singular to plural and use the correct article: - el auto -la moto -el papel -la camiseta -un lápiz -una goma -un uniforme.
Hoy vamos a .. aprender a describir vacaciones con más detalles
Regular verbs in the present tense
Descubre Lesson 2 Vocabulary pg 56
The present tense of ir and jugar
Unlike English, Spanish has two words that mean for: por and para
Quasimodo: Tienes que hacer parte D de la tarea..
Hoy vamos a .. aprender a describir vacaciones con más detalles
Forming questions.
Informacion PIIRS
ANTE TODO Adverbs are words that describe how, when, and where actions take place. They can modify verbs, adjectives, and even other adverbs. In previous.
Hoy vamos a..... escuchar y entender un rap en español
09/29/09 When an adjective clause describes an antecedent that is known to exist, use the indicative. When the antecedent is unknown or uncertain, use.
Demonstrative Adjectives
Quasimodo: Traducir Our mother is hardworking.
—Sí, me quiere, de eso estoy seguro.
Directions (The directions are based on the fact that you would delete this slide before you save it to the student directory. Therefore slide 2 will become.
Fundamentals of Web Development - 2 nd Ed.Randy Connolly and Ricardo Hoar Fundamentals of Web DevelopmentRandy Connolly and Ricardo Hoar © 2017 Pearson.
UNIT 1: The structure of matter: FQ3eso_U1_3: Electron configurations
Development of the concert programme
Unlike English, Spanish has two words that mean for: por and para
Welcome to PowerPoint gdskcgdskfcbskjc. Designer helps you get your point across PowerPoint Designer suggests professional designs for your presentation,
Globalization Politics and the preservation of nation state.
-go Verbs There is a small but very important group of verbs that we call the “-go” verbs. These verbs are: *Caer: Valer: Hacer: Salir: Poner: *Tener:
Transcripción de la presentación:

La Bioinformática intenta extraer información útil del AMS

AMS y logo que representa la secuencia consenso En un alineamiento múltiple se colocan las secuencias de modo que el número de posiciones con residuos idénticos o parecidos sea máximo. Cuanto más separadas estén las secuencias desde el punto de vista evolutivo, más diferencias encontraremos entre ellas AMS y logo que representa la secuencia consenso

Análisis de secuencias proteicas

Las regiones conservadas se almacenan en BD2

Tres tipos de descriptores para definir una familia

Regiones conservadas en un AMS 1.- Single motif methods Fuzzy regex e-MOTIF Exact regex (PROSITE) 3.- Full domain alignment methods Profiles (PROSITE) HMMs (Pfam) Identity matrices (PRINTS) 2.- Multiple motif methods Weight matrices (BLOCKS) Regiones conservadas en un AMS

Tipos de motivos conservados en un AMS y BD2 Motivos (patrones) Patrones difusos Motivos únicos Dominios Reglas Motivos locales conservados Huellas dactilares Motivos múltiples Bloques Perfiles Alineamientos completos Perfiles HMM Tipos de motivos conservados en un AMS y BD2

1.-

Motivos

Motivos (bloques, segmentos, características) Los residuos conservados son idénticos Motivos (bloques, segmentos, características)

Varios motivos conservados en un AMS

Expresiones regulares (regexs)

Patrones (expresiones regulares, secuencias consenso, firmas) Los residuos conservados no son idénticos Patrones (expresiones regulares, secuencias consenso, firmas)

Los patrones permiten definir una familia de proteínas

Motivos únicos → expresiones regulares (patrones) Secuencia consenso, expresión regular o patrón R-W-x2-[GA]-C-x-[QN] Motivos únicos → expresiones regulares (patrones)

Patrones

Patrón = Secuencia consenso = Expresión regular Cómo se obtiene una expresión regular a partir de un AMS

{ } Sintaxis para generar una expresión regular Aminoácidos que pueden ocupar esta posición Cualquier aminoácido puede ocupar las dos posiciones siguientes Aminoácidos conservados { } Cualquier aminoácido puede ocupar esta posición Aminoácidos conservados Aminoácidos que no pueden ocupar esta posición Sintaxis para generar una expresión regular

Características de los patrones Patterns are derived from single conserved regions, which are reduced to consensus expressions for db searches they are minimal expressions, so sequence information is lost the more divergent the sequences used, the more fuzzy & poorly discriminating the pattern becomes Alignment Pattern GAVDFIALCDRYF GPIDFVCFCERFY G-X-[IV]-[DE]-F-[IVL]-X2-C-[DE]-R-[FY]2 GRVEFLNRCDRYY Patterns do not tolerate similarity sequences either match or not, regardless of how similar they are matching is a binary ‘on-off’ event & frequently misses true matches single-motif methods are very hit-or-miss - how do you know if you've encoded the ‘best’ region? Características de los patrones

Criterios de calidad para un patrón

Ventajas e inconvenientes de los patrones

Ventajas e inconvenientes de los patrones 1.- Son fáciles de entender y utilizar por el usuario 2.- Localizan las regiones más conservadas, que suelen estar asociadas a una función biológica 3.- La búsqueda de patrones en bases de datos de proteínas se hace en un periodo de tiempo razonable Inconvenientes 1.- No localiza homólogos distantes, ya que ignora las secuencias que no coinciden por completo con el patrón Ventajas e inconvenientes de los patrones

Why create pattern databases? ¿Para qué crear una BD de patrones? Arise from the need to make more specific functional diagnoses than are possible by just searching the 1's They’re built on the principle that homologous sequences may be gathered into alignments, within which are regions (motifs) that show little variation these usually reflect vital structural or functional roles Motifs are exploited in different ways to build diagnostic patterns for protein families new sequences can be searched against DBs of such patterns to see if they can be assigned to known families hence they offer a fast track to the inference of function ¿Para qué crear una BD de patrones?

http://prosite.expasy.org/ La BD PROSITE

Logo de un patrón almacenado en la BD PROSITE

Patrón almacenado en la BD PROSITE

La herramienta ScanProsite http://prosite.expasy.org/scanprosite Opción 1: Se introduce una secuencia proteica para ver si contiene algún motivo de la BD Opción 2: Se introduce un patrón y se busca en BD de secuencias proteicas aquéllas que lo contienen Opción 3: Se introducen secuencias de proteínas y patrones para ver qué secuencias contienen alguno de esos motivos La herramienta ScanProsite

La herramienta PATTINPROT https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_pattinprot.html La herramienta PATTINPROT

La herramienta Pattern Search http://myhits.isb-sib.ch/cgi-bin/pattern_search La herramienta Pattern Search

La herramienta Peptide Match http://research.bioinformatics.udel.edu/peptidematch/index.jsp La herramienta Peptide Match

La herramienta Peptide Search (UniProt) http://www.uniprot.org/peptidesearch/ La herramienta Peptide Search (UniProt)

Hay que interpretar con cuidado los resultados de una búsqueda

A veces, conviene relajarse

Expresiones regulares difusas (permissive regexs)

Patrones difusos (fuzzy regular expressions) Fuzzy regular expressions are patterns in which alternative residues are tolerated according to a set of prescribed groupings. These groups correspond to various biochemical properties (e.g. charge, size), theoretically ensuring that the resulting motifs have sensible biochemical interpretations. Its permissiveness have the potential to make more true matches, but consequently also make more false ones. Patrones difusos (fuzzy regular expressions)

Cómo se obtiene una expresión regular difusa

Ventajas y desventajas de una expresión regular difusa

La BD IDENTIFY almacena expresiones regulares difusas

En 2001, la BD IDENTIFY pasa a llamarse EMOTIF

La BD EMOTIF (antes IDENTIFY) http://motif.stanford.edu/distributions/emotif/ La BD EMOTIF (antes IDENTIFY)

Contenido del paquete eMOTIF-3.6 Sugiere una familia para tu proteína Genera motivos a partir de un AMS (sin huecos) Busca regexs en BD Contenido del paquete eMOTIF-3.6

Reglas (rules)

Reglas = Patrones cortos (3 ó 4 residuos)

Las reglas suelen corresponder a motivos funcionales

Las reglas deben ser corroboradas experimentalmente

Cuanto más corto sea el motivo y mayor la longitud de la base de datos, más posibilidades habrá de encontrar una coincidencia por pura casualidad. Ejemplos de reglas

En resumen

http://prosite.expasy.org/prorule.html La BD ProRule (ExPASy)

3D domains are compact structural units identified by purely geometric criteria. Dominios

Representación de los dominios en 3D y en 1D

Dominios conservados

CDD: una BD de dominios conservados (NCBI) https://www.ncbi.nlm.nih.gov/cdd CDD: una BD de dominios conservados (NCBI)

https://prosite.expasy.org/ La BD PROSITE

http://smart.embl-heidelberg.de/smart/change_mode.pl La BD SMART

La BD SMART en modo normal In Normal SMART, the database contains Swiss-Prot, SP-TrEMBL and stable Ensembl proteomes. La BD SMART en modo normal

La BD SMART en modo genómico In Genomic SMART, only the proteomes of completely sequenced genomes are used. La BD SMART en modo genómico

http://prodom.prabi.fr/prodom/current/html/home.php La BD ProDom

2.-

signatures, fingerprints Múltiples motivos: huellas dactilares y bloques

Huellas dactilares (fingerprints)

¿Qué es una huella dactilar? PSSMs ¿Qué es una huella dactilar?

FINGERPRINTS Huellas dactilares Most protein families are characterised by >1 motif it is sensible to use them all to build a diagnostic signature This is the principle of fingerprints these offer improved diagnostic reliability by virtue of the biological context provided by motif neighbours Motifs are excised from alignments by hand & encoded as ungapped, unweighted local alignments residue information is augmented via iterative searches sequences matching all motifs that weren't in the original alignment are added to the motifs, & the db searched again The process is repeated until convergence results are manually annotated prior to inclusion in the db Huellas dactilares

AMS matriz de frecuencias  Búsqueda iterativa en BD

A partir de un AMS se crea una matriz de frecuencias 7 9 12 Motivo conservado (sin indels) en un AMS. Este motivo tiene una longitud de 13 residuos y una profundidad 12, ya que son 12 las secuencias alineadas. Las posiciones 7, 9 y 12 están conservadas Se cuentan las veces que aparece cada uno de los 20 aminoácidos en cada columna del alineamiento y se elabora una matriz de frecuencias (PSSM). Se trata de un sistema de puntuación específico de la posición que no está ponderado. A partir de un AMS se crea una matriz de frecuencias

Matriz de frecuencias = PSSM AMS Columnas Matriz de frecuencias = PSSM

Análisis de una secuencia con la matriz de frecuencias (1) Cada bloque de la huella dactilar está definido por una PSSM Se coloca la matriz de frecuencias en la posición 1 de la secuencia analizada La puntuación obtenida es 35 Se desplaza la matriz una posición y se repite la operación Secuencia de la BD explorada en busca de los bloques que componen la huella dactilar Análisis de una secuencia con la matriz de frecuencias (1)

Análisis de una secuencia con la matriz de frecuencias (2) En la posición 4 de la secuencia analizada, la puntuación obtenida es 443 La secuencia resaltada con el fondo en verde corresponde a uno de los bloques que componen la huella dactilar Análisis de una secuencia con la matriz de frecuencias (2)

Análisis de una secuencia con la matriz de frecuencias (3) En la posición 7 de la secuencia analizada, la puntuación obtenida es 73 Análisis de una secuencia con la matriz de frecuencias (3)

Generación y refinado de las huellas dactilares A fingerprinting overview Generación y refinado de las huellas dactilares

PSSM refinada mediante búsquedas iterativas en BD Tabla obtenida a partir de la anterior tras 3 iteraciones Con la matriz de frecuencias inicial se busca en BD de proteínas secuencias que contengan la huella dactilar usando una ventana deslizante de su misma anchura. Las nuevas secuencias encontradas se unen a las iniciales y se modifica la matriz de frecuencias. Se repite el proceso hasta llegar a la convergencia. PSSM refinada mediante búsquedas iterativas en BD

Finalización del proceso (convergencia) End Start Finalización del proceso (convergencia)

http://130.88.97.239/PRINTS/index.php La BD PRINTS

1.- Introduce una secuencia 2.- Busca huellas dactilares http://130.88.97.239/cgi-bin/dbbrowser/fingerPRINTScan/FPScan_fam.cgi 1.- Introduce una secuencia 2.- Busca huellas dactilares La herramienta FPScan

FingerPRINTScan: Resultados en forma de tabla Huellas dactilares que alcanzan la máxima puntuación Pincha aquí para ver el resultado en forma gráfica Las 10 huellas dactilares que alcanzan la máxima puntuación FingerPRINTScan: Resultados en forma de tabla

El tercer mejor resultado FingerPRINTScan: Resultados en forma gráfica El mejor resultado El tercer mejor resultado FingerPRINTScan: Resultados en forma gráfica

La herramienta GRAPHScan http://130.88.97.239/cgi-bin/dbbrowser/fingerPRINTScan/GRAPHScan.cgi 2.- Introduce el código de una huella dactilar 1.- Introduce una secuencia 3.- Go ! La herramienta GRAPHScan

Resultados de GRAPHScan (1) La proteína UR2R_HUMAN contiene la huella dactilar UROTENSIN2R La proteína UR2R_HUMAN NO contiene la huella dactilar SOMATOSTATNR2r Resultados de GRAPHScan (1)

Resultados de GRAPHScan (2) La proteína PRIO_HUMAN contiene la huella dactilar PRION La proteína PRIO_CHICK contiene parte de la huella dactilar PRION Sólo se conservan 4 de los 8 motivos, pero como se encuentran en el mismo orden y a la distancia correcta, el resultado se considera positivo Resultados de GRAPHScan (2)

Bloques = Patrones ponderados

Un bloque detectado en un AMS En un AMS, cuando hay secuencias muy parecidas que pertenecen a organismos muy próximos desde el punto de vista evolutivo, la información está sesgada. Para compensar este efecto, se aplica un sistema de ponderación que reduce el peso relativo de las secuencias muy parecidas y aumenta el de las menos representadas. Un bloque detectado en un AMS

Bloques = Patrones ponderados

La BD BLOCKS ya no se actualiza Parece que el servidor ya no existe http://blocks.fhcrc.org/ Parece que el servidor ya no existe La BD BLOCKS

3.-

Perfiles y modelos de Markov ocultos Los perfiles utilizan la información presente en las regiones conservadas, en los huecos y en las regiones no conservadas. Los modelos de Markov ocultos son modelos probabilísticos que se obtienen a partir de los alineamientos completos Perfiles y modelos de Markov ocultos

Perfiles = Regiones conservadas + no conservadas

Inconvenientes de un perfil

El perfil se genera a partir de un AMS

Matriz de puntuación obtenida a partir de un AMS

El perfil que define el AMS El perfil tiene 23 columnas: 20 AA + z (aa desconocido) + Go + Ge El perfil tiene tantas filas como columnas tiene el AMS local El perfil es un fiel reflejo de las secuencias de partida El problema de las pseudocuentas: si algún AA no aparece en el AMS inicial no quiere decir que no haya alguna secuencia relacionada que sí lo tenga. El perfil que define el AMS

Un perfil de la BD PROSITE

Características de un perfil Profiles Profiles are scoring tables derived from full alignments these define which residues are allowed at given positions which positions are conserved & which degenerate which positions, or regions, can tolerate insertions the scoring system is intricate, & may include evolutionary weights, results from structural studies, & data implicit in the alignment variable penalties are specified to weight against INDELs occurring in core 2' structure elements Within a profile, the I & M fields contain position-specific scores for insert & match positions in conserved regions, INDELs aren't totally forbidden, but are strongly impeded by large penalties defined in the DEFAULT field these are superseded by more permissive values in gapped regions the inherent complexity of profiles renders them highly potent discriminators, but they are time-consuming to derive Características de un perfil

Ventajas e inconvenientes de los perfiles 1.- Localiza homólogos distantes (con poca conservación de la secuencia 2.- Caracteriza la secuencia completa del dominio, no sólo la región más conservada 3.- Son más adecuados para predecir características estructurales de las proteínas Inconvenientes 1.- Son difíciles de construir 2.- Son menos adecuados para la detección de una función biológica determinada Ventajas e inconvenientes de los perfiles

http://prosite.expasy.org/prosite.html La BD PROSITE

PSI-BLAST genera perfiles durante sus búsquedas https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome PSI-BLAST genera perfiles durante sus búsquedas

La herramienta PFSEARCH (SIB) http://myhits.isb-sib.ch/cgi-bin/profile_search La herramienta PFSEARCH (SIB)

Modelos de Markov ocultos

Perfiles basados en modelos de Markov ocultos

Los distintos estados (ocultos) de un perfil HMM Begin End Estados obligatorios que marcan el inicio y el final del modelo (no emiten caracteres) Estados principales (uno por cada columna de la secuencia ancestral). Cada estado tiene unas probabilidades de emisión distintas. Estados de inserción que introducen caracteres en el alineamiento (tiene sus propias probabilidades de emisión ) Estados de eliminación que permiten saltar de una posición del alineamiento a otra (no emiten caracteres) Los distintos estados (ocultos) de un perfil HMM

Un perfil HMM se construye a partir de un AMS Para construir el perfil HMM hay que determinar las probabilidades de emisión de cada estado y las probabilidades de transición de un estado a otro. Estos hay que estimarlos a partir del AMS. Lo ideal es partir de un AMS que incluya entre 20 y 100 secuencias homólogas. Un perfil HMM se construye a partir de un AMS

Main to delete transition Alineamiento de 30 secuencias (dominio SH3) Main to delete transition Begin to delete transition Insert to main transition Main to insert transition Main state (1-6) Insert state Main state (7-14) Cálculo de las probabilidades de emisión y de transición

Ejemplo de un perfil HMM

http://pfam.xfam.org/ La BD Pfam

¿Qué es una familia de proteínas?

Una búsqueda en la BD Pfam http://pfam.xfam.org/search#tabview=tab0 1.- Introduce una secuencia 2.- Averigua si pertenece a alguna familia de proteínas Una búsqueda en la BD Pfam

Los registros de Pfam se clasifican en 6 grupos http://pfam.xfam.org/help Los registros de Pfam se clasifican en 6 grupos

La herramienta HMMER3 (SIB) http://myhits.isb-sib.ch/cgi-bin/hmmer3_search La herramienta HMMER3 (SIB)

La herramienta MOTIF Search http://www.genome.jp/tools/motif/ La herramienta MOTIF Search

La herramienta Motif Scan (SIB) http://myhits.isb-sib.ch/cgi-bin/motif_scan La herramienta Motif Scan (SIB)

¿Tengo que buscar en todas las BD de proteínas?

¿Por qué resulta tan útil InterPro?

El consorcio InterPro (1)

El consorcio InterPro (2)

Tipos de registro en InterPro

Contenidos de la versión 73.0 de InterPro (25-3-2019) La versión más reciente de InterPro es la 73.0. Se hizo pública el 25 de Marzo de 2019. Contenidos de la versión 73.0 de InterPro (25-3-2019)

InterPro permite introducir anotaciones en UniProtKB

Página principal de InterPro http://www.ebi.ac.uk/interpro/ Página principal de InterPro

La herramienta InterProScan Introduce una secuencia para ver si contiene las características de una familia http://www.ebi.ac.uk/interpro/search/sequence-search La herramienta InterProScan

El programa InterProScan