Alineamiento local: búsqueda de homologías

Slides:



Advertisements
Presentaciones similares
Diseño y análisis de algoritmos
Advertisements

Diseño de Circuitos Lógicos Secuenciales1
PSI-BLAST.
BLAST.
Búsqueda en bases de datos
PRINCIPIOS DE MODELADO POR HOMOLOGÍA
Técnicas de conteo En algunos experimentos pueden aparecer un número muy grande de resultados que dificultan la contabilización directa de los mismos.
Rolando Belardinelli, Sergio Manzi y Víctor Pereyra
Generación de Números y Variable aleatorias
Encuentra las 12 diferencias
Tests de permutaciones y tests de aleatorización
Junta de Trabajo- TACIB A 15 de Mayo del ¡Muchas felicidades a todos!
Using Localised “Gossip” to Structure Distributed Learning Bruce Edmonds Centre for Policy Modelling Manchester Metropolitan University.
El sistema de puntuación
International Nucleotide Sequence Database Collaboration
La PD no es adecuada para buscar en BD
MEDICAMENTOS GENERICOS
Matrices Es una estructura homogénea, compuesta por varios elementos, todos del mismo tipo y almacenados consecutivamente en memoria A cada elemento se.
@ Angel Prieto BenitoMatemáticas 2º Bachillerato CS1 TIPOS DE ERRORES Tema 14.4 * 2º BCS.
1 Planteamiento del problema ¿Tenemos los humanos la capacidad de percibir si nos miran desde atrás? O, más exactamente: ¿Es defendible que existen otras.
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
Bayesian Inference of Phylogeny
Overview Sistemas Computacionales
Repaso del capítulo 1-B el coro la cantanteel cantante la banda la orquesta el músico la música.
Ejemplos de Espacios de Probabilidad
Matrices de Substitución PAM Y BLOSUM
Unidad V: Estimación de
TEMA 15 * CONTRASTES DE HIPÓTESIS
Seguridad y encriptación
Estadística Administrativa I Período Distribuciones de probabilidad 1.
SABER AND CONOCER Both mean to know. Irregular in the first person yo. Saber: sé Conocer: conozco Saber: *To express knowledge of facts or pieces of information.
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Alineamiento de dos secuencias
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Estadística Administrativa I Período Distribuciones discretas de probabilidad 1.
Predicción de Estructura 3D de Proteínas Reconocimiento de Plegamiento (threading) Florencio Pazos ALMA Bioinformatics, S. L.
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Análisis y Diseño de Algoritmos
ALINEAMIENTOS SIMPLE Y MÚLTIPLE Juan José Nieto Lunes, 11 de Julio de 2005.
Algoritmos para alineamientos locales: FastA
Matrices de sustitución
Alex Sánchez Introducción a la Bioinformática Herramientas de búsqueda en bases de datos SRS y Entrez.
Redes de Acceso Compartido o Común (Parte II)
TRANSCRIPTOMICA & PROTEOMICA
Arboles B (búsqueda externa)
CONTACTO: Medellín Cel
Bases de datos secundarias. Briefings in Bioinformatics 3 (2002):
Un buscador es una página de internet que permite realizar búsquedas en la red. Su forma de utilización es muy sencilla, basta con introducir una o más.
Hidden Markov Models Angélica Minaya Francesca Barletta Jeanette Velásquez Mónica Pajuelo Daniel Rueda.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
LOS QUEHACERES DE JORGE
Evaluación de impacto ambiental Clase 5b. Precios de transferencia I. Qué es “transfer pricing”? II. Criterios para que la transferencia sea “válida” III.
Hidden Markov Models Angélica Minaya Francesca Barleta Jeanette velásquez Mónica Pajuelo Daniel Rueda.
Victoria Alejandra Montoya Expositora
Introducción a la Bioinformática
Tomando decisiones sobre las unidades de análisis
Principio aditivo o de adición o regla de suma
Distribuciones de Probabilidad
© Copyright Ebiointel,SL 2006 Alineamiento de secuencias:
DIALIGN DIagonal ALIGNments Marcelo Piriz Daiana Mir.
Tema 3: El azar también se distribuye Una distribución: la binomial Imagen de Freddy The Boy bajo licencia Creative CommonsFreddy The Boy.
© Copyright Ebiointel,SL 2006 Motores Sequence Retrieval System Motores de búsqueda.
Concepto de Probabilidad
El subjuntivo en cláusulas adjetivas. A veces usamos una cláusula para describir un sustantivo. (es una cláusula adjetiva) Usamos el indicativo cuando.
Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio.
Lic. María Isabel Fonseca PROTEÍNAS. Lic. María Isabel Fonseca PROTEÍNAS Niveles estructurales.
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
Teoría de la Generalizabilidad
Transcripción de la presentación:

Alineamiento local: búsqueda de homologías Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

TACAGCAGATAGCAGCCATAGCCGCATACGTCGCGACTAC… O bien de un oligopéptido: Supongamos que el material de partida para realizar una búsqueda de homologías no es un gen o una proteína completos y bien caracterizados de los que podamos usar una clave de acceso o una palabra clave, sino que solo disponemos de un oligonucleótido: TACAGCAGATAGCAGCCATAGCCGCATACGTCGCGACTAC… O bien de un oligopéptido: PTWRVPGRMEKWHALVKYLKYRTKDLEEVR… ¿Cómo saber entonces si existe algún gen o proteína similar a ellos en la base de datos? Para responder a esto, necesitamos hacer un ‘rastreo’ de la base de datos. Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

El alineamiento completo (global) de dos secuencias (Smith-Waterman) es muy preciso y garantiza obtener el alineamiento óptimo. Pero ese algoritmo es muy lento. El tiempo de cálculo es proporcional al producto de las longitudes de las dos secuencias que se quieren alinear (o al producto de la longitud de nuestra secuencia problema y la de todas las secuencias de la base de datos). Por el contrario, los algoritmos de alineamiento local son mucho más rápidos. Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Alineamiento local Se localizan todas las subsecuencias similares entre las dos secuencias: Query: 181 acgatagcagatagcgcatagcgactagcgactgcagctacgcagcatagcagcagcaga 240 |||||| ||| ||||| Sbjct: 189 tgagctagagatagctacgacgcatcagcgatagcagctaggcagctgcagcgactagca 247 El alineamiento se trata de extender en los dos sentidos mediante alineamiento global: Query: 181 acgatagcagatagcgcatagcgactagcgactgcagctacgcagcatagcagcagcaga 240 |||||| ||| ||||| Sbjct: 189 tgagctagagatagctacgacgcatcagcgatagcagctaggcagctgcagcgactagca 247 Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Puntuación de un alineamiento Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Puntuación de un alineamiento (ejemplo) AACGTTTCCAGTCCAAATAGCTAGGC |||**||| |*|||*||*|||||| AACCGTTC---TACAATTACCTAGGC | Emparejamientos (+1): 18 * Desemparejamientos (-2): 5 - Huecos (existencia-2, extension -1): 1 de longitud 3 Puntuación = [18 * 1] + [5 * (-2)] + [(– 2) + 2*(-1)] = 4 Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Significación estadística de un alineamiento: Test de randomización Se alinean las dos proteínas y se obtiene una puntuación real para el alineamiento obtenido: RBP: 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 84 + K++ + + +GTW++MA + L + A V T + +L+ W+ glycodelin: 23 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEIVLHRWEN 81 Se randomiza la segunda secuencia 100 veces, permutando al azar (‘shuffling’) las posiciones que ocupan los aminoácidos (manteniendo por tanto la longitud de la secuencia y la composición de aminoácidos) Se alinea cada secuencia randomizada con la primera secuencia y se obtienen 100, 1.000, 10.000… puntuaciones ‘aleatorias’ Cabe esperar que la puntuación real sea mucho mas grande que las puntuaciones ‘aleatorias’ Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

A randomization test shows that RBP is significantly related to b-lactoglobulin 100 random shuffles Mean score = 8.4 Std. dev. = 4.5 Number of instances Real comparison Score = 37 Quality score Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Alineamiento local: FASTA Fast Algorithm Pearson & Lipman, 1988 Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Valor E: probabilidad de que la similitud encontrada se deba al azar Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Valor P y valor E Valor P: Probabilidad de que un suceso ocurra por azar. En el contexto del alineamiento de secuencias, el valor P asociado a una determinada puntuación S de un alineamiento es la probabilidad de obtener por azar una puntuación al menos tan alta como S. Valor E (expectation value): Corrección del valor P para ensayos múltiples. En el contexto del alineamiento de secuencias, el valor E asociado a una puntuación S es la proporción de alineamientos obtenidos por azar en un rastreo de la base de datos con puntuaciones al menos tan buenas como S. Cuanto más bajo el valor E, más significativa es la puntuación obtenida para un alineamiento. Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Alineamiento local: BLAST Basic Local Alignment Search Tool Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Valor E: probabilidad de que la similitud encontrada se deba al azar Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/

Scan a protein or DNA sequence library for similar sequences. fasta Program Name Description Abbreviation FASTA Scan a protein or DNA sequence library for similar sequences. fasta FASTX Compare a DNA sequence to a protein sequence database, comparing the translated DNA sequence in forward and reverse frames. fastx FASTY fasty SSEARCH Compare a protein or DNA sequence to a sequence database using the Smith-Waterman algorithm. ssearch GGSEARCH Compare a protein or DNA sequence to a sequence database using a global alignment (Needleman-Wunsch) ggsearch GLSEARCH Compare a protein or DNA sequence to a sequence database with alignments that are global in the query and local in the database sequence (global-local). glsearch Prof. Dr. José L. Oliver http://bioinfo2.ugr.es/oliver/