La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio.

Presentaciones similares


Presentación del tema: "Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio."— Transcripción de la presentación:

1 Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio de Biotecnología Molecular. Facultad de Ciencias Exactas, Químicas y Naturales. Universidad Nacional de Misiones.

2 Introducción a la Bioinformática Podemos definir la bioinformática como la rama de la biología molecular computacional. Sólo dos maneras de llevar a cabo experimentos biológicos estaban disponibles: dentro de un organismo vivo (in vivo) o en un ambiente artificial (in vitro). Tomando la analogía más lejos, podemos decir que la bioinformática en la biología es in silico, de los chips de silicio en el que se construyen los microprocesadores. Lic. María Mercedes Tiscornia

3 La bioinformática se centra en el análisis automatizado de grandes volúmenes de información de procesos biológicos. ¿Si nuestro genoma no es mayor que el de una planta? ¿por qué somos tan diferentes? El reto consiste en descifrar cómo funciona esa diferenciación ¿Cómo funciona el ADN si con los mismos ingredientes fabrica cosas tan distintas? Es ahí donde entra la Informática. Almacenando esa información y procesándola de forma masiva. Todos los seres vivos están formados por células. Las células procariotas no tienen núcleo y las eucariotas sí.

4 Análisis de secuencias de ADN: Estructura génica y secuencia de ADN. El ADN se encuentra en el núcleo (en eucariotas) o en el citoplasma (en procariotas) y es la molécula que contiene toda la información genética necesaria para construir un organismo y para que éste funcione como lo hace.

5 Estructura del gen

6 Dogma central de la biología molecular

7 Estructura de ADN: Modelo descubierto por Watson y Crick. Las cadenas están formadas por unos componentes llamados nucleótidos. Una secuencia de ADN puede definirse como la sucesión de sus nucleótidos, ordenadas de los 5‘- al 3'-terminal. Existen 4 tipos de nucleótidos. La Adenina (A) siempre empareja con la Timina (T). La Citosina (C) establece enlaces con la Guanina (G). Las uniones A-T están formadas por dos enlaces de puentes de hidrógeno y las C-G por tres.

8 CÓDIGOS OFICIALES DE IUB - IUPAC, DE LA UNIÓN INTERNACIONAL DE QUÍMICA PURA Y APLICADA. La tabla muestra sólo los de uso más frecuente. La mayoría de los símbolos más comunes usado para las secuencias de nucleótidos de ADN Letra de nucleótidoCategoría del CódigoNombre APurinaAdenina CPirimidinaCitosina GPurinaGuanina TPirimidinaTimina X/N Cualquier nucleótidoG o A o C o T RPurinaA o G YPirimidinaC o T -Ninguno----- (gap) WPurina y pirimidinaA o T SPurina y pirimidinaC o G KPurina y pirimidinaG o T VPurina y pirimidinaA o C o G HPurina y pirimidinaA o C o T DPurina y pirimidinaC o G o T

9 PARA OBTENER LAS SECUENCIAS NUCLEOTÍDICAS A PARTIR DE UN FRAGMENTO OBTENIDO DE UNA MUESTRA TENEMOS QUE SECUENCIAR.

10 Para tener en cuenta Esta estructura de doble cadena de ADN hace que la definición de una secuencia de ADN ambigua: Incluso con nuestra convención de la lectura de los nucleótidos del extremo 5 ‘ terminal hacia el extremo 3 ', usted puede decidir escribir la parte inferior o superior al secuenciar. Convénzase de que los dos son igualmente válidas por secuencias convirtiéndose este libro al revés! Así, en cada lugar, una molécula de ADN se corresponde a dos - totalmente diferente - secuencias, relacionados por este revés – secuencia complementaria. Afortunadamente, la mayoría de los programas de minería de base de datos, tales como BLAST, sabe de esta propiedad, y tiene en cuenta las dos vertientes a la hora de informar sus resultados. Pero algunos programas no se toman la molestia - y sólo analizar la secuencia que les dio.

11 ADN y ARN ADN (ácido desoxirribonucleico) es el miembro más digno de la familia de macromoléculas de ácido nucleico. Su única tarea es garantizar - para siempre – la conservación de la información genética para su organismo. Por lo tanto, es muy estable y resistente, y se encuentra bien protegido en el núcleo de cada célula. Ácido ribonucleico (ARN) es un miembro mucho más activo de la familia de los ácidos nucleicos, es sintetizado y degradado constantemente ya que hace copias de los genes a disposición de la de células de fábrica. En el contexto de la bioinformática, sólo hay dos diferencias importantes entre el ARN y el ADN: - ARN difiere del ADN por un nucleótido. - ARN se presenta como una sola cadena, no una hélice.

12 Bases de Datos Biológicas

13 Bases de datos de secuencias de ADN EMBL: la base de datos de secuencias nucleotídicas del European Bioinformatics Institute (EBI), incluye secuencias enviadas directamente por los autores y por grupos de secuenciación del genoma, como de la literatura científica y las solicitudes de patentes. La base de datos se produce en colaboración con DDBJ y GenBank. GenBank: la base de datos de ADN del National Center for Biotechnology Information, incorpora secuencias de fuentes disponibles públicamente, principalmente envíos directos de autores y de proyectos de secuenciación a gran escala. También intercambia datos con EMBL y DDBJ. DDBJ: banco de datos de ADN de Japón.

14 EBI-EMBL (Ensembl) es un proyecto conjunto entre el EMBL - EBI y el Wellcome Trust Sanger Institute para desarrollar un sistema de software que produce y mantiene la anotación automática en una selección de genomas eucariotas.

15 Búsqueda de un Gen en GenBank

16 Accesos a Nucleótidos y Proteínas

17 Búsqueda de secuencia nucleotídica en el GenBank

18 Secuencia Nucleotídica

19 La parte superior contiene información general LOCUS: Es el nombre alfanumérico que primero nos informa. El resto de la línea nos dice que estamos tratando con 22422827 pares de bases de ADN lineal. DEFINICIÓN: Esta línea indica que el nombre a que corresponde los nucleótidos encontrados, es decir, a que gen o parte del gen y a que organismo. VERSIÓN: se encuentra el número de acceso que es número asignado cuando el dato entra por primera vez a la base de datos y nunca será cambiado. Además encontramos el número GI rastrea las versiones de una entrada. El número después del punto del número de acceso se refiere a cuantas veces fue actualizada esta secuencia. El organismo, taxonomía de la especie estudiada. Referencia con respecto a la secuencia buscada.

20 Base de Datos de Secuencias Nucleótidos La base de datos de nucleótidos contiene secuencias de nucleótidos, la STS (número de secuencias de sitio etiquetados), whole genome shotgun (WGS) secuencias, pero no EST o secuencias GSS. EST: Marcas de secuencias expresadas. GSS: Secuencias reconocidas de genoma. Los nucleótidos y bases de datos de proteínas también incluyen Referencia secuencias controladas por NCBI (refSeqs). Además, en el proyecto de RefSeq las secuencias de Patentes se incorporan a través de acuerdos con la Oficina de Patentes y Marcas de los EE.UU. (USPTO) y a través de las bases de datos internacionales colaboradoras de otras oficinas de patentes internacionales. La base de datos de nucleótidos contiene toda la secuencia de datos GenBank, EMBL, y DDBJ, que son los miembros del Organismo Internacional de bases de datos de secuencias de nucleótidos de colaboración (INSDC).

21 EST (Expressed Sequence Tags) Para obtener EST: se obtiene una muestra de células luego se extrae el ARN y utilizando la transcriptasa reversa se obtiene el ADNc. La genoteca de ADNc es usada para experimentos de secuenciación rápida de una selección de clones. Si se pueden secuenciar exitosamentes estas secuencias surgen las EST.

22 Búsqueda en bases de datos Determinar si una coincidencia “buena” es el reflejo de un suceso genético genuino. Si la EST es bastante corta como para caer en un exón completo, y si se observan formas alternativas que contenga este exón, no hay manera de saber a que forma representa la EST. Si al contrastar con la base de datos no encontramos un emparejamiento no se puede asumir que se ha encontrado un nuevo gen, puede que represente una secuencia no codificante para un gen conocido.

23 ALL DATABASES

24 INTRODUCCIÓN AL ALINEAMIENTO DE PARES DE SECUENCIAS NUCLEOTÍDICAS Algoritmos y programas. Comparación de 2 secuencias.

25 Alfabetos y Complejidad Una secuencia consiste en letras seleccionadas de alfabeto. La complejidad del alfabeto se define como el número de letras diferentes que contiene. Por ejemplo la complejidad para la secuencia de ADN es 4 y para proteínas, 20.

26 Algoritmos y Programas Algoritmo: conjunto de pasos que definen cierto proceso computacional abstracto. Programa: implementación de algoritmo. Los algoritmos se pueden implementar a modo de receta para encontrar la similitud entre 2 secuencias. De esta manera utilizando 2 secuencias de un alfabeto por ejemplo de complejidad 20, al alinear secuencias podemos encontrar emparejamiento idénticos (matches), desemparejamiento (mismatches) o la introducción de huecos (gaps).

27 Identidad y Similitud El emparejamiento idéntico lo podemos lograr introduciendo huecos de forma no restringida. Se introducen penalizaciones para minimizar el número de huecos que se inician (se abren) y a continuación se utilizan penalizaciones de extensión cuando el hueco tiene que ser extendido. Hasta el momento la matriz que hemos estado usando es la unitaria. Para poder incrementar la puntuación de las señales débiles pero biológicamente significativas, se han diseñados matrices de puntuación que moderan las coincidencias entre residuos no idénticos, según las tasas de sustitución observadas a través de grandes distancias evolutivas.

28 Medidas estadísticas de la significación del alineamiento. Para comparar 2 secuencias.

29 Alineamiento de a pares Los métodos de alineamiento de pares, o emparejamientos, se utilizan para encontrar la mejor coincidencia en bloque (local) o alineamiento global de dos secuencias. Los alineamientos de pares sólo pueden utilizarse con dos secuencias a la vez, pero son eficientes de calcular, y son utilizados a menudo en métodos que no requieren precisión extrema, como la búsqueda en bases de datos de secuencias con alta homología con respecto a una petición.homología Los tres métodos principales de generar alineamientos de pares son los de matriz de puntos, los de programación dinámica y los de búsqueda de palabra, aunque la mayoría de métodos de alineación múltiple de secuencias pueden funcionar con sólo dos secuencias. Aunque cada método tiene sus propios puntos fuertes y débiles, todos ellos tienen problemas para alinear secuencias repetitivas con bajo contenido en información. Una manera de cuantificar la utilidad de un alineamiento de pares determinado es la "máxima coincidencia individual", o la mayor subsecuencia que se da en ambas secuencias en estudio. En general, cuanto mayor sea tal subsecuencia, más cercana será su relación.

30 Matriz de puntos La diagonal principal representa el alineamiento de la secuencia consigo misma; las líneas fuera de esta diagonal representan patrones similares o repetitivos dentro de la secuencia

31 Dot - plot El enfoque de matriz de puntos (o matrix-dot), que implícitamente produce una familia de alineamientos para regiones individuales de la secuencia, es cualitativo y simple, a pesar de que consume mucho tiempo para análisis a gran escala. Es fácil identificar visualmente determinadas características de la secuencia (tales como inserciones, borrados, repeticiones, o repeticiones invertidas) en una gráfica de matriz de puntos. Algunas implementaciones varían el tamaño o la intensidad de los puntos en función del grado de similitud de los dos caracteres, para dar cabida a las sustituciones conservadas. La gráfica de puntos de secuencias muy estrechamente relacionadas aparece como una única línea a lo largo de la diagonal principal de la matriz.

32 Depende de la tabla de valores que se use para los matches Matriz unitariaMatriz con puntuación moderada ACGT A1000 C0100 G0010 T0001 ACGT A100.50 C010 G 010 T0 01 Utilizando estas Matrices: observamos el score para cada alineamiento AATGC : AG -GC AATGC A -GGC Con la matriz unitaria ambos alineamientos tienen un score de +3 Con la matriz que considera similitud el score es de +3.5 para A y +3 para B A B

33 Score y penalidades de Gaps El score del alineamiento es la suma de los scores individuales de cada posición, el mismo se define posición por posición. Un gap biológicamente puede ser interpretado como una deleción en la secuencia donde se introduce el gap y una inserción en la secuencia alineada. Esto es un evento INDEL. La existencia de un gap debe ser penalizada de alguna manera (se resta al score del alineamiento), ya que de otra forma, el alineamiento óptimo tendría una enorme cantidad de pequeños gaps, lo cual es incompatible con una interpretación biológica. Penalización de apertura del gap (gap opening penalty) Penalización de la extensión del gap (gap extension penalty) W (X) = g + t. x W= gap penalty g= gap opening penalty t= gap extension penalty x= longitud del gap

34 Matriz de Identidad La matriz de sustitución más simple posible sería una en la que cada aminoácido se considera máximamente similar a sí mismo, pero no es capaz de transformarse en cualquier otro aminoácido. La matriz aparecería como:

35 Matriz para ADN Suele utilizarse un sistema de puntuación simple para los emparejamientos entre los cuatro diferentes nucleótidos y que asigna, normalmente, una puntuación positiva para la coincidencia en el emparejamiento, una puntuación nula o negativa para la no coincidencia, y una puntuación negativa para los huecos o gaps.

36 El ADN sufre cambios en el contenido informativo Para esto requerimos una medida cuantitativa confiable de la información. Claude Shannon (1948) definió la información como una disminución de la incerteza del receptor del mensaje. Para los sistemas moleculares la incerteza está relacionada con la entropía y, por lo tanto, tiene una clara conexión con la segunda ley de la termodinámica.

37 Medición de Información Esto depende de la cantidad de letras del alfabeto. La información puede cuantificarse en bits. Si el alfabeto tiene 2 letras: un bits de información alcanza para definir una letra. Si el alfabeto tiene 4 letras se necesitan 2 bits. Alfabeto de 2 letras: A=0 B=1 Alfabeto de 4 letras: A=00 B=01 C=10 D=11

38 GENERALIZANDO Se puede expresar de la siguiente manera 2 y = N o y = log 2 N N= es la cantidad de caracteres del alfabeto. y = es la cantidad de bits que definen una letra. N=(N -1 ) -1, entonces y = -log 2 (1/N) Si todas las letras tienen la misma probabilidad de aparición entonces 1/N es la probabilidad de aparición de cada símbolo.

39 FRECUENCIA DE APARICIÓN Reemplazamos en la ecuación anterior y = -log 2 (f i ) donde f i = 1/N La frecuencia con la que aparece, en una muestra suficientemente grande, una letra particular se aproxima a la probabilidad. Entonces, una letra muy común contiene poca información mientras que una letra poco común contiene mucha información.

40 MEDICIÓN DE LA SORPRESA Tribus (1961) Un mensaje completamente desconocido para nosotros va apareciendo letra por letra, cuando aparece un símbolo determinado se experimenta una relativa “sorpresa”. Cuan grande o pequeña sea la sorpresa depende de la abundancia en que se encuentra el símbolo en cuestión. Independientemente del símbolo en el que aparezca, el desconocimiento (o incerteza) previo a la visualización del símbolo es igual. El mismo desconocimiento impide cualquier influencia sobre la incerteza. La incerteza es el promedio de las “sorpresas” calculadas para todos los símbolos presentes en el mensaje.

41 Matrices de Sustitución En biología evolutiva una matriz de sustitución, o de puntuación, describe el ritmo al que un carácter en una secuencia cambia a otro carácter con el tiempo. Las matrices de sustitución se ven usualmente en el contexto de alineamiento de secuencias de aminoácidos o ADN, donde la similitud entre secuencias depende del tiempo desde su divergencia y de los ritmos de sustitución según se representan en la matriz. Estas matrices se utilizan como parámetros de los algoritmos de alineamiento (por ejemplo los de Needlemann-Wunsch o Smith-Waterman) Los algoritmos cumplen el papel de asignar una determinada puntuación a cada emparejamiento entre los aminoácidos de las secuencias a alinear, contribuyendo así a la puntuación global del alineamiento.

42 ATCG A0(1)5(0) 1(0) T5(0)0(1)1(0)5(0) C 1(0)0(1)5(0) G1(0)5(0) 0(1) Matriz de similitud de ADN (identidad entre paréntesis) Los algoritmos de alineamiento en nuestro contexto normalmente usan matrices de pesos o sustitución para evaluar el emparejamiento de letras o monómeros de las secuencias. Para alineamientos de ADN, como hay sólo 4 nucleótidos, se usa una matriz 4x4, que contiene un valor para cada posible emparejamiento de nucleótidos.

43 Matrices de log-probabilidades La matriz de puntuaciones se define como: donde p i,j es la probabilidad, de acuerdo a las observaciones tomadas en consideración, de que el aminoácido i se transforme en el j, p i es la frecuencia de aparición del aminoácido i, y p j es la frecuencia de aparición del aminoácido j. De esta forma, el denominador p i ·p j es la probabilidad de que ambos aminoácidos queden alineados por casualidad (matemáticamente, corresponde al producto de las probabilidades individuales de aparición); y el cociente entre ambas probabilidades puede resultar: Mayor que 1: la probabilidad observada de sustitución entre aminoácidos es superior a la aleatoria; según su magnitud, podría asumirse, en principio, que la evolución ha ido aceptando tal intercambio. Igual a 1: la sustitución entre uno y otro aminoácidos corresponde a la que puede encontrarse aleatoriamente a causa de mutaciones puntuales. Inferior a 1: la tasa de sustitución entre los aminoácidos es inferior a la que podría encontrarse aleatoriamente, por lo que según la magnitud del cociente podría asumirse, en principio, que esta sustitución no es aceptada evolutivamente de buen grado.

44 APLICACIÓN DE LA TEORÍA DE LA INFORMACIÓN Matrices de log-probabilidades Tomamos el logaritmo del cociente para obtener, en definitiva, la similitud entre los aminoácidos en cuestión, representada por un número real que será positivo si el cociente visto es mayor que 1, negativo si es menor que 1, y nulo si el cociente es la unidad. La base del logaritmo no es especialmente importante, y puede verse con cierta frecuencia la misma matriz de sustitución expresada en bases logarítmicas diferentes, aunque computacionalmente puede interesarnos utilizar base 2 (cantidad de información en bits) o base e (cantidad de información se mide en nats). Es aconsejable multiplicar cada elemento de la matriz por un factor de escala (lo que permite mantener la precisión) y redondear seguidamente al valor entero más próximo. Encontraremos diferencias entre matrices calculadas desde una misma matriz inicial, por lo que una puntuación normalizada nos resultaría mucho más útil, entonces, es necesario una constante específica para cada matriz, que se denomina lambda ( λ ).

45 Algoritmo Smith-Waterman El algoritmo de Smith-Waterman es una reconocida estrategia para realizar alineamiento local de secuencias biológicas (ADN, ARN o proteínas); es decir que determina regiones similares entre un par de secuencias. Se centra en regiones de similitud sólo en partes de la secuencia. El algoritmo SW fue propuesto por Temple Smith y Michael Waterman en 1981. Está basado en el uso de algoritmos de programación dinámica, de tal forma que tiene la deseable propiedad de garantizar que el alineamiento local encontrado es óptimo con respecto a un determinado sistema de puntajes que se use (tales como matrices de substitución).

46 Algoritmo Needleman-Wunsch El algoritmo de Needleman-Wunsch sirve para realizar alineamientos globales de dos secuencias. Considera la similitud en toda la extensión de la secuencia. Se suele utilizar en el ámbito de la bioinformática para alinear secuencias de proteínas o de ácidos nucleicos. Fue propuesto por primera vez en 1970, por Saul Needleman y Christian Wunsch. Se trata de un ejemplo típico de programación dinámica. Este algoritmo siempre termina y garantiza que la solución devuelta es la óptima. Es importante destacar que el que dos elementos sean alineados no implica necesariamente que sean iguales; significa que entre esa posibilidad, alinear con huecos o alinear símbolos diferentes, esa era la mejor opción.

47 Matrices de sustitución Una de las primeras matrices de sustitución, la PAM (Point accepted mutation, o mutación puntual aceptada), fue desarralloda por Margaret Dayhoff en los años 70 del pasado siglo. Esta matriz se calcula observando las diferencias en proteínas cercanamente relacionadas (con un mínimo del 85% de similitud). Matrices BLOSUM (de BLOck SUbstitution Matrix, o matriz de sustitución de bloques): Henikoff y Henikoff construyeron estas matrices usando múltiples alineamientos de proteínas evolutivamente divergentes. Las probabilidades usadas en los cálculos de la matriz se computan observando los "bloques" de secuencias conservadas encontrados en múltiples alineamientos de proteínas.

48 Alineamientos locales y globales Los alineamientos globales, que intentan alinear cada residuo de cada secuencia, son más útiles cuando las secuencias problema iniciales son similares y aproximadamente del mismo tamaño (no quiere decir que los alineamientos globales no puedan terminar en huecos). Una estrategia general de alineamiento global es el algoritmo Needleman-Wunsch. Los alineamientos locales son más útiles para secuencias diferenciadas en las que se sospecha que existen regiones muy similares o motivos de secuencias similares dentro de un contexto mayor. El algoritmo Smith- Waterman es un método general de alineamiento local basado en programación dinámica.

49 Volviendo al Alineamiento de Secuencias calculando el score Se puede fijar una palabra con el máximo score, se extiende en ambas direcciones, se recalcula el score, si es mayor se continúa extendiendo (BLAST). Los alineamientos de secuencia por métodos de comparación de ventanas requiere gran capacidad de memoria y gran capacidad de almacenamiento. Entonces el tiempo de computación se incrementa de forma cuadrática en función de la longitud de la secuencia.

50 Programación Dinámica Soluciona problemas mediante la resolución de problemas semejantes pero más pequeños. La técnica de programación dinámica puede aplicarse para producir alineamientos globales, así como alineamientos locales. En los alineamientos de proteínas se utiliza una matriz de sustitución para asignar puntuaciones a las coincidencias y a las diferencias entre aminoácidos, y una penalización por gap. Encontrar una buena solución empleando programación dinámica a menudo implica la técnica de retroceso y probar diferentes rutas hasta lograr los alineamientos de puntuación elevada, guiados por los varios parámetros (penalización de huecos, etc.) disponibles en el algoritmo. La mejor de todas la rutas se selecciona entonces como el alineamiento final. De esta forma se reduce significativamente el tiempo de computación y se asegura encontrar, al menos, 2 alineamientos óptimos.

51 Completar la matriz AATGCAC A 1100010 G 0112111 G 0112222 C 0111323 C 0111334 A 1211243 La matriz se completa colocando un 1 para los matches y un 0 para los mismatches. Para cada celda sumando el valor de cada celda con el mejor valor anterior, derivando siempre en una diagonal.

52 Métodos de palabras cortas Los métodos de palabra corta, también conocidos como métodos de k-tuplas, son métodos heurísticos que no garantizan encontrar una solución de alineamiento óptima, pero son significativamente más eficientes que la programación dinámica. Estos métodos son especialmente útiles en búsquedas sobre bases de datos a gran escala, donde se asume que una larga proporción de las secuencias candidatas no tendrán coincidencias significativas con la secuencia problema. Los métodos de palabra corta son más conocidos por su implementación en las herramientas de búsqueda en bases de datos FASTA y la familia BLAST. Estos métodos identifican en la secuencia problema una serie de subsecuencias cortas que no se solapan (“palabras”), y que se contrastan contra las secuencias de la base de datos.

53 Métodos de palabras cortas (continuación) Las posiciones relativas de la palabra en las dos secuencias a comparar se restan para obtener un valor de desplazamiento; se manifestará así una región de alineamiento si varias palabras diferentes producen el mismo desplazamiento. Sólo si esta región es detectada, estos métodos aplicarán criterios de alineamiento más sensibles. De esta forma se eliminan muchas comparaciones innecesarias entre secuencias de similitud inapreciable. La velocidad de ejecución es ciertamente un aspecto de la búsqueda de la base de datos y, para los 2 algoritmos descriptos hasta el momento, la velocidad depende fundamentalmente de la longitud de la secuencia problema y del tamaño de la base de datos analizada.

54 BLAST (Basic Local Alingment Search Tool) La familia BLAST de métodos de búsqueda proporciona varios algoritmos optimizados para tipos particulares de problemas, tales como la búsqueda de coincidencias entre secuencias escasamente relacionadas. Como FASTA, BLAST utiliza una palabra de búsqueda de longitud “k”, pero sólo evalúa las coincidencias más significativas de las palabras, en lugar de cada coincidencia como hace FASTA. La mayoría de las implementaciones de BLAST usan una longitud de palabra fijada por defecto que se optimiza para el problema y el tipo de base de datos, y que se cambia sólo bajo circunstancias específicas tales como búsquedas con secuencias problema repetitivas o muy cortas. El algoritmo busca coincidencias de longitud fija y a continuación se extienden hasta que alcanzan cierto parámetros umbral.

55 Blast

56 HELP

57 Búsqueda contra genomas y organismos específicos

58 Bases de Datos para Insectos Service Availability From Insect Blast Page OrganismDatabasesBLAST searchesMapViewer Link ¹ Aedes aegyptiWblastn, tblastn- Anopheles gambiae str. PEST F+P blastn, blastp, blastx, tblastn Yes Apis melliferaW+P blastn, blastp, blastx, tblastn Yes Bombyx moriWblastn, tblastn- Drosophila melanogaster F+P blastn, blastp, blastx, tblastn Yes Drosophila persimilisWblastn, tblastn- Drosophila pseudoobscura W+P blastn, blastp, blastx, tblastn - Drosophila sechelliaWblastn, tblastn- Drosophila simulansWblastn, tblastn- Drosophila yakubaWblastn, tblastn- Tribolium castaneumWblastn, tblastn- NOTE: ¹ Graphic visualization of BLAST hits on the genome through MapViewer available. Accessing BLAST through Map Viewer Home Page is recommended.Map Viewer Home Page

59 BLAST especializado

60 Valor E (Expect value) El valor E es un parámetro que describe el número de hits que uno puede esperar por azar cuando buscamos en una base de datos de una medida particular. Esto decrece exponencialmente con el score (S) que es asignado para un match entre 2 secuencia. Un E-value de 1 es el valor que uno espera si se realiza un math con un score similar simplemente por azar. El E-value de “0” es el match más significativo. El E-value tiene en cuenta el largo de la secuencia Query.

61 Blastn Parameter settings for standard blastn and "Search for short and nearly exact matches" ProgramWord Size DUST Filter Setting Expect Value Standard blastn 11On10 Search for short nearly exact matches 7Off1000

62 FORMATO FASTA Sigue el siguiente esquema > My_Sequence_Name ARCGTCRGCKINTANDRGCKINTAND CKINTANDARCGTCRGCKINTANDRG CKINTAND La línea de salida con > (la línea de definición) contiene un identificador único seguido por un facultativo de breve definición. Las líneas que siguen contienen la secuencia de ADN o de proteínas hasta que el carácter siguiente > en el archivo indica el comienzo de una nueva secuencia.

63 MUCHAS GRACIAS POR SU ATENCIÓN


Descargar ppt "Curso: Introducción a la Bioinformática Lic. María Isabel Fonseca Lic. Ernesto Martín Giorgio Lic. María Mercedes Tiscornia Curso pre-Jornadas. Laboratorio."

Presentaciones similares


Anuncios Google