Aplicaciones de Data Mining en ciencia y tecnología Bioinformática

Slides:



Advertisements
Presentaciones similares
La síntesis de proteínas
Advertisements

ESTRUCTURA DE DATOS Unidad 05 ALGORITMOS DE BUSQUEDA.
El dogma central de Crick o dogma central de la Biología
Diseño y análisis de algoritmos
Diseño y análisis de algoritmos
Fundamentos de Diseño de Software INFT.1
EL CÓDIGO GENÉTICO.
ACIDOS NUCLEICOS.
El flujo de la información genética
III - Gestión de memoria
Aplicaciones de Data Mining en ciencia y tecnología Ontologias. 2
Aplicaciones de Data Mining en ciencia y tecnología Bioinformática
Procesamiento de cadenas
Aprendizaje de Microsoft® Access® 2010
MATRIZ DE CHEQUEO DE PARIDAD
El presente material contiene
DIAGRAMAS DE FLUJO Y PSEUDOCÓDIGO
CÓDIGO GENÉTICO Y SÍNTESIS DE PROTEÍNAS
CÓDIGO GENÉTICO Y SÍNTESIS DE PROTEÍNAS
La minimización de los costes
Unidad académica: Ingenierías
Ms. A. Lic. Enrique Guillermo Zepeda López
PROGRAMACION DE ESTRUCTURAS DE DATOS
Alineamiento de Secuencias Biológicas
Programación dinámica (1)
DISTINTOS TIPOS DE FRECUENCIAS
Encuentra las 12 diferencias
Código genético.
International Nucleotide Sequence Database Collaboration
Métodos de muestreo.
TALLER TIPO IFCES Resuelve situaciones problema, a partir de la interpretación de preguntas tipo Icfes.
Síntesis de proteínas.
DOGMA CENTRAL DE LA BIOLOGIA MOLECULAR
Capítulo 3 Etapas de un Proyecto de simulación
Direcciones físicas y direcciones virtuales (lógicas)
La PD no es adecuada para buscar en BD
La Derivada. Ya vimos: los conceptos, métodos ó instrumentos necesarios para establecer el “comportamiento” de una función.  en un entorno de x o [ 
EL PODER DE SOLVER.
Licda. Albertina Montenegro
Optimización, Búsqueda Heurística
Similaridad de cadenas genéticas Bienvenido Martínez Redondo Sergio García Esteban 2008/2009.
ANALISIS DE DATOS CATEGORICOS
CÓDIGOS DE HUFFMAN. Códigos de Huffman Los códigos de Huffman, que representan caracteres por cadenas de bits de longitud variable, proporcionan alternativas.
Tema 10.3: Asignación de Espacio No Contiguo. Tema 10.3: 2 Silberschatz, Galvin and Gagne ©2005 Fundamentos de los Computadores (ITT, Sist. Electr.),
(Organización y Manejo de Archivos)
Descomposición Factorial Unidad 5
Asignación de Espacio No Contiguo
ADN E INGENIERÍA GENÉTICA. LÍPIDOS PROTEÍNAS.
Matrices de Substitución PAM Y BLOSUM
Capítulo 7 Gestión de memoria.
Traducción de proteínas
PAM Margaret Dayhoff. Accepted Point Mutations accepted by natural selection.
Microsoft Office Excel
Análisis y Diseño de Algoritmos
Estructura de Datos M.C. José Andrés Vázquez Flores FCC/BUAP
Matrices de sustitución
Parte I. Estructuras de Datos.
BIOLOGIA COMPUTACIONAL
Rendimiento de la CPU y sus factores
Introducir Fórmulas y Funciones:
Las fórmulas más usadas en excel
Introducción a los TADs
HERRAMIENTAS OFIMÁTICAS M.S.C. IVETTE HERNÁNDEZ DÁVILA
Bioquímica ACIDOS NUCLEICOS 2015 Tema:5  Dra. Silvia Varas
Clase N°11 Métodos de reducción de varianza
OPTIMIZACION DEL DESEMPEÑO DE ERROR
Fuentes consultadas Fuentes consultadas Medios de Transmisión Medios de Transmisión Actividades de aprendizaje Actividades de aprendizaje Propósito Introducción.
DIAGRAMAS DE SECUENCIA. UML está compuesto por los siguientes diagramas:
Información y Aleatoriedad de los Genes Iniciativa Científica MilenioSANTIAGO, 15 de Noviembre de 2006.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

Aplicaciones de Data Mining en ciencia y tecnología Bioinformática Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Algunas preguntas … ¿Qúe es la bioinformática? ¿Cuáles son los campos de aplicación? ¿Bioinformática o Biología Computacional? Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Bioinformática Data mining La recolección organización y análisis de grandes cantidades de datos biológicos El uso de computadoras para resolver problemas infomacionales en biología Data mining El proceso de analizar datos para identificar patrones o relaciones El análisis de grandes cantidades de datos para extraer información Las dos disciplinas comparten técnicas y procedimientos Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Una introducción a la biología (¡En una hora y algo!). Parte 1 Los sistemas biológicos se distinguen de otros sistemas por ciertas características claves: Interacción con el medio ambiente y con otros sistemas biológicos Autoreproducción Para sobrevivir, desarrollarse y dejar descendencia un ser vivo debe llevar a cabo un número enorme de reacciones químicas coordinadas Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

El dogma central de la biología molecular El ADN es el principal material genético en la mayoría de los seres vivos. Mantiene la información genética que se requiere para crear un ser vivo idéntico a aquel del que proviene. Contiene la información para todas las proteínas que un organismo necesita. El ARN es una molécula mediadora, transmite la información del ADN hasta la maquinaria que sintetiza nuevas proteínas Replicación ADN ADN Transcripción Transcripción reversa ARN Traducción proteinas Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

La estructura de los ácidos nucleicos Esquema del ADN El ADN (ácido desoxirribonucleíco) y el ARN (ácido ribonucleíco) son polímeros de nucleótidos monofosfato. En el ADN la cadena es doble y en el ARN simple grupo fosfato pentosa base ADN: A,T,C,G ARN: A,U,C,G Un ejemplo de nucleótido La información contenida en los ácidos nucleicos está contenida en la secuencia de bases de una cadena Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

La estructura de los ácidos nucleicos Adenina Guanina Citocina Timina Uracilo Las bases de cadenas opuestas en el ADN están apareadas de una forma específica: A con T y C con G: A C T G C C G T A A T C G C C T T G A T G A C G G C A T T A G C G G A A C T Cadena directa Reverso complemento Esta estructura facilita la copia del ADN Imagen de Wikipedia Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Codificación de la información El ADN y algunos ARN contienen información para sintetizar proteínas. Cualquier ser vivo necesita miles de proteínas distintas para: realizar reacciones químicas funciones estructurales interacción con el ambiente externo e interno manejo de la información Modelo de la estructura 3D de la enzima glucosa oxidasa (ModBase) Una proteína es un polímero lineal de aminoácidos, desde unos pocos aminoácidos hasta 400 o más. Existen muchos aminoácidos pero los seres vivos usamos solo 20 tipos diferentes. La secuencia de bases del ADN codifica la secuencia de aminoácidos que debe tener una proteína. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Hidrofóbico; aromatico Glicina Gly G Glutamato Glu E Glutamina Gln Q Aminoácido Código 3 letras Código 1 letra Propiedades Alanina Ala A Hidrofóbico Arginina Arg R Con carga positiva Asparragina Asn N Neutro; hidrofílico Aspartato Asp D Con carga negativa Cisteina Cys C Neutro Fenilalanina Phe F Hidrofóbico; aromatico Glicina Gly G Glutamato Glu E Glutamina Gln Q Histidina His H Con carga positiva; aromatico Isoleucina Ile I Leucina Leu L Lisina Lys K Metionina Met M Prolina Pro P Serina Ser S Tirosina Tyr Y Treonina Thr T Triptofano Trp W Valina Val V Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

El código genético En un gen que codifica para proteinas, cada grupo de tres nucleótidos codifica para un aminoácido diferente o es una señal de STOP. Ejemplo UUU UUA AUU AUU Phe Leu Ile Ile Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Información y función en sistemas biológicos 43 -1 palabras codifican los nombres de 20 aminoácidos mRNA palabras de tres letras (codones) proteinas ADN alfabeto de 4 letras estable transmisible distintos tipos de mensajes reguladoras estructurales enzimas signos de puntuación rRNA, tRNA basura Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Una de las tareas más importantes y frecuentes de los bioinformáticos es analizar secuencias y realizar comparaciones entre secuencias de ADN y proteínas Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Comparación de secuencias ¿Por qué nos interesa comparar secuencias de ADN o proteínas de distintos orígenes? ¿Cómo se pueden alinear secuencias? Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Alineamiento de secuencias Dos tipos de alineamientos Alineamiento global (algoritmo de Needleman-Wunsch) Alineamiento local (algoritmo Smith-Waterman) Ejemplo: alinear las palabras “pantalón” y “andado” Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Alineamiento global Palabra 1 pantalon coincidencias -an.a.o- Ejemplo: alinear las palabras “pantalon” (sin acento) y “andado” Palabra 1 pantalon coincidencias -an.a.o- Palabra 2 -andado- En este alineamiento vemos los eventos que pueden ocurrir al alinear palabras, consideradas como secuencias de letras: Coincidencia o “match”: las dos letras son iguales No coincidencia o “mismatch”: las letras no coinciden Hueco o “gap”: para aumentar la cantidad de matches se agregan espacios, al final, al principio o en el medio Y ahora el ejemplo en detalle… Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Alineamiento global Armamos una tabla con las palabras y la distancia desde el origen   p a n t l o -1 -2 -3 -4 -5 -6 -7 -8 d

Alineamiento global Después calculamos los valores para cada celda p a   p a n t l o -1 -2 -3 -4 -5 -6 -7 -8  -1 d Valores predefinidos: Cálculo del valor de la celda: match = +1 mismatch = -1 gap = -1 gap + celda superior, gap + celda izquierda, match/mismatch + celda diagonal max La flecha indica donde queda el máximo seleccionado. Es importante marcarlo porque a veces dos celdas pueden ser máximos, y hay que ser consistentes en la selección, gap o diagonal Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Alineamiento global .. completamos la tabla … p a n t l o -1 -2 -3 -4   p a n t l o -1 -2 -3 -4 -5 -6 -7 -8  -1 0  1 d  -3  1 -2   0 Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

!! Alineamiento global Palabra 1 pantalon Palabra 2 -andado- … Y reconstruimos el camino que maximiza la suma de celdas de atrás para adelante empezando por la última   p a n t l o -1 -2 -3 -4 -5 -6 -7 -8  -1 0  1 d  -3  1 -2   0 Las flechas horizontales y verticales representan gaps y las diagonales matches o mismatches Palabra 1 pantalon Palabra 2 -andado- !! Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Alineamiento local Los bordes de la matriz se inicializan en cero. El valor de la celda nunca puede ser menor que cero, y no se agregan punteros a menos que el valor sea mayor que cero. El alineamiento comienza desde el valor más alto y termina en cero   p a n t l o 1 2 d Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Alineamiento global versus local El alineamiento global busca exhaustivamente todo el espacio de búsqueda, introduciendo gaps donde no puede encontrar un apareamiento adecuado. El alineamiento local busca sólo en regiones donde hay un apareamiento significativo. Es más efectivo cuando se analizan regiones que incluyen sectores con muy poca similitud. El método de alineamiento más usado, Blast, es un método de alineamiento local Modificaciones Variaciones en la penalización de los gaps: iniciar un gap es más “caro” que extenderlo Alineamiento por bandas: variante para reducir la memoria, puede dar alineamientos sub óptimos En el caso de alineamientos locales, restringir las búsquedas a zonas con scores mayores que cero: Blast Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

En nuestros ejemplos anteriores habíamos alineado palabras. Nosotros tenemos que alinear nucleótidos en una secuencia de ADN o aminoácidos en una proteína. Los aminoácidos tienen una particularidad, algunos de ellos tienen estructuras químicas similares. Si por mutación un aminoácido es reemplazado por uno estructuralmente similar, es probable que no haya un efecto muy drástico sobre la proteína. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Similitudes entre aminoácidos alifáticos I L V M F Y S C A G W H R K D E Q N T hidrofóbicos aromáticos con grupos -OH hidrofílicos pequeños cargados postivos Se realizaron alineamientos entre grupos de proteínas y se determinan las frecuencias de ocurrencia simultánea de todos los pares de aminoácidos negativos con grupos –NH2 S*ij = log(qij/pipj) Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Matriz Blosum62, una matriz de scoring P A G N D E Q H R K M I L V F Y W 9 -1 -3 -4 -2 4 1 7 6 2 5 8 3 11 A partir de los S*ij se calculan los valores de la matriz multiplicando por una constante y redondeando para que queden números enteros (scores crudos). S*ij .λ= Sij Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Calculando el valor exacto de λ Resolvemos esta ecuación para determinar λ Necesitamos calcular λ para estimar el valor E de cada alineamiento. Los programas calculan λ por nosotros (por suerte…) Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Alineamiento + cálculo de score Ya habíamos visto como construir alineamientos, ahora necesitamos asignarle un score. C S T T A D W A A N T C T T T A D W A E N T 9 1 4 4 4 6 11 4 -1 6 4 Suma de los scores individuales (score crudo) = 54 Ahora necesitamos asignarle un valor de E (algo parecido a un test estadístico)… Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Cálculo del E de un alineamiento Una alternativa es calcular E a partir del score normalizado (el que aparece en unidades de bits en la salida del BLAST): E: número de alineamientos esperados al azar, dados… k: una constante m: número de letras en la consulta n: número de letras (nucleótidos / aminoácidos) en la base de datos λS*: score del alineamiento Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Cálculo del E de un alineamiento La otra alternativa es a partir de la estadística de Karlin-Altschul para alineamientos locales La ecuación de Karlin-Altschul E: número de alineamientos esperados al azar, dados… m: número de letras en la consulta n: número de letras (nucleótidos / aminoácidos) en la base de datos λS: score del alineamiento Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Presencia de gaps Permitir gaps en los alineamientos, equivale a bajar los valores de la matriz de scoring. Cuanto más “barato” sea introducir gaps, mayor será la pérdida de información. Para compensar existen valores ajustados empíricamente de k y λ Correcciones para la matriz BLOSUM62 Abrir un gap Extender un gap λ k H * prohíbido 0.318 0.134 0.40 11 2 0.297 0.082 0.27 10 0.291 0.075 0.23 7 0.239 0.027 0.10 Los gaps tienen un sentido biológico, no es conveniente prohibirlos. La práctica más usada es usar una penalidad alta por crearlos y una menor por extenderlos. (*) H: entropía, una medida del contenido de información de la matriz de scoring Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Corrección por largo La ecuación de Karlin-Altschul considera un espacio de búsqueda igual a m x n. pero los extremos de las secuencias no pueden ser explorados efectivamente. Se puede calcular el largo mínimo de una secuencia que puede producir un E significativo: l Con l se pueden calcular los valores efectivos de m y n ndb: número de secuencias en la base de datos Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Corrección por largo A medida que el número de secuencias en las bases de datos de secuencias aumentan, es cada vez más fácil encontrar valores de l mayores que m, o sea, m’ negativos. Para remediar esto, si m’ < 1/k, entonces m’ = 1/k Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Cálculo del E de un alineamiento Nuestra secuencia consulta (A) puede alinearse a una secuencia de la base de datos (B) en regiones: A B hsp hsp Decimos que B se alinea con dos HSP (High-scoring Segment Pair) Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Cálculo del score para un grupo de HSPs Cuando queremos calcular el score y el E de una secuencia con varios con varios HSP no podemos simplemente sumar los HSP individuales… Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Cálculo del score para un grupo de HSPs …existen varias posibilidades, dependiendo del tipo de Blast que estemos usando: 1 r: número de HSPs g: largo del gap 2 3 Score suma no-ordenado Score suma ordenado de a pares, “premia” HSPs colineales Score modificado de 2, lo usa BLASTX , premia si los gaps son cortos, es menos sensible al tamaño de la base dedatos, aunque da scores mayores cuanto mayor es el espacio de búsqueda. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

BLAST por fin !! Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Ya sabemos como alinear secuencias localmente Tambien sabemos cómo asignarles una expectativa a los HSP (E) Ahora necesitamos un algoritmo que nos permita buscar secuencias similares a nuestra consulta en una base de datos que puede tener millones de registros en un tiempo razonable (1-2 minutos) Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Secuencia 2 Secuencia 1 Un alineamiento entre dos secuencias alineamientos con un gap Secuencia 2 alineamientos (HSPs) Secuencia 1 El objetivo de Blast es encontrar cada uno de los HSP significativos, para todas las secuencias similares Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

ANFCG ANF NFC FCG Pasos de Blast: Siembra Extensión Evaluación Siembra Uno de los supuestos de Blast es que si dos secuencias tienen homología, tiene que haber “palabras” en común. En la terminología de Blast llamamos palabra a grupos contíguos de aminoácidos o nucleótidos Por ejemplo, si definimos palabras de tres letras, la secuencia de aminoácidos ANCFG tiene 3 palabras: ANFCG ANF NFC FCG Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Una palabra común no significa una palabra idéntica. Cuando Blast compara dos secuencias, primero busca la ubicación de todas las palabras comunes (word hits). Los word hits son las “semillas” a partir de donde se extienden los alineamientos. Una palabra común no significa una palabra idéntica. Recordemos que a veces un aminoácido puede reemplazar a otro sin afectar demasiado la proteína (matrices BLOSUM y PAM). Lo que se utiliza para calcular si una secuencia se puede considerar word hit, es determinar el “vecindario” de la secuencia. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Ejemplo: ¿Un score de 18 es significativo? ¿Y el de 11? secuencia 1 DVHGTANCFG secuencia 2 HVHGTANCFG 1 Consideremos una palabra de tres letras (W = 3) Usamos la matriz BLOSUM62 Si las dos secuencias comenzaran con DVH, el score sería: 6 + 4 + 8 = 18 Pero tenemos que comparar DVH con HVH: -1 + 4 + 8 = 11 2 3 4 ¿Un score de 18 es significativo? ¿Y el de 11? ¿Cómo se decide? Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Se fija un valor umbral conocido como T (threshold) Se fija un valor umbral conocido como T (threshold). La determinación es empírica y depende que queremos priorizar, velocidad o búsqueda. W también se puede variar. Dependiendo de la implementación de Blast se puede variar uno o los dos. PREGUNTAS ¿Qué efecto tendrá un W más grande o más chico? ¿Qúe ocurre con T? Algunas mejoras: Algoritmos de “dos golpes” Enmascaramiento de secuencias Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Secuencia 2 Secuencia 1 Extensión El segundo paso, la extensión, intenta prolongar los alineamientos a partir de las semillas del paso anterior Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Ejemplo: DVHGTANCFGQQHRL HVHGTANCFGQKQCG DVHGTANCFGQQH HVHGTANCFGQKQ 1 Vamos a extender hacia la derecha DVHGTANCFGQQHRL HVHGTANCFGQKQCG 5 1 0 -3 -4 scores Parte alineada con semillas 6 6 3 -1 scores acumulados 2 Cuando el score cae por debajo de un umbral (X) se detiene la extensión: DVHGTANCFGQQH HVHGTANCFGQKQ La elección de X tiene poco efecto sobre el rendimiento del programa comparado con W y T Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Finalmente se calcula el valor E del conjunto Evaluación En este paso se determina cuáles de los alineamientos parciales obtenidos son significativos, es decir, pueden ser considerados un HSP. También se determinan la secuencia de HSPs y se resuelven las posibles superposiciones Finalmente se calcula el valor E del conjunto Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Modificación de parámetros en NCBI-BLAST La implementación web del NCBI permite cambiar solo algunos de los parámetros que vimos Umbral para E W Selección de la matriz de scoring Costo de los gaps Ajuste fino del scoring Filtrar regiones de baja complejidad Filtrar solo en el paso el paso de siembra Filtrar secuencias en minúsculas Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

La salida de BLAST documentada Esta tabla que aparece al final de cualquier análisis BLAST registra nuestras opciones, las características principales de la base de datos y muestra secuencias y algunos estadísticos

Query_id, identificador de la secuencia consulta La salida tabulada de BLAST. Nombres de campos Query_id, identificador de la secuencia consulta Subject_id, identificador del hit que devuelva Blast identity, porcentaje de posiciones (nucleótidos o aminoácidos idénticos) identity, porcentaje de posiciones positivas (sólo para aminoácidos) alignment_length, largo del alineamiento mismatches, número de no-coincidencias gap_openings, cantidad de gaps que incluye el alineamiento q_start, comienzo del alineamiento en las coordenadas de la consulta q_end, fin del alineamiento en las coordenadas de la consulta s_start, comienzo del alineamiento en las coordenadas del hit s_end, comienzo del alineamiento en las coordenadas del hit e_value, valor E del alineamiento bit_score. valor del score en bits, esto es, en logaritmo base 2

La familia de programas Blast Base de datos Consulta BLASTN nucleótido BLASTP proteína BLASTX nucleótido traducido a proteína TBLASTN TBLASTX Estos son los básicos, después hay derivaciones para usos más específicos Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN