Phred / Phrap /Consed Genome/Sequence Assembly

Slides:



Advertisements
Presentaciones similares
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities scuola.
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
1 Datos sobre webloggers Datos extraidos de la encuesta a webloggers disponibles en la web de los autores.
Respuestas Jack y la mata de frijoles /60. 1.vivía 2.estaba 3.estaba 4.era 5.llamaba 6.gustaba 7.comía 8.dormía 9.gustaba 10.llamó 11.dijo 12.había 13.quería.
Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
50 formas de decir “Te Amo”.
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN EL COMERCIO GALLEGO (Resumen COMERCIO AL DETALLE) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 5.- 1ª PARTE. EL A.O. Y SUS APLICACIONES
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Área Razón Social 0 0 Telefónica Servicios Audiovisuales S.A. / Telefónica España S.A. Título de la ponencia / Otros datos de interés / Kit.
Objetivo: Los estudiantes van a usar vocabulario del desayuno para comprender un cuento. Práctica: 1. ¿Te gusta comer? 2. ¿Te gusta beber Mt. Dew.
Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó
Los Objetos de la Clase Escriban la palabra (the word) en español para los objetos de la clase (#1-20).
5 pt 5 pt 5 pt 5 pt 5 pt 10 pt 10 pt 10 pt 10 pt 10 pt 15 pt 15 pt
1 XML Extensible Markup Language HTML HyperText Markup Language normas06_01.xml.
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities alimentazione.
C ONFIGURACIÓN C UENTAS D E C ORREO ZTE N281. C ONFIGURACIÓN C UENTAS D E C ORREO ZTE N281 1-Ingrese a menú 2-Ingrese a Mensajes 3-Ingrese a Correo 4-Seleccione.
1. Apoyo exterior sobre ala inferior de viga de acero
Estrategias en el aula con alumnos con problemas de atención y comportamiento Curso Actividad formativa: Seminario CRA “Entreviñas” - Fuensaldaña.
-17 Expectativas sobre la situación económica (Europa) Septiembre 2013 Indicador > +20 Indicador 0 a +20 Indicador 0 a -20 Indicador < -20 Total Unión.
Autodesk Civil 3D 2007 Essentials
Phone2Wave-Server Manual de Operación.
Repaso del capítulo Primer Paso
Parte 3. Descripción del código de una función 1.
INFORME USDA NOVIEMBRE TRIGO 2 MERCADO INTERNACIONAL (Millones de Toneladas) 3.
Capítulo 4 Vocabulario y Gramática 1
Calendario 2008 Imágenes variadas Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2008.
¿Qué te gusta hacer? Unit 3: Vocabulario.
EL OSO APRENDIZ Y SUS AMIGOS
Ejemplar de cortesía gratis para lectura y uso personal
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt El vocabulario.
Ecuaciones Cuadráticas
3 Enero 2010 PERÚ: IV CENSO NACIONAL ECONÓMICO, APURÍMAC.
¡Primero mira fijo a la bruja!
ANÁLISIS DE RADIOGRAFÍA PANORAMICA
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt El vocabularioMe.
CULENDARIO 2007 Para los Patanes.
0 1 ¿Qué hora es? By: Craig Tillmann Revised by: Malinda Seger Coppell High School Coppell, TX.
BEATRIZ LAFONT VILLODRE
POLÍTICAS MACROECONÓMICAS Econ. SEGUNDO A. CALLE RUIZ Ms. Sc. C. D.
¿Quién? ¿Qué? ¿Dónde? ¿Cuándo? ¿Cómo? ¿Por qué?
* Fuente: Sondeo del Consumidor de la Comisión de la UE, GfK. Expectativas sobre la situación.
Los números. Del 0 al 100.
SpanishNumbers Uno 2 Dos 3 Tres 4 Quatro.
MSc. Lucía Osuna Wendehake
Calendario 2009 “Imágenes variadas” Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2009.
+19 Diciembre 2014 Indicador > +20 Indicador 0 a +20 Indicador 0 a -20 Indicador < -20 Total Unión Europea: +5 Indicador > +20 Indicador 0 a +20 Indicador.
Vocabulario: (Los números)
uno cero dos seis siete nueve Los Números DIEZ cinco ocho tres
Los Numeros.
Señales y sistemas de tiempo discreto
Manual de Procedimientos Procedimiento de ejecución del programa de
1 8 de febrero del Chapter 5 Encoding 3 Figure 5-1 Different Conversion Schemes.
Indicaciones: 1.- Tener en cuenta que esta estrategia, solo funciona asociando las cuentas los días lunes. 2.- Los cálculos son aproximados con un margen.
Herramienta FRAX Expositor: Boris Inturias.
CHAPTER 4 VOCABULARY: PART II
FUNDAMENTOS DE CALIDAD EN LA GESTIÓN PÚBLICA
Transcripción de la presentación:

Phred / Phrap /Consed Genome/Sequence Assembly Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín fernan@iib.unsam.edu.ar 1 Fernán Agüero

Qué es phred/phrap/consed? Phred/Phrap/Consed es un paquete de software utilizado para: Leer cromatogramas (trace files) Asignar valores de calidad a las bases individuales de una secuencia Identificar y enmascarar secuencias correspondientes a vector (plásmido) o secuencias repetitivas Ensamblar secuencias individuales en contigs Visualizar assemblies (contigs) Hacer ‘sequence finishing’ auto dirigido (automatic finishing) www.phrap.org 2 Fernán Agüero

Por que hay que ensamblar? Los métodos actuales de secuenciación generan lecturas de 300-1000 pb (límite de resolución de la electroforesis) Para secuenciar un genoma, o cualquier segmento largo de DNA (cromosomas) hay que fragmentarlo (bibliotecas de clones) En la estrategia conocida como ‘shotgun sequencing’ los clones se seleccionan al azar, se obtienen lecturas de los extremos y se ensamblan para obtener la secuencia final 3 Fernán Agüero

Phred: a basecaller Genome Res 8 (1998): 175 Genome Res 8 (1998): 186 4 Fernán Agüero

Phred is a program that performs several tasks: Reads trace files – compatible with most file formats: SCF (standard chromatogram format), ABI (373/377/3700), ESD (MegaBACE) and LI-COR. Calls bases – attributes a base for each identified peak with a lower error rate than the standard base calling programs. Assigns quality values to the bases – a “Phred value” based on an error rate estimation calculated for each individual base. Creates output files – base calls and quality values are written to output files. 5 Fernán Agüero

Alta calidad, sin ambigüedad Trace files Alta calidad, sin ambigüedad 6 Fernán Agüero

Calidad media, algunas ambigüedades Trace files Calidad media, algunas ambigüedades 7 Fernán Agüero

Trace files Baja calidad la confianza en la asignación de bases es menor 8 Fernán Agüero

q = - 10 x log10 (p) Phred qualities Donde: q = quality value p = estimated probability error for a base call Ejemplos: q = 20 significa p = 10-2 (1 error cada 100 bases) q = 30 significa p = 10-3 (1 error cada 1000 bases) q = 40 significa p = 10-4 (1 error cada 10000 bases) 9 Fernán Agüero

Phred: PHD files BEGIN_SEQUENCE 01EBV10201A02.g BEGIN_COMMENT CHROMAT_FILE: EBV10201A02.g ABI_THUMBPRINT: PHRED_VERSION: 0.990722.g CALL_METHOD: phred QUALITY_LEVELS:99 TIME: Thu May 24 00:18:58 2001 TRACE_ARRAY_MIN_INDEX: 0 TRACE_ARRAY_MAX_INDEX: 12153 TRIM: CHEM: term DYE: big END_COMMENT   BEGIN_DNA t 8 5 c 13 17 a 19 26 c 19 32 t 24 2221 a 24 2232 a 22 2245 a 27 2261 g 25 2272 c 19 2286 c 12 2302 t 19 2314 g 12 2324 g 15 2331 g 19 2346 g 23 2363 t 33 2378 g 36 2390 c 44 2404 c 44 2419 t 39 2433 a 39 2446 a 34 2460 t 35 2470 g 34 2482 t 16 8191 g 19 8200 t 13 8211 c 13 8229 g 4 8241 n 4 8253 c 4 8263 t 10 8276 t 9 8286 c 12 8301 t 16 8313 c 12 8329 c 12 8336 c 15 8343 t 19 8356 c 9 8371 g 13 8386 g 14 8397 a 7 8417 g 9 8427 g 4 8445 t 6 11908 a 6 11921 g 6 11927 t 6 11947 c 6 11953 a 6 11964 g 6 11981 c 4 11994 n 4 12015 c 4 12037 n 4 12044 n 4 12058 n 4 12071 n 4 12085 n 4 12098 n 4 12111 n 4 12124 c 4 12144 n 4 12151 END_DNA   END_SEQUENCE 10 Fernán Agüero

Quality values in FASTA format Phred: QUAL files Quality values in FASTA format >106 542 0 542 ABI trimmed 15 15 16 16 16 13 14 16 16 17 16 12 14 15 19 13 15 18 19 18 13 22 29 20 10 13 11 13 13 19 23 25 26 22 23 25 25 29 33 29 19 12 12 16 25 27 48 48 44 40 40 40 40 40 40 35 35 35 35 35 35 40 51 51 45 45 45 45 45 45 51 45 45 45 45 45 45 45 51 51 56 56 56 51 51 45 45 45 45 51 51 51 45 45 45 45 45 45 45 45 45 45 51 51 51 51 51 45 45 45 51 51 51 51 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 51 51 51 51 51 51 51 51 51 51 56 51 51 39 39 35 35 40 40 56 51 56 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 56 45 45 45 45 45 45 56 56 45 45 45 45 45 45 56 56 56 56 56 51 51 51 56 56 56 56 56 56 56 56 51 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 51 45 45 45 41 45 51 56 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 56 56 56 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 51 56 56 56 56 56 56 56 56 56 56 51 51 45 45 37 37 37 40 45 45 45 45 51 51 51 51 51 51 56 56 45 45 45 45 45 45 56 56 51 40 40 40 40 40 40 51 51 51 56 56 56 56 56 56 56 56 56 56 56 56 51 51 51 51 40 40 45 45 40 40 40 40 45 45 56 45 45 45 45 45 51 56 56 56 51 39 39 35 35 35 37 46 51 51 51 51 51 56 56 56 51 51 51 51 51 51 51 40 40 40 40 40 40 40 40 40 40 40 34 34 34 32 40 40 32 32 32 32 32 32 32 32 29 29 31 40 56 56 56 40 51 51 51 43 43 56 56 56 56 45 40 40 40 40 39 40 40 40 40 40 51 44 44 40 40 40 40 39 32 29 29 27 29 31 34 34 32 25 25 18 13 13 19 32 40 40 34 29 29 29 40 40 24 17 8 8 9 19 24 40 29 29 25 27 29 29 27 20 14 12 9 9 12 9 10 15 18 24 25 21 23 24 24 27 29 32 33 33 27 23 18 18 23 21 25 29 29 29 29 29 32 40 23 19 9 9 9 15 24 29 29 29 29 29 40 40 32 32 24 11 Fernán Agüero

Phrap: an assembler Phrap ensambla secuencias de DNA provenientes de proyectos de secuenciación al azar (shotgun) Usa la información de calidad provista por phred no hay necesidad de recortar las secuencias Puede usar bibliotecas de secuencias repetitivas (por ej Repbase) o usar datos sobre repeticiones calculadas internamente Mejor calidad de los resultados en presencia de repeticiones La secuencia final (contig) es un mosaico formado por las regiones de mejor calidad de cada secuencia No es un consenso! Puede manejar grandes sets de datos Cientos de miles de secuencias con facilidad 12 Fernán Agüero

Consed: a finisher Genome Res 8 (1998): 195 13 Fernán Agüero

Consed 14 Fernán Agüero

Consed 15 Fernán Agüero

Consed 16 Fernán Agüero

Consed 17 Fernán Agüero

Consed 18 Fernán Agüero

Phred / Phrap /Consed pipeline Input chromatogram files Quality (confidence) values assignment Phred phd files - *.phd Conversion - phd to fasta phd2fasta.pl nucleotide sequences - seqs_fasta quality values - seqs_fasta.screen.qual Vector screening and masking Cross_Match (local alignment program) x vector.seq screened/masked file - seqs_fasta.screen Assembly Phrap assembled contigs - seqs_fasta.screen.contigs assembly file - seqs_fasta.screen.ace# Chromat_dir Assembly viewing/editing Phd_dir Consed Edit_dir Finishing Consed 19 Fernán Agüero

Consed: autofinish Finish/finishing en secuenciación es el proceso de acabado de una secuencia edición manual corrección de errores de ensamblado y/o de secuencia re-secuenciación de clones seleccionados, o de productos de PCR amplificados ad hoc Clonado de regiones difíciles Validación del ensamble! 20 Fernán Agüero

Otros paquetes similares Staden Package staden.sf.net Integrado, como phred/phrap/consed Sólo ensamblado Celera Assembler TIGR Assembler CAP4 (Paracell) Sólo enmascarado de repeticiones/vector RepeatMasker Sólo basecaller Varios: cada secuenciador tiene el suyo propio Applied Biosystems (ABI): KB Basecaller (provee valores de calidad en las ultimas versiones) Pharmacia (MegaBACE): Cimarron Basecaller LifeTrace: Genome Res (2001) 11: 875 21 Fernán Agüero