La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

1 Fernán Agüero Phred / Phrap /Consed Genome/Sequence Assembly Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General.

Presentaciones similares


Presentación del tema: "1 Fernán Agüero Phred / Phrap /Consed Genome/Sequence Assembly Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General."— Transcripción de la presentación:

1 1 Fernán Agüero Phred / Phrap /Consed Genome/Sequence Assembly Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín

2 2 Fernán Agüero Qué es phred/phrap/consed? Phred/Phrap/Consed es un paquete de software utilizado para: Leer cromatogramas (trace files) Asignar valores de calidad a las bases individuales de una secuencia Identificar y enmascarar secuencias correspondientes a vector (plásmido) o secuencias repetitivas Ensamblar secuencias individuales en contigs Visualizar assemblies (contigs) Hacer sequence finishing auto dirigido (automatic finishing)

3 3 Fernán Agüero Por que hay que ensamblar? Los métodos actuales de secuenciación generan lecturas de pb (límite de resolución de la electroforesis) Para secuenciar un genoma, o cualquier segmento largo de DNA (cromosomas) hay que fragmentarlo (bibliotecas de clones) En la estrategia conocida como shotgun sequencing los clones se seleccionan al azar, se obtienen lecturas de los extremos y se ensamblan para obtener la secuencia final

4 4 Fernán Agüero Phred: a basecaller Genome Res 8 (1998): 175 Genome Res 8 (1998): 186

5 5 Fernán Agüero Phred Phred is a program that performs several tasks: –Reads trace files – compatible with most file formats: SCF (standard chromatogram format), ABI (373/377/3700), ESD (MegaBACE) and LI-COR. –Calls bases – attributes a base for each identified peak with a lower error rate than the standard base calling programs. –Assigns quality values to the bases – a Phred value based on an error rate estimation calculated for each individual base. –Creates output files – base calls and quality values are written to output files.

6 6 Fernán Agüero Trace files Alta calidad, sin ambigüedad

7 7 Fernán Agüero Trace files Calidad media, algunas ambigüedades

8 8 Fernán Agüero Trace files Baja calidad –la confianza en la asignación de bases es menor

9 9 Fernán Agüero Phred qualities q = - 10 x log 10 (p) Donde: q = quality value p = estimated probability error for a base call Ejemplos: q = 20 significa p = (1 error cada 100 bases) q = 30 significa p = (1 error cada 1000 bases) q = 40 significa p = (1 error cada bases)

10 10 Fernán Agüero Phred: PHD files BEGIN_SEQUENCE 01EBV10201A02.g BEGIN_COMMENT CHROMAT_FILE: EBV10201A02.g ABI_THUMBPRINT: PHRED_VERSION: g CALL_METHOD: phred QUALITY_LEVELS:99 TIME: Thu May 24 00:18: TRACE_ARRAY_MIN_INDEX: 0 TRACE_ARRAY_MAX_INDEX: TRIM: CHEM: term DYE: big END_COMMENT BEGIN_DNA t 8 5 c a c t a g t c a g c n c n n n n n n n c n END_DNA END_SEQUENCE t a a a g c c t g g g g t g c c t a a t g t g t c g n c t t c t c c c t c g g a g g

11 11 Fernán Agüero Phred: QUAL files Quality values in FASTA format > ABI trimmed

12 12 Fernán Agüero Phrap: an assembler Phrap ensambla secuencias de DNA provenientes de proyectos de secuenciación al azar (shotgun) –Usa la información de calidad provista por phred no hay necesidad de recortar las secuencias –Puede usar bibliotecas de secuencias repetitivas (por ej Repbase) o usar datos sobre repeticiones calculadas internamente Mejor calidad de los resultados en presencia de repeticiones –La secuencia final (contig) es un mosaico formado por las regiones de mejor calidad de cada secuencia No es un consenso! –Puede manejar grandes sets de datos Cientos de miles de secuencias con facilidad

13 13 Fernán Agüero Consed: a finisher Genome Res 8 (1998): 195

14 14 Fernán Agüero Consed

15 15 Fernán Agüero Consed

16 16 Fernán Agüero Consed

17 17 Fernán Agüero Consed

18 18 Fernán Agüero Consed

19 19 Fernán Agüero Phred / Phrap /Consed pipeline Chromat_dir Phd_dir Edit_dir Assembly viewing/editing Consed Assembly Phrap assembled contigs - seqs_fasta.screen.contigs assembly file - seqs_fasta.screen.ace# Vector screening and masking Cross_Match (local alignment program) x vector.seq screened/masked file - seqs_fasta.screen Conversion - phd to fasta phd2fasta.pl nucleotide sequences - seqs_fasta quality values - seqs_fasta.screen.qual Quality (confidence) values assignment Phred phd files - *.phd Input chromatogram files Finishing Consed

20 20 Fernán Agüero Consed: autofinish Finish/finishing –en secuenciación es el proceso de acabado de una secuencia edición manual corrección de errores de ensamblado y/o de secuencia re-secuenciación de clones seleccionados, o de productos de PCR amplificados ad hoc Clonado de regiones difíciles Validación del ensamble!

21 21 Fernán Agüero Otros paquetes similares Staden Package –staden.sf.net –Integrado, como phred/phrap/consed Sólo ensamblado –Celera Assembler –TIGR Assembler –CAP4 (Paracell) Sólo enmascarado de repeticiones/vector –RepeatMasker Sólo basecaller –Varios: cada secuenciador tiene el suyo propio Applied Biosystems (ABI): KB Basecaller (provee valores de calidad en las ultimas versiones) Pharmacia (MegaBACE): Cimarron Basecaller LifeTrace: Genome Res (2001) 11: 875


Descargar ppt "1 Fernán Agüero Phred / Phrap /Consed Genome/Sequence Assembly Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General."

Presentaciones similares


Anuncios Google