La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Bioinformática Estudio del flujo de información genética ▫ Bases de datos ▫ Predicciones ¡Es ciencia! ▫ Controles ▫ Validaciones.

Presentaciones similares


Presentación del tema: "Bioinformática Estudio del flujo de información genética ▫ Bases de datos ▫ Predicciones ¡Es ciencia! ▫ Controles ▫ Validaciones."— Transcripción de la presentación:

1 Bioinformática Estudio del flujo de información genética ▫ Bases de datos ▫ Predicciones ¡Es ciencia! ▫ Controles ▫ Validaciones

2 Flujo de la información ADNARNProteína NucleótidosAminoácidos Molécula: Compuesta por: A C G T Ala Cys Asp Glu Phe Gly His Ile Lys Leu Met Asn Pro Gln Arg Ser Thr Val Trp Tyr A C G U

3 Organización génica

4 AACGT TAATG TTGCA ATTAC + -

5 Biotipos Codificante de proteína ARNs (ARNt, ARNr, ARNlnc, miRNA) Pseudogenes Otros

6 Secuenciación de ADN Método Sanger ▫ Una secuencia por experimento ▫ Cerca de 1000 bases por secuencia

7 El proyecto Genoma Humano Comenzó hacia 1987 Duró unos 15 años Costó unos 3000 millones de dólares Proporciona un genoma de referencia

8 Métodos de segunda generación Unos 160 millones de secuencias por experimento Unas 108 bases por secuencia Un genoma humano se puede secuenciar en una semana por poco más de 5000 dólares

9 Tercera generación Sin pausa Molécula única Varios métodos en competencia ▫ Síntesis ▫ Poro ▫ Microscopía Altas tasas de error, especialmente en indels

10 Aplicaciones Genoma ▫ Inserciones/deleciones ▫ Mutaciones Exoma RNAseq ▫ Profundidad ▫ Mutaciones Epigenoma

11 Proyectos a gran escala Otros genomas 1000 genomes ICGC

12 Lecturas @GA05_0001:5:1:1160:10699#0/1 GGAATACAGAGANAGAAGAACACATCCCACAGTGCATAAATACCCATATTTA + CCCCCCCCCBAA#AAA????CCCCCC@CCC@@:?CC?CC:6?/?;>@BB>@B @GA05_0001:5:1:1160:14196#0/1 GGTAACCAAAACNAAAACTGTGTTTCTTATTTTTTCTCCAAAGAATAAAATA + CCCCCCCCCCCC#C?78;89CCCCCCCCBCCC>>>>>>CCCCBCCCCCC>>C @GA05_0001:5:1:1160:16684#0/1 TTGGTTTCCTTTNCAGATTTTGGAGGACTTTAACAAAATGAGATGATAAATG + CA=CCCCBAC>>#>:>:>>>AA@A@A4AAAA8AAAA@:==.>67>A>AAA@A @GA05_0001:5:1:1160:16712#0/1 TAGTTGAAGGCANCTAGACATTAGTATACCCTTTAATGAATAATGTTATTGA + C>CCACCC@C A?BB>B>A# Fastq

13 Alineamiento Profundidad de lectura

14 Sidrón Cálculo de probabilidades S = p(configuración | Het) / p(configuración | Hz) Low SHigh S

15 Base Calling with Sidrón Contingency Table f(read N a | real N b ) Q=40 Real Base ACGT Read Base A0.990.0020.004 C0.0010.990.0040.005 G0.0030.0040.980.001 T0.0060.0010.0020.99 Affymetrix 6.0 SNP array Illumina OmniQua d SNP array Common SNPs 275,976 (99.58% with same call) Collection of Hz positions Q=10 Real Base ACGT Read Base A0.790.200.410.37 C0.100.780.310.45 G0.340.140.780.12 T0.440.330.120.59

16 Problemas en alineamientos Zonas repetitivas

17 Problemas en alineamientos Indels

18 Problemas en alineamientos Zonas de baja complejidad

19 Variantes y Mutaciones Variación -> Respecto a genoma de referencia Mutación -> Respecto a genoma germinal Codificante / no codificante Sinónima / no sinónima Indel

20 Mutaciones somáticas Genoma de referencia Lecturas en tejido normal Lecturas en tejido tumoral

21 El algoritmo * * Alineamiento * * Candidatos (mq) * * Lecturas Tumor Normal Sidrón Somatic substitutions Polyfilter Coding muts Mutandis Indel count Somatic indels Bwa Picard Extract variant positions

22 ICGC Genoma tumoral Genoma constitutivo

23 ICGC ADN normal y tumoral de 500 pacientes Genoma completo, exoma, RNAseq, epigenoma Drivers y passengers Genoma tumoral Genoma constitutivo

24 Mutated Unmutated XPO1 MYD88

25 La larga cola

26 Proteínas Predicciones: ▫ Modificaciones post-traduccionales ▫ Parámetros químicos ▫ Dominios ▫ Estructuras

27 SF3B1 D894 N626YT663I K700EV701F G742DD894G U2AF65 interaction p14 interaction HEAT domain K666E K741N R625H Y623C H662D K700 V701 Y623 N626 R625 H662 K666 T663 K741 G742

28 POT1 12splY66*M1LK90E Y223C Y36N Q94R H266L G272VS250*Q301H POT1 ssDNA_binding binding_surface_II ssDNA_binding_site OB1/OB2_interface

29 POT1

30 Enfermedades hereditarias Variantes en genes No sinónimas No polimórficas Homozigotas Heterozigotas en padres 18.655 8.062 268 8 4

31 Progeria atípica

32 BANF1 y progeria Células progeroides BAF MUT BAF WT DAPI BANF1 Emerina ADN

33 Ordenadores CPU Memoria EntradaSalida

34 Lenguajes de programación Alto nivel ▫ LISP ▫ Python ▫ Perl ▫ Java ▫ HTML Bajo nivel ▫ Asm ▫ C (defparameter *small* 1) (defparameter *big* 100) (defun guess-my-number () (ash (+ *small* *big*) -1)) (defun smaller () (setf *big* (1- (guess-my-number))) (guess-my-number)) (defun bigger () (setf *small* (1+ (guess-my-number))) (guess-my-number)) (defun start-over () (defparameter *small* 1) (defparameter *big* 100) (guess-my-number)) #!/usr/bin/perl -w use strict; use IO::Uncompress::Gunzip; my $file = shift; my @temp = split /[\/\\]/, $0; my $pname = pop @temp; die("Use: perl $pname pileup_file\n") unless ($file && -e $file); my $fh; open ($fh, $file); my $c = get_chunk($fh); my $z = IO::Uncompress::Gunzip->new(\$c); while (my $l = $z->getline()){ print "$l\n"; } zstr_count: 00000030 B9FFFFFFFF mov ecx, -1.loop: 00000035 41 inc ecx 00000036 803C0800 cmp byte [eax + ecx], 0 0000003A 75F9 jne.loop.done: 0000003C C3 ret


Descargar ppt "Bioinformática Estudio del flujo de información genética ▫ Bases de datos ▫ Predicciones ¡Es ciencia! ▫ Controles ▫ Validaciones."

Presentaciones similares


Anuncios Google