Bioinformática Estudio del flujo de información genética ▫ Bases de datos ▫ Predicciones ¡Es ciencia! ▫ Controles ▫ Validaciones.

Bioinformática Estudio del flujo de información genética ▫ Bases de datos ▫ Predicciones ¡Es ciencia! ▫ Controles ▫ Validaciones

Flujo de la información ADNARNProteína NucleótidosAminoácidos Molécula: Compuesta por: A C G T Ala Cys Asp Glu Phe Gly His Ile Lys Leu Met Asn Pro Gln Arg Ser Thr Val Trp Tyr A C G U

Organización génica

AACGT TAATG TTGCA ATTAC + -

Biotipos Codificante de proteína ARNs (ARNt, ARNr, ARNlnc, miRNA) Pseudogenes Otros

Secuenciación de ADN Método Sanger ▫ Una secuencia por experimento ▫ Cerca de 1000 bases por secuencia

El proyecto Genoma Humano Comenzó hacia 1987 Duró unos 15 años Costó unos 3000 millones de dólares Proporciona un genoma de referencia

Métodos de segunda generación Unos 160 millones de secuencias por experimento Unas 108 bases por secuencia Un genoma humano se puede secuenciar en una semana por poco más de 5000 dólares

Tercera generación Sin pausa Molécula única Varios métodos en competencia ▫ Síntesis ▫ Poro ▫ Microscopía Altas tasas de error, especialmente en indels

Aplicaciones Genoma ▫ Inserciones/deleciones ▫ Mutaciones Exoma RNAseq ▫ Profundidad ▫ Mutaciones Epigenoma

Proyectos a gran escala Otros genomas 1000 genomes ICGC

Lecturas @GA05_0001:5:1:1160:10699#0/1 GGAATACAGAGANAGAAGAACACATCCCACAGTGCATAAATACCCATATTTA + CCCCCCCCCBAA#AAA????CCCCCC@CCC@@:?CC?CC:6?/?;>@BB>@B @GA05_0001:5:1:1160:14196#0/1 GGTAACCAAAACNAAAACTGTGTTTCTTATTTTTTCTCCAAAGAATAAAATA + CCCCCCCCCCCC#C?78;89CCCCCCCCBCCC>>>>>>CCCCBCCCCCC>>C @GA05_0001:5:1:1160:16684#0/1 TTGGTTTCCTTTNCAGATTTTGGAGGACTTTAACAAAATGAGATGATAAATG + CA=CCCCBAC>>#>:>:>>>AA@A@A4AAAA8AAAA@:==.>67>A>AAA@A @GA05_0001:5:1:1160:16712#0/1 TAGTTGAAGGCANCTAGACATTAGTATACCCTTTAATGAATAATGTTATTGA + C>CCACCC@C A?BB>B>A# Fastq

Alineamiento Profundidad de lectura

Sidrón Cálculo de probabilidades S = p(configuración | Het) / p(configuración | Hz) Low SHigh S

Base Calling with Sidrón Contingency Table f(read N a | real N b ) Q=40 Real Base ACGT Read Base A0.990.0020.004 C0.0010.990.0040.005 G0.0030.0040.980.001 T0.0060.0010.0020.99 Affymetrix 6.0 SNP array Illumina OmniQua d SNP array Common SNPs 275,976 (99.58% with same call) Collection of Hz positions Q=10 Real Base ACGT Read Base A0.790.200.410.37 C0.100.780.310.45 G0.340.140.780.12 T0.440.330.120.59

Problemas en alineamientos Zonas repetitivas

Problemas en alineamientos Indels

Problemas en alineamientos Zonas de baja complejidad

Variantes y Mutaciones Variación -> Respecto a genoma de referencia Mutación -> Respecto a genoma germinal Codificante / no codificante Sinónima / no sinónima Indel

Mutaciones somáticas Genoma de referencia Lecturas en tejido normal Lecturas en tejido tumoral

El algoritmo * * Alineamiento * * Candidatos (mq) * * Lecturas Tumor Normal Sidrón Somatic substitutions Polyfilter Coding muts Mutandis Indel count Somatic indels Bwa Picard Extract variant positions

ICGC Genoma tumoral Genoma constitutivo

ICGC ADN normal y tumoral de 500 pacientes Genoma completo, exoma, RNAseq, epigenoma Drivers y passengers Genoma tumoral Genoma constitutivo

Mutated Unmutated XPO1 MYD88

La larga cola

Proteínas Predicciones: ▫ Modificaciones post-traduccionales ▫ Parámetros químicos ▫ Dominios ▫ Estructuras

SF3B1 D894 N626YT663I K700EV701F G742DD894G U2AF65 interaction p14 interaction HEAT domain K666E K741N R625H Y623C H662D K700 V701 Y623 N626 R625 H662 K666 T663 K741 G742

POT1 12splY66*M1LK90E Y223C Y36N Q94R H266L G272VS250*Q301H POT1 ssDNA_binding binding_surface_II ssDNA_binding_site OB1/OB2_interface

Enfermedades hereditarias Variantes en genes No sinónimas No polimórficas Homozigotas Heterozigotas en padres 18.655 8.062 268 8 4

Progeria atípica

BANF1 y progeria Células progeroides BAF MUT BAF WT DAPI BANF1 Emerina ADN

Ordenadores CPU Memoria EntradaSalida

Lenguajes de programación Alto nivel ▫ LISP ▫ Python ▫ Perl ▫ Java ▫ HTML Bajo nivel ▫ Asm ▫ C (defparameter *small* 1) (defparameter *big* 100) (defun guess-my-number () (ash (+ *small* *big*) -1)) (defun smaller () (setf *big* (1- (guess-my-number))) (guess-my-number)) (defun bigger () (setf *small* (1+ (guess-my-number))) (guess-my-number)) (defun start-over () (defparameter *small* 1) (defparameter *big* 100) (guess-my-number)) #!/usr/bin/perl -w use strict; use IO::Uncompress::Gunzip; my $file = shift; my @temp = split /[\/\\]/, $0; my $pname = pop @temp; die("Use: perl $pname pileup_file\n") unless ($file && -e $file); my $fh; open ($fh, $file); my $c = get_chunk($fh); my $z = IO::Uncompress::Gunzip->new(\$c); while (my $l = $z->getline()){ print "$l\n"; } zstr_count: 00000030 B9FFFFFFFF mov ecx, -1.loop: 00000035 41 inc ecx 00000036 803C0800 cmp byte [eax + ecx], 0 0000003A 75F9 jne.loop.done: 0000003C C3 ret

Bioinformática Estudio del flujo de información genética ▫ Bases de datos ▫ Predicciones ¡Es ciencia! ▫ Controles ▫ Validaciones.

Presentaciones similares

Presentación del tema: "Bioinformática Estudio del flujo de información genética ▫ Bases de datos ▫ Predicciones ¡Es ciencia! ▫ Controles ▫ Validaciones."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Bioinformática Estudio del flujo de información genética ▫ Bases de datos ▫ Predicciones ¡Es ciencia! ▫ Controles ▫ Validaciones.

Presentaciones similares

Presentación del tema: "Bioinformática Estudio del flujo de información genética ▫ Bases de datos ▫ Predicciones ¡Es ciencia! ▫ Controles ▫ Validaciones."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback