Identificació de GENS al DNA.

Slides:



Advertisements
Presentaciones similares
AIGUAMOLLS DE L’ALT EMPORDÀ CdA Empúries.
Advertisements

ELS LLENGUATGES VISUALS
SINE’S AND LINE’S: PARÀSITS DEL DNA O ÚTILS PER EL GENOMA ????
SÍNTESI DE PROTEÏNES Què? Qui? Quan? Com?.
REACCIONS DE TRANSFERÈNCIA DE PROTONS
Superfícies.
Experimentem amb l’elasticitat escola arc iris roger soto, laura torcal, pere ros, lluc rodó, júlia aicart i jan sanfulgencio.
d' a s s i s t è n c i a al g o v e r n l o c a l
De DNA a proteïnes Durant molts anys el dogma central de la biologia molecular era aquest: Amb el temps han aparegut modificacions:
MESURA DEL RADI DE LA TERRA (seguint Eratóstenes)
ORIENTACIÓ I COORDENADES GEOGRÀFIQUES
Diferència entre éssers vius i matèria inerta:
ELS DINOSAURES.
Reaccions químiques.
BICENTENARI 12 de febrer de 2009
No tractar el càncer de pròstata, ¿és correcte?
Ciències per al món contemporani
DUPLICACIÓ DE L’ADN I TRANSCRIPCIÓ
PRONOMS RELATIUS i PRONOMS INTERROGATIUS
Característiques i classificació.
MÚLTIPLES I DIVISORS ESCOLA EL Cim- 6è de primària.
Pràctica 3. ELABORACIÓ D’UN MAPA GENÈTIC DE TRES MARCADORS.
CONCEPTES BÀSICS DE GENÈTICA.
Presentació de la base de dades
ADN i GENS.
NIVELLS D’0RGANITZACIÓ
AMPA 2.0 ? AMPA escola IPSE de Barcelona
L’Expressió escrita.
Les fraccions Sisè B curs
ELS MÈTODES D’EXPLORACIÓ DEL COS HUMÀ
TEXT DIDÀCTIC FUNCIONAL PER A FER UN ORGANIGRAMA
PROPIETATS PERIÒDIQUES DELS ELEMENTS
En aquest tema veurem els apartats següents:
Disseny i implementació d’una base de dades relacional
1 Gasos: conceptes bàsics La velocitat de difusió dels gasos
1. Aristòtil 1.4 El problema de l’ésser humà i del coneixement
Viatge a l’interior de la matèria.
IMPLIQUEM A TOTES LES CLASSES EN EL NOSTRE PROJECTE
DEL TEXT INFORMATIU AL TEXT DIDÀCTIC
DE LA DURADA AL RITME.
Cicle Superior (Curs 2015 / 2016) CIM D’ÀLIGUES.
Gene prediction (computational gene finding)
Presentació de la proposta curricular de Biologia per al batxillerat
Situacions Simuladores Preferencials (SSP)
Resultats DIAGNOSI SOCIO CULTURAL DE L’ENTORN FAMILIAR DELS I DE LES
Matemàtiques 3er E.S.O..
AIGUAMOLLS DE L’ALT EMPORDÀ.
RYT a matrícula (MAT) reunió de centres 21/05/2015.
Genòmica i reconstrucció filogenètica molecular
Tesis Doctorals en Xarxa
Curs de Llenguatge Administratiu Valencià Juli Martínez Amorós
Curs de Doctorat: Bioinformàtica
SíNTESI DE PROTEÏNES Traducció.
MP06 ANÀLISI ESTÈTICA CFGM ESTÈTICA I BELLESA
2. El materialisme històric de Marx
Sòlids Líquids Gasos Plasma
Pàgina El problema de realitat en l’empirisme modern 2.0 Límits del coneixement en Locke Distinció entre idees i qualitats Idees en la ment. Qualitats.
Tema 5: Nombres naturals i enters
CONNEXIONS SENSE CABLES I DISPOSITIUS MÒBILS
TECNOLOGIA.
MORFOLOGIA i SINTAXI PRONOMS RELATIUS i PRONOMS INTERROGATIUS
ESCOLA ANTONI TÀPIES- 5èB
introducció a la bioinformàtica
Introducció Al posicionament Web.
MPGM Ciutat Meridiana Procés participatiu Gener 2019.
Els sistemes materials
La cèl·lula eucariota.
Organització i creixement
MORFOLOGIA i SINTAXI PRONOMS RELATIUS i PRONOMS INTERROGATIUS
La inserció laboral dels graduats de grau de la UPF
Transcripción de la presentación:

Identificació de GENS al DNA. Albert Ardèvol 06/07 UAB

ESQUEMA. Introducció. Objectius. Mètodes. Homologia. Genòmica comparativa. Estadístics. Ab initio. miRNA.

INTRODUCCIÓ. El nombre de genomes seqüenciats augmenta exponencialment. El coll d’ampolla és trobar els gens i descobrir la seva funció. Per a molts dels genomes, la única anotació que hi haurà estarà basada en prediccions computacionals i comparacions d’elements funcionals amb altres espècies. La predicció computacional dels gens i les seves característiques no substitueix la experimentació sinó que proporciona un punt de partida per a la biologia molecular.

OBJECTIUS. A partir d’una seqüència de DNA no caracteritzada, trobar: Quina regió codifica per a una proteïna? Quina cadena codifica el gen? Quin és el marc de lectura? On comença i acaba el gen? On comença i acaba un intró/exó? On es troben les regions reguladores del gen?

MÈTODES. Mètodes Ab initio. Mètodes Comparatius. Mètodes Estadístics. Identificació de l’estructura del gen usant només la informació inherent a la seqüència de DNA. Mètodes Ab initio. Mètodes Comparatius. Genòmica comparativa. -Homologia amb proteïnes. -Homologia amb cDNA. -Homologia amb ESTs. Mètodes Estadístics. Mètodes Mixtes.

PROCARIOTES. Procariotes vs Eucariotes - Genoma petit. Alta densitat de gens. Sense introns. - Genoma gran. Baixa densitat de gens. Amb introns i exons. Identificació dels gens fàcil (≈ 99%) Identificació dels gens difícil (≈ 50%)

PROCARIOTES. Per a gens procariotes, les tècniques més simples es basen en la indentificació de marcs de lectura oberts (ORFs). Els ORFs s’utilitzen en cerques contra bases de dades de proteïnes fent servir el blastx. -Algorisme heurístic. -Alineament local. Empra l’algorisme de Blast per a comparar les 6 possibles lectures d’una sequència de nucleòtids contra una base de dades de proteïnes. Els gens codificants de tRNAs i rRNAs es detecten usant blastn Compara (alinea) una seqüència de nucleòtids contra una base de dades de seqüències nucleotídiques.

HOMOLOGIA. -Proteïnes: -ESTs i cDNA: -Es compara la traducció de la seqüència amb una base de dades de proteïnes. -ESTs i cDNA: -Es compara la seqüència amb bases de dades de cDNA / ESTs. -Com que prové de mRNA no hi ha els problemes dels introns, codons start/stop, … (generalment). -ESTs poden cobrir més d’un exó, pot haver splicing incomplet, …

GENÒMICA COMPARATIVA. Es basa en la suposició de que les seqüències codificants estan més conservades que les no-codificants. -Intra-genòmica: Famílies de gens. -Inter-genòmica: Espècies creuades. Fa ús simultani de múltiples genomes per a predir gens

MÈTODES COMPARATIUS. J Com que es basen en informació biològica pre-existent, les prediccions són relevants. - Al mateix temps que prediu el gen, dóna informació sobre la funció. J Hi ha una gran quantitat de ESTs disponibles. J Més útil a mesura que es seqüenciïn més genomes. J Per a espècies molt properes, l’anotació és trivial. L La seqüència no-codificant complica la predicció. L No identifica gens que no estiguin a les bases de dades. L Els cDNAs i alguns ESTs contenen més d’un exó. - 1-5% dels ESTs tenen introns per splicing incomplet.

Longitud de la seqüència (b) ESTADÍSTICS. Selecció Positiva: Es basa en l’assumpció que les regions codificants estaran més conservades que les no-codificants. A la pràctica s’analitzen seqüències d’entre 8 i 50 nucleòtids, que modelen els elements funcionals dels gens. L’objectiu final és poder dir, per a cada base, si està subjecte a selecció positiva o no, i en quin grau. L Es pot demostrar que: J La identificació de bases sotmeses a selecció positiva és el mètode més “imparcial”. Longitud de la seqüència (b) Falsos Positius Nombre de genomes 8 6·10-3 / 1·10-3 3 / 16 50 1 / 3

AB INITIO. input output Codificant Cercador ab-initio No-codificant Generalment es fa en 2 fases: Detectar senyals dels gens. Llocs d’unió a ribosoma. Llocs de splicing. Codons de inici / fi. Etc… Combinar les parts estructurals trobades per a formar els gens.

AB INITIO. Una característica universal present en qualsevol genoma és l’ús desigual de codons en les regions codificants. Aprofiten aquesta característica per a diferenciar entre les zones codificants i les no codificants. Es pot generar una funció que, donada una seqüència de DNA, calculi la probabilitat de que aquesta sigui codificant. Ús de codons. Freqüència d’hexàmers. Contingut de GC. Periodicitat i/o aleatorietat dels nucleòtids. Etc…

AB INITIO. Base de dades de ús de codons: http://www.kazusa.or.jp/codon/

AB INITIO. J Molt útil quan no hi ha un genoma proper per comparar. J Més ràpid que els mètodes comparatius. K Especificitat o Sensibilitat? - Prediccions d’alta qualitat i perdre gens. - Trobar tots els gens però amb falsos positius. L Les senyals essencials per a la identificació de l’estructura d’un gen són degenerades i inespecífiques. L Alguns elements repetitius contenen regions codificants.

SENYALS. Senyal: una regió de la seqüència que és reconeguda per la maquinària cel·lular maquinària predictiva.

SENSORS. Hi ha varis mètodes per a reconèixer els patrons que identifiquen les senyals: Seqüències consens. Matrius de reconeixament. Hidden Markov Models (HMM). Xarxes neurals. Etc…

HMM. El Hidden Markov Model es consta d’un conjunt finit de estats, assosciats a una distribució de probabilitat multidimensional. Les transicions entre estats estan governades per unes probabilitats de transició. Per a un estat particular, es genera una observació d’acord amb la distribució de probabilitats. Els estats no són visibles i per això s’anomena hiddenMM.

HMM. Les observacions són els nucleòtids {A,C,T,G} de la seqüència. Cada nucleòtid es genera en un cert estat: Per a un model procariota serà intergènic, start/stop o codificant. AAAGC ATG CAT TTA ACG AGA GCA CAA GGG CTC TAA TGCCG Estats diferents generen nucleòtids amb diferents freqüències (probabilitat). Es poden combinar més d’un model – distribució de probabilitats.

HMM. Model amb estructura de introns + exons. E I Exó Intró Exó Intró

HMM. Model amb una estructura complexa de senyals. Cada “domini” vindrà definit amb les seves pròpies probabilitats i transicions.

DIFICULTATS. Gens separats per regions intergèniques llargues. Discontinuitats en els gens. Regions codificants menors que les no codificants. Les senyals d’identificació de l’estructura dels gens són degenerades i inespecífiques. Splicing alternatiu. Elements repetitius que contenen regions codificants.

RNA funcional. Les aproximacions basades en una única seqüència no són suficientment estadístiques per a detectar els gens per RNA, i per tant només es poden fer servir mètodes comparatius. Una excepció és la predicció de tRNA, degut a que tenen una longitud de seqüència restringida i una estructura 3D característica. Els mètodes comparatius es complementen amb la predicció de l’estructura i una estimació de l’estabilitat d’aquesta.

miRNA. miRNASEEKER: Desenvolupat per a trobar miRNA genes a Drosophila melanogaster. 1.- S’alinea el genoma de D. melanogaster amb el de D. pseudoobscura amb el programa AVID. 2.- Les regions de 100+ pb d’identitat són candidates: Es prediu el plagament del RNA usant l’algorisme Mfold. 3.- El 25% millors en puntuació també es pleguen en les dues espècies. 4.- S’aplica la restricció que 22+ pb coincideixin exactament entre les dues espècies a aproximadament 10 pb del loop terminal. 5.- Si els dos braços de l’estructura compleixen les condicions, aleshores es considera que la seqüència codifica per a miRNA.

miRNA. Al 2004 Rhoades & Bartel van aplicar una metodologia similar en Arabidopsis thaliana. Al 2005 Bentwich la va aplicar al genoma humà afagint algunes restriccions més: Longitud dels braços. Longitud del loop. Energia d’unió. Contingut GC. Etc… L La especificitat de la predicció no és suficient per a no haver de confirmar-la a un wet-lab. J Van modificar l’algorisme donant menys pes a la conservació de la seqüència. Van trobar 53 miRNA gens no conservats fora dels primats.

FUTUR. Els programes més exitosos són aquells que combinen mètodes ab initio amb comparatius (en concret, seqüències ortòlogues). Per tant, avançar en la seqüenciació dels genomes fa avançar en la predicció dels gens. Es desenvolupen sensors de senyals basats en l’estructura tridimensional del mRNA. Degut a la importància dels miRNA, es desenvolupen mètodes basats en el càlcul de l’energia d’unió per a millorar les prediccions.

GRÀCIES!