La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Anotación de Genomas con ESTs

Presentaciones similares


Presentación del tema: "Anotación de Genomas con ESTs"— Transcripción de la presentación:

1 Anotación de Genomas con ESTs
Eduardo Eyras Bioinformática UPF – Marzo 2006

2 Objetivos: Conocer un poco más sobre como se anotan genomas automáticamente Y el uso de ESTs para anotar genomas

3

4

5

6

7 Objetivo

8 Localización en el genoma de genes conocidos
(known) Proteínas conocidas Secuencias de mRNAs

9 Alineamiento de proteínas/mRNAs al genoma en dos pasos
1 BLAST proteína/mRNA “query” contra genoma 2 Realinea proteína/mRNA “query” contra región genómica Resultado: estructura exónica

10 Alineando mRNAs al genoma
mRNA “query” . . . GCCGCACCTGAAGAGGGAAAAGC . . . 404 : CAGCCGCACCTGAAGAGG >>>> Target Intron 2 >>>> GAAAAGC : |||||||||||||||||| bp ||||||| : CAGCCGCACCTGAAGAGGgt agGAAAAGC : El objetivo es utilizar mRNAs (de EMBL/Genbank/DDBJ) para anotar genes sobre la secuencia genómica. BLAST produce alineamientos locales pero no tiene noción de “intrón”. Necesitamos recuperar la estructura exónica (es decir, exón-inrón-exón-etc…) con los sitios de splicing correctos sobre el genoma. Existen programas que combinan el alineamiento de secuencias de DNA con una noción de estructura exónica. El alineamiento suele comenzarse con una heurística parecida a la de BLAST: buscando palabras para establecer alineamientos semilla que luego son extendidos. Esta extensión incorpora una búsqueda de sitios de splicing y permitiendo que el alineamiento final esté interrumpido por intrones. Secuencia genómica Programas: Exonerate, Blat, Sim4, Spidey

11 Alineando Proteínas al genoma
Proteína “query” DCUP_HUMAN RFPLDAAIIFSDILVVPQALGMEVTM . . . DCUP_HUMAN RFPLDAAIIFSDILVVPQ ALGMEVTM RF LDAAIIFSDILVVPQ ALGMEVTM RFLLDAAIIFSDILVVPQ ALGMEVTM HS ctccgggaattgacggccGTACCCA Intron 4 CAGgcgaggaa gtttacctttcattttca<0-----[2195 : 2433]-0>ctgtatct cctgttcctccccttacg agcgggcg La traducción de la secuencia genómica El objetivo es utilizar proteínas (de SwissProt y Tr-EMBL) para anotar genes sobre la secuencia genómica. BLAST produce alineamientos locales (BLASTX puede alinear proteínas al genoma), pero no tiene noción de “intrón”. Necesitamos recuperar la estructura exónica (es decir, exón-inrón-exón-etc…) con los sitios de splicing correctos sobre el genoma. El programa Genewise combina un modelo de estructura exónica de gen con un alineamiento de proteína a DNA. Esto nos permite que a la vez que realizamos un alineamiento de proteína a DNA (traduciendo el DNA), estamos “buscando” sitios de splicing y permitiendo que el alineamiento final esté interrumpido por intrones. Secuencia genómica partida en codones Programas: GeneWise, Exonerate

12 Combinando proteinas y mRNAs
Proteína alineada al genoma mRNA alineado en el mismo locus Anotación de un tránscrito con CDS y UTR Cuando una anotación que hemos deducido a partir de una proteína coincide con una anotación que hemos deducido de un mRNA podemos anotar UTRs. Ambas estructuras exónicas deben ser compatibles. Los exones codificantes terminales son extendidos usando la estructura exónica dada por el mRNA. También se añaden exones que podrían estar en el mRNA y no en la proteína. Estos últimos exones son enteramente UTR. El resultado es una anotación de un tráscrito con UTR y CDS, tal y como lo podemos ver dibujado en las páginas GeneView de Ensembl. En estas páginas, los bloques sólidos son exones codificantes y los bloques vacíos son la parte UTR.

13 Como encontrar más genes (novel)
Programas de predicción de genes: e.g. Genscan, Geneid, SGP2, Twinscan, etc… Predicción Comparamos con bases de datos (Proteínas, mRNAs, ESTs, etc) En general, se consideran únicamente las predicciones con evidencia en bases de datos (proteíinas, mRNAs, ESTs) de cualquier especie. También podemos combinar esa evidencia para obtener más de una estructura exónica. La evidencia puede indiicar el uso alternativo de un exón. Esto se puede comprobar automáticamente y reconstruir los tránscritos a partir de los exones individuales dados por la predicción original. Tránscrito 1 Tránscrito 2 Contruimos tráncritos a partir de predicciones con evidencia

14 Anotación Funcional Anotación (predicción a partir de proteína o mRNA)
Comparación con Bases de Datos con información Funcional

15 A la caza de genes Consorcio Público (HGP): Secuenciación del Genoma
Inciativa privada (Craig Venter): Secuenciación de ESTs It is interesting to consider a bit the history about how ESTs came into play. The Human Genome Project had proposed to sequence the entire human genome with the aim of finding all the human genes. Large-scale DNA sequencing is a very recent development. Just a decade ago, it was still a tantalizing prospect rather than a day-to-day reality. Researchers had devised a way of determining the order of the molecules that make up DNA. But it was a slow and laborious process. Sequencing the 3 billion genetic bases in the DNA of the human genome seemed a distant prospect. The first major step forward was the development of an automated DNA sequencer in the late 1980s. With the attachment of a different fluorescent dye to each of the four bases that make up DNA, the sequencer could identify several thousands bases per day with far less human labor. Still, at the rate of sequencing then possible, determining the entire human genome would have taken decades. By 1991, fewer than 2,000 genes that encode human proteins had been sequenced and deposited in public databases. At about that time, J. Craig Venter, then a Section Chief at the National Institute of Neurological Disorders and Stroke, developed a way of finding human genes that does not require sequencing of the entire human genome. He relied on the fact that only about 3 percent of the genome is composed of genes. The rest of human DNA has unknown, if any, function. Venter realized that the most efficient way to find genes would be to use the processing machinery of the cell. When a cell produces proteins, only part of its DNA is active. These "expressed" segments of DNA are converted and edited by enzymes into molecules known as messenger RNA. Using an enzyme called reverse transcriptase, researchers can convert messenger RNA into a kind of DNA known as complementary DNA, or cDNA. These molecules are much more stable than messenger RNA and can be studied in the laboratory.

16 ESTs (Expressed Sequence Tags)
Traducción: Etiquetas de secuencias expresadas? Son fragmentos de secuencia obtenidos a partir de clones de cDNA Tiene una longitud de bases Pueden contener parte del CDS y/o UTR ESTs son secuencias cortas obtenidas a partir de clones de cDNA. cDNA (AND complementario a partir de mRNA) se prepara convirtiendo un preparado de mRNA en DNA de doble cadena. El mRNA de una célula se deriva en general de genes que codifican por proteínas. Así, estos cDNAs y los ESTs derivados de ellos representan los genes que son expresados en la célula a partir de la cual se preparó el mRNA. Los ESTs se pueden ver como un método rápido de ganar acceso a las secuencias de genes, y son útiles incluso siendo incompletas. ESTs: They represent snapshots of the genome being expressed in a certain set of conditions. They are single pass sequence reads from cDNAs cloned from a cell They are usually short, 5’ and 3’ ends from the clones are usually over-represented. Sequence quality usually diminishes at the end of the ESTs. Some contain pieces of sequence from the vectors. ESTs may contain coding and non-coding regions from the cDNA The information they provide can be biased by a too restrictive sampling. Note: mRNA is very unstable outside of a cell; therefore, scientists use special enzymes to convert it to complementary DNA (cDNA). cDNA is a much more stable compound and, importantly, because it was generated from a mRNA in which the introns had been removed, cDNA represents only expressed DNA sequence.

17 Obtención de cDNA mRNA extraído de células de un determinado tejido, estado de enfermedad y desarrollo. Un método para preparar cDNAs: La mayoría de los mRNAs en eucariotas tienen una poly(A) en el final 3prima. Esta seria de Adeninas se usan para el paso inicial de la síntesis de cDNA, que lo lleva a cabo la Transcriptasa Reversa. Esta es una AND-polimerasa que copia un “template” (plantilla) de RNA. El “primer” típico es una cadena de unos 20 nucleótidos compuesta enteramente de T´s (oligo dT primer). Después de completar la síntesis de la primera banda, se trata la preparación con Ribonucleasa H, la cual degrada de forma específica la cadena de RNA en el híbrido RNA-DNA. Sin embargo, las condiciones del experimento son tales que la enzima no degrada toda la cadena de RNA, sino que deja pequeños segmentos de RNA que sirven de primer para generar la reacción de síntesis de la segunda banda de DNA (anillan la síntesis de la banda complementaria). Esta última está catalizada por DNA-polimerasa I.

18 Single-pass sequence reads
ESTs 5’ 3’ AAAAAA Clone cDNA into a vector TTTTTT 3’ 5’ 5’ EST Single-pass sequence reads Multiple cDNA clones 3’ EST Las moléculas de cDNA son clonadas en vectores. Esto genera lo que se conoce como una librería de clones de cDNA (cDNA clone-library). Los clones se escogen aleatoriamente para ser secuenciados. Unicamente segmentos cortos del extremo 5´y 3´del clon son secuenciados.

19 Muestreando el Transcriptoma con ESTs
Genoma Tránscrito primario Splicing Variantes de splicing oligo-dT primer Transcriptasa Reversa Clones de cDNA La transcriptasa reversa usada para generar cada cDNA se separa de la plantilla en un momento dado. En ese preciso instante termina la producción de cDNA. Por tanto por cada mRNA se pueden producir varios fragmentos de cDNA de diferente longitud, con una sobrerrepresentación del estreme 3 prima. La diferentes longitudes en los clones de cDNA es un factor importante para que los ESTs 5 prima puedan muestrear toda la longitud del gene. Normalmente, entre varios cientos y varios miles de clones se aislan de una libreria de cDNAs. Cada clon es secuenciado un única vez, desde uno o ambos extremos de la inserción de cDNA, usando primers universales que son complementarias al vector en el sitio de clonaje. En casi todos los casos, el proceso produce clones “orientados”, donde las posiciones de los extremos 5 prima y 3 prima del cDNA relativas al vector son conocidas en principio (aunque a veces estan sometidas a cierto error experimental). Por tanto, dos primers basados en el vector pueden usarse para obtener secuencia 3 prima y 5 prima del mismo clon. Dependiendo de la longitud de la inserción y la calidad de las trazas, las secuencias obtenidas para los dos extremos podrían solaparse. Se hace una única lectura para cada primer. Por como se obtinene los ESTs, estas secuencias proporcionan un muestreo de los tránscritos expresados por un genoma. A su vez, los ESTs pueden capturar la variabilidad del splicing en genes, ya que muestrean trozos de los múltples tráscritos a los que puede dar lugar un gen. Secuencias de ESTs (una única lectura) 5’ ’ 5’ ’

20 Distribución de longitudes para ESTs de human (dbEST)
Longitud de los ESTs ~ 450 bp Distribución de longitudes para ESTs de human (dbEST) Los ESTs tienen normalmente entre 400 y 600 bases. Para humano, la distribución tiene un máximo alrededor de 450 bases. Sin embargo, hay un pico alrededor de las 1000 bases. Esto tiene que ver con que hay muchos cDNAs que han sido secuenciados enteramente y que han sido registrados como ESTs en Genbank.

21 Alineamiento de ESTs al genoma para anotar genes
GT AG GT AG El alineamiento de ESTs al genoma nos permite por tanto encontrar exones e intrones. Por otra parte, al ser fragmentos de mRNAs, sólo obtenemos parte de la estructura exónica de los genes. El alineamiento define exones e intrones

22 dbEST: Más de 7 MILLONES de ESTs de humano
Alineamiento al genoma humano ~ 3 Gigabases Sin embargo, tenemos que procesar muchos datos. En la actualidad hay más de 7 millones de ESTs para humano, y todas esas secuencias las tenemos que comparar con los 3 mil millones de bases que componen el genoma humano.

23 Bioinformática como una Tecnología
Desarrollo de software specializado: Programas que mejoran en rapidez sin perder en calidad en los alineamientos. Desarrollo de tecnología especializada: Computación en paralelo con más de 2000 CPUs

24 Alineamiento de ESTs al genoma
Pueden contener colas polyA/polyT del cDNA: tenemos que cortarlas Pueden contener contaminación del vector: tenemos que filtrarlos. Pueden contener intrones no procesados (clones de tránscritos no maduros): damos preferencia a ESTs que alineen con 1 ó más intrones, con dinucleótidos consenso: GT—AG, AT—AC, GC—AG Es secuenciación de baja calidad (1 única pasada): Solo aceptamos “matches” casi exactos al genoma (coverage >= 97%, percent id>= 95%)

25 Mejor alineamiento en todo el genoma
Alineamiento de ESTs al genoma EST Stop PolyA * AAAA Pseudogene procesado GT AG GT AG Mejor alineamiento en todo el genoma Al alinear ESTs al genoma podemos encontrar los siguientes problemas. Un mismo EST puede alinear a múltiples lugares del genoma. Sin embargo, sabemos que ese EST sólo puede venir de un lugar. Estos múltiples lugares corresponden a: Parálogos: genes de la misma familia que tienen secuencia similar al EST que estamos alineando. En general, genes parálogos comparten exones con el gen del que proviene el EST. El EST puede alinear a este locus parálogo, pero lo hará en general con menor porcentaje de identidad y menor coverage (fracción de la longitud del EST que podemos alinear). Pseudogenes procesados: un EST proveniente de un gen funcional puede alinear a un locus donde quedan “restos” de una retro-transposición. Dicho gen puede haber sufrido una reinserción de su mRNA en otros lugares del genoma. Los ESTs de est gen aún guardan similitud en secuencia con estos “fósiles”. Estos casos los podemos reconocer porque suelen aparecer sin intrones, aun teniendo un alineamiento con intrones en otro lugar del genoma. En general nos quedaremos con el mejor alineamiento que encontremos para cada EST, ya que el EST viene de un único lugar. Como definir el mejor está basado en el porcentaje de identidad y en el coverage (que es la fracción de longitud del EST que hemos alineado al genoma). Parálogo

26 Alineamiento de ESTs al genoma
EST quimérico Trozo de gen A Trozo de gen B Existen también ESTs quiméricos: Algunos ESTs contienen dos trozos de genes distintos. Esto puede ser debido a un error en la creación de las librerías de clones. Sin embargo, se ha visto que hay casos de tránscritos que combinan exones de dos locus del genoma distintos, generalmente en tandem. Por ejemplo: el gen KUA-UEV. De hecho, usando ESTs (Parra et al) se han podido encontrar otros casos de genes posicionados en tandem que producen tránscritos quiméricos. Luego no todos los ESTs quiméricos son artefactos experimentales. Thomson et al.. Fusion of the human gene for the polyubiquitination coeffector UEV1 with Kua, anewly identified gene.Genome Res Nov;10(11): Parra et al. Tandem chimerism as a means to increase protein complexity in the human genome.Genome Res Jan;16(1):37-44

27 ESTs dan información sobre variantes de splicing
Genoma ¿Cuales son los tránscritos representados por este set de ESTs alienados al genoma? ¿podemos averiguar el conjunto de mRNAs en este locus del genoma que supuestamente han dado lugar ha estos ESTs?

28 Compatibilidades entre distintos ESTs
2 ESTs pueden tener estructura exónicas redundantes: x z x + z z es redundante con x -> es suficiente quedarnos con x La forma en como se hace el muestreo de ESTs hace que a menudo presenten información redundante. Es decir, un EST proporciona información que está totalmente contenida en otro EST. Decimos entonces que está incluido en el otro EST. En principio, podemos excluir estos ESTs que son redundantes, ya que no nos proporcionarían información nueva.

29 Extensión de la estructura exónica
Consider 2 ESTs in a Genomic Cluster with more ESTS x y x + y y extiende x, podemos asumir que provienen del mismo mRNA También puede ocurrir que un EST en el genoma extienda a otro. Con esto podemos completar la información proporcionada por un EST con la de otro. Esto nos sirve para extender. Aqui estamos suponiendo que ambos ESTs provienen del mismo mRN, aunque esto no es necesariamente el caso.

30 Extensión de la estructura exónica
El resultado depende de la representación de exones en los ESTs. Sin embargo, ESTs suelen representar mayormente regiones 3’y 5’. x z w Un EST puede extender la estructura exónica de otro EST. Esta extensión se puede encadenar con más de dos ESTs. Sin embargo, ya que los ESTs representan mayormente la región 5 prima y 3 prima de los genes, no siempre podremos encadenar ESTs a lo largo de todo el gen y encontraremos fragmentación. ESTs como z no son muy frecuentes, por lo que tendremos fragmentación

31 Complejidad de las estructuras exónicas
z w x + z z + w En un grupo de ESTs pueden existir redundancias y extensiones. Todas pueden ser importantes: w es compatible con z pero no con x, mantenemos z a pesar de ser redundante con x, para obtener z + w A pesar de tener ESTs redundantes, no debemos eliminarlos completamente. La relación de estos ESTs con un tercer EST (como en el dibujo) nos puede servir para extender una estructura exónica alternativa. El EST z es redundante con el EST x, luego z no proporciona ninguna información extra a x. Pero z es extendido por w. Luego z y w se pueden combinar para dar una variante de splicing.

32 Predicción de tránscritos a partir de ESTs
Predicciones Teniendo en cuenta las relaciones de compatibilidad entre los ESTs en un locus del genoma, podemos convertir la información fragmentada de los ESTs en información completa: es decir, podemos tratar de reconstruir los mRNAs a partir de los cuales supuestamente se han obtenido los ESTs que estamos observando. Podemos obtener predicciones de mRNAs teniendo en cuenta las compatibilidades entre ESTs. Eyras et al. Genome Research 2004

33 Secuenciación de ESTs a gran escala en paralelo a la secuenciación de un genoma
La utilidad de los ESTs para la anotación de genes, y en particular, para estudiar el splicing alternativo en genomas, ha hecho que para cada proyecto de secuenciación de genomas se lleve a cabo conjuntamente la secuenciación de ESTs de ese genoma. Esto permite acelerar el proceso de búsqueda de genes.

34 ESTs proporcionan información sobre la expresión de genes
Ontologías eVOC El tejido, órgano o sistema anatómico en el que se ha preparado la muestra. Por ejemplo: digestivo, pulmón, retina. El tipo de célula en el que se ha preparado la muestra.Ejemplo: Linfocitos B, Fibroblasto. El estado patológico del tejido en el que se preparó la muestra. Por ejemplo: normal, linfoma. El estadio en el desarrollo del organismo en el cual se preparó la muestra. Por ejemplo: embrión, feto, adulto. Sistema Anatómico Tipo de Célula Patología ESTs also allow the identification of genes specifically expressed in a chosen library or tissue, since they are obtained in a given set of known conditions. Once we localize the gene an EST belongs to, we obtain expression information about that gene. Currently there are several projects to organize the expression information in a set of Orthogonal Vocabularies which can describe the expression in a Specific manner: Ontology. One of these projects is the eVOC Ontologies from SANBI which provides a very high quality classification of the expression information for ESTs and it is becoming a standard. eVOC provides a link between the vocabularies and the EST sequences. A link between genes and eVOC expression data can also be found at Estado de Desarrollo

35 ESTs proporcionan información sobre la expresión de genes
Ontologías eVOC Tipo de Célula Patología Sistema Anatómico Estado de Desarrollo nervioso cerebro cerebelo El vocabulario de expresión estan organizado en forma de árbol. Cada librería cuelga de una rama del árbol, dentro de cada árbol de clasificación, según anatomía, patología, etc. Esa rama especifica las propiedades de la librería. Cada librería contiene todos los ESTs que se han secuenciado a partir de ella. Librería 1 Librería 2 ESTs ESTs

36 V Curwen et al. Genome Research (2004)
Como conectar el vocabulario de expressión con los genes previamente anotados ESTs Podemos utilizar los ESTs alineados al genoma para asignar un vocabulario de expresión a nuestra anotación de genes. Comparando los alineamientos de ESTs con los genes anotados podemos derivar una correspondencia entre los ESTs y los genes basada en la compatibilidad de la estructura exónica. Esta comparación se hacer para verificar cuales ESTs provienen de cuales genes. De esta manera podemos asignar una clasificación dentro del vocabulario de expresión (Anatomía, Tipo de Célula, Patología y Estado de Desarrollo) a los genes que han sido anotados con proteinas o mRNAs. Genes V Curwen et al. Genome Research (2004)

37 Vocabulario de expresión
This vocabulary can be used for querying in Ensmart.

38 CONCLUSIONES La anotación de genomas requiere software especializado.
ESTs (muestreo parcial de mRNAs) son útiles para anotar genomas. En particular:, para obtener información sobre splicing alternativo y sobre el contexto de la expresión. La producción de ESTs es rápida y barata pero los datos necesitan bastante procesamiento. Los ESTs solo dan información sobre los tránscritos expresados por la célula. Para estudia regiones reguladoras necesitamos el genoma.

39 FIN


Descargar ppt "Anotación de Genomas con ESTs"

Presentaciones similares


Anuncios Google