Bioinformática para el análisis de metagenomas

Slides:



Advertisements
Presentaciones similares
SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
el 1, el 4 y el 9 tres cuadrados perfectos autosuficientes
Madrid, 16 de noviembre de 2010 Estadística sobre las actividades en investigación científica y desarrollo tecnológico (I+D) año 2009.
“AGROINDUSTRIA ASOCIADA AL REGADÍO”
Vera Olivera, David Carlos Marín Rosales, Nicolae Harry
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
Programa Compartel de Telecomunicaciones Sociales
TEMA 2 MÚLTIPLOS Y DIVISORES
UNA VISIÓN GLOBAL DEL HAPMAP PROJECT
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
JULIO A. VAZQUEZ LABORATORIO DE REFERENCIA DE MENINGOCOCOS CENTRO NACIONAL DE MICROBIOLOGIA INSTITUTO DE SALUD CARLOS III JULIO A. VAZQUEZ LABORATORIO.
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Cuestiones y problemas
X Asamblea General ACSDA
ENCUESTA ESTATAL SOBRE USO DE DROGAS EN ESTUDIANTES DE ENSEÑANZAS SECUNDARIAS (ENCUESTA ESCOLAR) de septiembre de 2007.
Teoría de Sistemas Operativos Memoria
IVI) Estimulación ovárica.
CASTELLANO 5º “A” “B” “C”
CASTELLANO 8º “A” “C” OBJ. 1.1 TRABAJO ESCRITO 15% 06/10 Al 10/10
Unidad de competencia II Estadística descriptiva:
Consejería de Educación Servicio de Inspección Resolución de 31 de julio de 2007, de la Dirección General de Ordenación y Evaluación Educativa, por la.
Estructura Económica de México Prof. Abelardo Mariña Flores trimestre 2010-P.
Nuevas técnicas de detección de poblaciones minoritarias en infección por VIH: posibles usos y limitaciones Rafael Delgado Laboratorio de Microbiología.
Áreas del conocimiento para la AP III Gestión de la Planificación de los Riesgos del Proyecto Basado en los estándares del PMI® Ing. Fausto Fernández.
1 RESULTADOS DEL PLAN DE PREVENCIÓN DEL FRAUDE FISCAL de marzo de 2009.
Autodesk Civil 3D 2007 Essentials
Taller de Matemáticas Financieras
Pre Profesional Competencia Profesional Técnica Formación 2 Formación 1 La gran Decisión Años El Pequeño Profesional Años La Proyección.
GCAB. B R bibliotecaregional bibliotecas públicas región de murcia ) )
3° SEC PROMEDIOS.
SEMINARIO SOBRE EVALUACIÓN ECONÓMICA DE PROYECTOS DE TRANSPORTE
INFORME USDA NOVIEMBRE TRIGO 2 MERCADO INTERNACIONAL (Millones de Toneladas) 3.
Infancia y Adolescencia: Agenda Pendiente en los Medios de Comunicación Informe 2007.
0 Chiapas un Estado con Futuro. 1 Datos Básicos Censo 2010 Energía para el Desarrollo Generación de Riqueza Medio Ambiente.
EL OSO APRENDIZ Y SUS AMIGOS
EL COMERCIO TEXTIL EN CIFRAS Séptima Edición - Cifras y Datos correspondientes al ejercicio Un Triple Compromiso: Con el Sector. Con la Economía.
Artur Ezquerra González Genómica y Proteómica 12/06/2013
Digital Product Placement (DP2)
Proyecto ProMéxico Plasmas mayo SECCIONES NOTICIAS PROYECTOS UNIDAD ACTÚA EVENTUALES secciones ProMéxico.
Unidad Mayo Unidad Mayo 3 a 7 Unidad Mayo 3 a 7.
Problematica de Financiamiento
Diapositiva No. 1 Observatorio Industrial de la Provincia de Córdoba Noviembre de 2008.
CENTRO EDUCATIVO ANAHUAC, A.C. PRÁCTICA DE CONTABILIDAD # 6 PRÁCTICA DE CONTABILIDAD # 6 EMPRESA: LA IMPERIAL EMPRESA: LA IMPERIAL.
CENTRO EDUCATIVO ANAHUAC, A.C. PRÁCTICA DE CONTABILIDAD # 5 EMPRESA : LA NAVAL.
PRÁCTICA # 6 PRÁCTICA # 6 COMERCIAL MINERA COMERCIAL MINERA.
Ecuaciones Cuadráticas
3 Enero 2010 PERÚ: IV CENSO NACIONAL ECONÓMICO, APURÍMAC.
Presentado por: APESEG & Milliman, Inc.
1 Desempeño Económico Reciente: Una Visión Sectorial Carlos Ignacio Rojas Vicepresidente Medellín, 2 de octubre de 2008.
Proyecto Fin de Carrera E.T.S. Ingeniería Informática 26 de Septiembre de 2006 DESARROLLO DE UN COMPONENTE TECLADO ALUMNO: Fco. Javier Sánchez Ramos TUTORES:
Máquinas con Vectores de Soporte - SVM
Departamento de Obras Públicas, Transportes y Comunicaciones X PLAN DE ACTUACIÓN EN LOS TRAMOS DE CONCENTRACIÓN DE ACCIDENTES DE LA RED DE CARRETERAS DE.
1. Datos prensa. Fuente: ACEM
JORNADA 1 DEL 24 DE MARZO AL 30 DE MARZO EQUIPO 01 VS EQUIPO 02 EQUIPO 03 VS EQUIPO 06 EQUIPO 05 VS EQUIPO 10 EQUIPO 07 DESCANSA EQUIPO 08 VS EQUIPO 13.
CULENDARIO 2007 Para los Patanes.
JORNADA 1 DEL 24 DE MARZO AL 30 DE MARZO EQUIPO 01 VS EQUIPO 07 EQUIPO 03 VS EQUIPO 06 EQUIPO 04 VS EQUIPO 05 EQUIPO 02 VS EQUIPO 08.
Funciones: Conceptos Básicos
Los números. Del 0 al 100.
MSc. Lucía Osuna Wendehake
Agrupamiento de relaciones no lineales entre expresiones de genes
CLADOS Granada 17 Diciembre Evolución del proyecto Resultados Presupuesto.
Ubicación de Isla de Pascua en Sudamérica Kms.
Indicaciones: 1.- Tener en cuenta que esta estrategia, solo funciona asociando las cuentas los días lunes. 2.- Los cálculos son aproximados con un margen.
IIEC Aspectos previos INCIDENCIA Y PREVALENCIA Maltrato en Población Infanto-Juvenil.
FUNDAMENTOS DE CALIDAD EN LA GESTIÓN PÚBLICA
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Transcripción de la presentación:

Bioinformática para el análisis de metagenomas Javier Tamames Centro Superior de Investigación en Salud Pública Generalitat Valenciana

Proyectos de metagenómica 2 7 11 72 200 1600 110 62 2 200 1 En negro, Secuenciación Shotgun. En rojo, fósmidos. En verde, pirosecuenciación. Llama la atención el poco uso de la pirosecuenciación hasta ahora, quizá provocado por que implica diferente tecnología y software. Aunque la tendencia es a utilizarlo cada vez mas. Uso para muestras fósiles. Tendencia a mayor tamaño ultimamente? Discutir costes/longitudes de secuencia <1 316 2000 28 180 6123 727 Hugenholtz et al, Nature 455, 481 (2008)

Proyectos de metagenómica Completed Ongoing 96 19 Aquí tenemos la distribución de tamaños, de ambientes y de papers, recogiendo el interés por el campo

Secuenciación metagenómica Estudio de comunidades bacterianas Secuenciación 16S rDNA Secuenciación metagenómica Objetivo Estudiar la composición y abundancia de especies en la muestra Estudiar genes y genomas presentes en la muestra Usos Estudiar el número de especies en la muestra Describir el perfil funcional de la muestra Estudiar la distribución taxonómica en la muestra Obtención de genes de interés Describir la diversidad de la muestra Relacionar funciones y especies de procedencia Comparar diferentes muestras a nivel de la composición en especies Comparar diferentes muestras a nivel de la composición funcional Relacionar poblaciones con factores externos Determinar posibles relaciones en la comunidad En el planteamiento de un proyecto metagenómico generalmente se dan dos pasos: el estudio de la composición de la comunidad, lo que se suele hacer por la secuenciación del 16S, y el estudio del contenido génico del metagenoma (gene-centric approach). El primero informa sobre las especies, el segundo sobre los genes. Informan de dos aspectos diferentes pero practicamente no hay comunicación entre ellos ya que no es posible realizar la asignación de genes en especies. El proyecto puede tener partes diferenciadas de 16S y metagenómica, u obtener los 16S a partir de la metagenómica. Leer los hitos para el 16S

Secuenciación del 16S rDNA PCR Of 16S rDNA genes Ligation 16S rDNA amplicons Transformation Total DNA: Insert PCR Sequencing Voy a empezar hablando del 16S. Se utiliza el 16S porque es un marcador universal bastante conservado en algunas zonas (diseño de primers) y variable en otras (distinción entre especies). Este es el protocolo bien conocido de secuenciación del 16S: amplificación con primers universales, clonación en un vector adecuado, secuenciación y análisis, que consiste en la asignación de un taxón a la secuencia. También, como decíamos, puede hacerse por metagenómica, en ese caso no hacen falta primers. Problemas aquí, la no universalidad de los primers (bias a lo mas abundante), y la amplificación de especies transientes, no activas (ya que secuenciamos el DNA y no el RNA). En la metagenómica, el sesgo puede venir por el número de copia del 16S. Analysis (Giuseppe d’Auria)

Estimación del número de especies La determinación del número de especies que hemos secuenciado se suele hacer por clustering al 97% de identidad. No existe un criterio claro para definir especies procariotas, y esta barrera se sabe que en algunos casos agrupa especies diferentes y parte cepas de la misma especie. Por eso se llaman OTUs en lugar de especies. Podemos definir otros niveles también, como se hace en este estudio. Cuanto menos identidad pidamos, menos “especies” obtendremos. Como la secuenciación no es exhaustiva, podemos intentar determinar el número de especies presentes extrapolando las curvas. Cluster distance 0.03 0.05 ID Reads OTU ACE Chao1 FS396 17666 6326 23315 20949 5573 18003 16889 SChao1=Sobs+ F12/ 2F2 Sogin et al, Proc Natl Acad Sci USA 103, 12115-20 (2006)

Estimación del número de especies Est. Error Est. OTUs Power law Fungi Desert 30.0 2 x 104 Prairie 20.5 2 x 109 Rainforest 9.66 2 x 103 Log-normal Fungi Desert 42.7 7 x 104 Prairie 23.7 1 x 106 Rainforest 9.00 2 x 104 Logarithmic Fungi Desert 62.0 2 x 103 Prairie 29.0 2 x 103 Rainforest 28.1 1 x 103 Pero hay que tener mucho cuidado al hacer esto para no exceder los límites, como en este caso, en el que tres ajustes diferentes con un error parecido nos dan diferencias de hasta seis órdenes de magnitud, y el caso con menor error da un número disparatado. Esto ocurre porque las curvas son practicamente rectas. La mayoría de los autores se sienten obligados a dar un número de especies en el paper, pq todo el mundo lo hace, pero hay veces que esto simplemente no es posible. La cantidad de secuecniación debe ser suficiente para poder hacer esto. Fierer et al, Appl Environm Microbiol 73, 7059-66 (2007)

Diversidad de las comunidades Indices de diversidad Tratan de medir la forma de la distribución de especies en la comunidad Indice de Simpson D =  ni (ni -1) / N (N -1) Podemos caracterizar la composición de la comunidad midiendo la distribución de especies en ella. Una comunidad es mas diversa cuanto mas predominantes son algunas especies. El término diversidad es confuso, se utiliza a veces como sinónimo de abundancia y otras para explicar la distribución. En ocasiones se ha utilizado incluso para comparar comunidades, en una aproximación al menos muy peligrosa: dos poblaciones pueden ser muy diferentes y tener diversidades iguales.

Asignación taxonómica de secuencias 16S rDNA RDP classifier http://rdp.cme.msu.edu Blast hits Bacteria[100%] Proteobacteria[100%] Alphaproteobacteria[100%] Rhodobacterales[100%] Rhodobacteraceae[97%] Sulfitobacter[90%] El siguiente paso es la asignación taxonómica de las secuencias. Esto puede hacerse de dos modos principales: la primera es utilizar la información de la composición de la secuencia, como hace el clasificador RDP. Se utiliza la composición de oligonucleótidos de determinadas zonas, ya que esta contiene info filogenética. Es decir, taxones cercanos tienen composiciones cercanas. Como vemos, las zonas ctes tienen poca info y es preciso utilizar las zonas variables. Además, la clasificación va disminuyendo en eficacia según vamos mas abajo en la taxonomía. El clasificador ofrece el nivel de fiabilidad obtenido para cada nivel. La otra estrategia es el uso de las similitudes encontradas mediante Blast. Hay veces que se asigna el taxón del mejor hit (muy peligroso, poco fiable y transmitimos errores), o se hace algo mas sofisticado como mirar el conjunto de mejores hits para asignar al taxón común a ellos.

Asignación taxonómica de secuencias 16S rDNA Esto es lo que se hace en esta herramienta, que evalúa el taxón común para los mejores hits. Vemos como va disminuyendo el número de secuencias que podemos asignar según profundizamos en la taxonomía, pero el error se va manteniendo cte. (true / placed). Vemos también como influye el tamaño de las secuencias, lo que es importante si utilizamos la pirosecuenciación. Con reads cortos (Solexa), es muy bajo el número de secuencias que podemos asignar. Con 454, se pueden clasificar el 75% de las secuencias a nivel género. A nivel de género, se consigue un 80% de asignaciones a partir de 200 bps (454 Titanium). Estos valores logicamente dependen del metagenoma (conocimiento de los taxones presentes) Sundquist et al, BMC Microbiol 7, 108 (2007)

Comparación de la composición de comunidades Una vez hemos caracterizado taxonómicamente las comunidades, podemos compararlas. Esto se hace a veces de modo muy sencillo y practicamente intuitivo (ejemplo de la izda), o de un modo mas complejo en el ejemplo de la derecha (explicar resultados heces/biopsias, variabilidad intra e inter individual) Eckburg et al, Science 308, 1635-8 (2005)

Comparación de comunidades TreeClimber algorithm En los ejemplos anteriores veíamos de modo muy intuitivo las diferencias entre comunidades, pero hay métodos estadísticos que nos permiten establecer las condiciones para poder decir si dos comunidades son la misma o no. Comunidades iguales, no tendencia a la segregación (nodos de ambas muestras igualmente repartidas entre las ramas del arbol). Por tanto, mayores puntuaciones. Se evalúan los árboles de las dos comunidades, y luego se permutan las etiquetas de los OTUs en un bootstrap, para obtener las distribuciones al azar. Se comparan ambos resultados y se establece si las distribuciones son las mismas o no (Kolmogorov-Smirnoff, por ejemplo) Schloss & Handelsman, Appl Environ Microb 72, 2379-84 (2006)

Relación con factores externos Analyzing the relationships between populations and the environment (DCA) Comparing the populations (PCA) Other tissues El último paso en el análisis sería relacionar la composición de las comunidades con los factores externos. Esto se hace con técnicas de estadísticas de análisis multivariante, de las que existen muchas según el tipo de datos y la información que se quiera obtener. Aquí se hace para el metagenoma intestinal mediante un PCA, estudiando los patrones de localización de las muestras de acuerdo a su composición. También para un conjunto de muestras ambientales, mediante un DCA, donde se consigue estudiar la preferencia de diferentes especies por diferentes ambientes, y también de los ambientes entre si. Eckburg et al, Science 308, 1635-8 (2005) Tamames et al (2009)

Secuenciación metagenómica Estudio de comunidades bacterianas Secuenciación 16S rDNA Secuenciación metagenómica Objetivo Estudiar la composición y abundancia de especies en la muestra Estudiar genes presentes en la muestra Usos Estudiar el número de especies en la muestra Describir el perfil funcional de la muestra Estudiar la distribución taxonómica en la muestra Obtención de genes de interés Describir la diversidad de la muestra Relacionar funciones y especies de procedencia Comparar diferentes muestras a nivel de la composición en especies Comparar diferentes muestras a nivel de la composición funcional Relacionar poblaciones con factores externos Determinar posibles relaciones en la comunidad Ahora vamos a pasar a hablar de la secuenciación metagenómica. Aquí los objetivos se centran en los genes y no en las especies.

Métodos de secuenciación de alto rendimiento 454 SOLiD Ligación Longitud lecturas: 35-50 nt Precio:0.0005 $/base Síntesis, liberación de pirofosfato Longitud lecturas: 100-150/400 nt Precio:0.003 $/base Actualmente existen tres métodos principales de secuenciación de alto rendimiento. Citarlos y explicarlos brevemente. Aunque como hemos visto se utilizan también métodos de secuenciación tradicionales, es de esperar que sea con estos métodos con los que se haga la mayor parte de la secuenciación en breve plazo. Illumina Amplificación: terminadores y fluoróforos Longitud lecturas: 35 nt Precio:0.0007 $/base

Bioinformatics workflow for metagenomics AAGACGTGGACA CATGCGTGCATG AGTCGTCAGTCATGGG GTCCGTCACAACTGA Short reads (40-150 bps) AAGACGTGGACAGATCTGCTCAGGCTAGCATGAAC Contigs GATAGGTGGACCGATATGCATTAGACTTGCAGGGC Assembly Gene prediction 1 3000 6000 1 3000 6000 ORFs 1 2000 Homology searching Proteins, families, functions Functional classification Ontologies Sequences into species Este es el procedimiento que se sigue para el análisis de las secuencias obtenidas de los proyectos metagenómicos. Binning Functional profiles

Problemas asociados a las secuencias metagenómicas Ensamblaje Anotación funcional Binning Secuencias procedentes de diversas especies Formación de quimeras Sin efecto Lo hace necesario Secuencias cortas Métodos genómicos no aptos Homología con solo una parte del hit Poca señal filogenética o composicional Secuencias con errores Menor soporte para los contigs Poco efecto Las secuencias metagenómicas tienen tres características que dificultan su análisis: Provienen de diferentes especies, son cortas y contienen errores. Esto va a afectar sobre todo a tres pasos del análisis: el ensamblaje, la anotación funcional y el binning.

Ensamblaje de metagenomas Cantidad ensamblada Errores JAZZ 29% Arachne 33% Phrap 56% JAZZ 32% Arachne 44% Phrap 66% El primer paso del análisis es el ensamblaje. Los métodos usados para genomas completos no pueden ser usados directamente, debido a la formación de quimeras y a la baja longitud de las secuencias. Existen diferentes métodos para el uso con metagenomas, de los cuales aquí vemos comparados tres, mediante metagenomas artificiales de diferente complejidad. Indicando la cantidad que ensambla cada uno, los errores que cometen ensamblando secuencias de diferentes orígenes (Jazz y Arachne muy poco hasta nivel de strain, Phrap bastante también a otros niveles). En general vemos que aun hay mucho margen de mejora para los métodos. JAZZ 2% Arachne 2% Phrap 40% Otros ensambladores: Newbler, Mira Mavromatis et al, Nature Meth 4, 495-500 (2007)

Predicción de genes en metagenomas Predicción de genes: Para genomas procariotas existen herramientas que funcionan con alta precisión (>98%), pero no son utilizables para secuencias metagenómicas En cuanto a los métodos de predicción de genes, de nuevo los métodos clásicos, como Glimmer, no pueden ser utilizados. Las secuencias son cortas y los genes pueden estar truncados. aquí tenemos los resultados para dos predictores. Se hace sobre los resultados del ensamblaje anteriores, y podemos ver que para LC y MC los resultados son muy similares. Mirando el MC, vemos que el mejor método alcanza entre un 75 y un 90% de genes predichos correctamente, con un error siempre por debajo del 10%. Asi pues, este paso puede considerarse como bien resuelto. Los predictores son además, en general, bastante rápidos. Otros predictores: MetaGene Mavromatis et al, Nature Meth 4, 495-500 (2007)

Búsquedas de homología mediante computación en grid Tamaño de diversos metagenomas:  Human gut microbiome: 10 Kb  Whale fall 1: 28 Kb  Minessotta farm soil: 135 Kb  Sargasso Sea waters: 810 Kb El siguiente paso es la búsqueda de homologías sobre las secuencias de los genes. Aquí el problema es el grandísimo volumen de datos En colaboración con ITACA-UPV, usando EELA grid: Búsquedas de homología en GenBank nr para el metagenoma del Mar de los Sargazos Realizado en 8 dias de tiempo real (25 genomas bacterianos medios/dia)

Asignación funcional a COGs Una vez tenemos los homólogos, para cuantos de ellos puede hacerse una asignación funcional adecuada? Aqui vemos los resultados de asignar COGs a secuencias metagenómicas mediante dos métodos: Blast best hit y RPS Blast (perfiles). Ambos son muy similares e indican que puede asignarse función para el 20-40% de los genes, con una precisión muy alta. Asi pues, el problema es la falta de homologías mas que los errores en las asignaciones. Hay que tener en cuenta que esto está hecho con genomas completos, no con metagenomas, asi que los resultados pueden ser un poco peores Dalevi et al, Bioinformatics 24, i7 (2008)

Comparing metagenomes Una vez clasificadas, se suele desribir el metagenoma mediante perfiles funcionales de abundancia o escasez de los determinados genes y/o clases funcionales. Estos perfiles informan sobre las particulares características funcionales de los metagenomas, y pueden ser utilizados para comparar metagenomas entre si, como puede verse aquí. Turnbaugh et al, Nature 444, 1027-31 (2006) Tringe et al, Science 308, 554-7 (2005)

Finding relationships between community members Hasta ahora hemos conseguido caracterizar el metagenoma utilizando la aproximación gene-centric, pero hemos olvidado por completo el papel de cada uno de sus miembros. No hemos conseguido ninguna información sobre la distribución de los genes en susn especies originales. No sabemos de que especie proviene cada gen. Y esto sería muy importante ya que nos permitiría reconstruir por completo el funcionamiento de la comunidad. Sabríamos quien está haciendo que, con lo que podríamos entender mucho mejor las relaciones de las especies entre si y con el amn¡biente. Podríamos también predecir los efectos de una perturbación, y abrir la puerta a la manipulación de la comunidad. El asignar secuencias a especies se conoce como binning, y es uno de los problemas mas interesantes en metagenómica Woyke et al, Nature 443, 950-5 (2006) Tyson et al. Nature 428, 37-43 (2004)

Binning filogenético: MEGAN Method Sargasso Sea metagenome El método mas utilizado actulmente para realizar el binning es de tipo filogenético, y se basa en inspeccionar la filogenia de los hits, asignando la secuencia al taxón común. El problema de este método es que la definición que podemos conseguir es pobre. En el ejemplo de E.coli, donde muchas asignaciones se han tenido que hacer a nivel de familia, aun teniendo mucha información disponible. E.coli assignment (2000 sequences) Huson et al, Genome Res 17, 377 (2007)

Aproximaciones al binning Aproximaciones filogenéticas Basadas en el estudio de la filogenia de la secuencia problema Dificultades • Secuencias truncadas, no informativas para realizar la filogenia • Filogenias ruidosas: Duplicaciones, HGT, diferentes tasas de mutación • Resolución limitada en la taxonomía • Costosas computacionalmente

Métodos composicionales de binning Composición de las secuencias como vectores de oligonucleótidos AGAG AGAT AGGC ATTA CGTA GACC GATT … Seq1 0 0.14 0.14 0 0.14 0 0 … Seq2 0.12 0.02 0 0.05 0.11 0.02 0.08 … Filogenia 16S Filogenia tetranucleótidos El segundo tipo de métodos son los composicionales, basados en que la composición de la secuencia de DNA lleva información filogenética. Todos estos métodos se basan el la generación de vectores de composición para las secuencias. Los vectores pueden ser usados para crear un vector medio para cada taxón, y clasificar las secuencias de acuerdo al parecido a ese patrón medio.

(McHardy et al, Nature Methods 2007, 4, 63-72) Métodos composicionales de binning Clasificadores Bayesianos (Sanberg et al, Genome Res 2001, 11: 1404-9) Máquinas de Soporte Vectorial (McHardy et al, Nature Methods 2007, 4, 63-72) Modelos de Markov (Teeling et al, Env Microbiol 2004, 6: 938-47) Mapas autoorganizativos (SOMs) (Abe et al, Genome Res 2003, 13, 693-702) Esto es lo que hacen métodos tales como los clasificadores bayesianos, o los SVM, que son los métodos mas utilizados actualmente Los resultados del método de SVM indican que, para el nivel adecuado de género, las secuencias se clasifican bien pero se puede hacer en pocas ocasiones. Para la longitud media de 1Kb, solo se pueden clasificar un 10%. Necesitamos disponer al menos de 5Kb de secuencia. Los métodos utilizados para la asignación son capaces de inferir las caracteríasticas comunes de grupos de secuencias y clasificar los problemas de acuerdo a estas características comunes: cadenas de Markov, que dan un valor de probabilidad a la observación de cada tetra en base a sus oligonucleotidos constituyentes de menor orden. Para clasificar una secuencia problema, se busca aquella o aquellas que mejor encajen con su perfil. Los clasificadores bayesianos se basan en la regla de Bayes. Para calcular la pertenencia de una secuencia a un taxón, se calcula la probabilidad de ver una determinada subsecuencia en el genoma por la probabilidad del genoma (uno) y entre la probabilidad de la subsecuencia. Esto se hace para cada poosible tetra. Los SOMs es una aproximación basada en redes neuronales, en las cuales un espacio de n dimensiones (lasa freqs de etranucleótidos) se mapea en uno bidimensional, de modo que perfiles semejantes son atraidos entre si y colocados en la misma región del mapa. SOM (Abe et al, Genome Res 13, 693-702, 2003) SVM: Phylopythia (McHardy et al, Nature Methods 2007, 4, 63-72)

Aproximaciones al binning Aproximaciónes composicionales Basadas en el estudio de la composición de las secuencias Dificultades • Secuencias cortas, por debajo de lo requerido por los métodos • Se complica mucho en metagenomas complejos • Confundidas facilmente por eventos de HGT • Resolución limitada en el tiempo (pérdida de señal por amelioración)

Detección de eventos de HGT Estos dos tipos de métodos se han empleado también para medir la cantidad de HGT en metagenomas, lo que es interesante poruqe nos informa de la capacidad de la comunidad para intercambiar información genética y asi facilitar y acelerar la adaptación a nuevas condiciones o factores ambientales. Es una medida de la capacidad de respuesta de la comunidad ante cambios en las condiciones, como se manifiesta por ejemplo en la transmisión de resistencias a antibióticos. Para la medida del HGT tenemos que buscar secuencias que muestren una transición entre dos orígenes distintos, lo que se traduce en características diferenciadas para dos partes de la secuencia. Podemos, como antes, utilizar métodos filogenéticos y composicionales. Tamames et al, BMC Genomics 9, 136 (2008)

Metatranscriptómica 3’ 5’ 3’ Gen X Gen Y Genoma mRNA Metagenoma Alta expresión Genes muy activos 3’ 5’ 3’ Gen X Gen Y Genoma mRNA Metagenoma (Gilbert) Metatranscriptoma El problema del estudio de los metagenomas es que se obtiene información solamente de los genes, pero no sabemos cuales de ellos están activos. Nos estamos perdiendo el determinar los procesos que realmente están ocurriendo en la comunidad. Además, no diferenciamos especies residentes de especies transientes. Para solucionar esto, recientemente han empezado a aparecer los primeros trabajos de metatranscriptómica, donde se mide la cantidad de mRNA (en forma de cDNA). Existen dos métodos, el de Gilbert y el de Frias-Lopez. El problema en su tratamiento es identificar los mismos mRNAs. Para esto sirve mejor el método de Frias-Lopez, aunque tenga menor rendimiento. El de Gilber precisa ensamblar los tránscritos, y aun asi quedarán diferentes tránscritos para el mismo gen. El metatranscriptoma por si solo tampoco es muy util, no sabemos si un gen muy secuenciado es porque está muy activo o porque es muy abundante. Es necesario por tanto mapear además en metatranscriptome en el metagenoma. Esto requiere de métodos de alineamiento de secuencias cortas que existen pero no han sido probados para metagenomas/transcriptomas. (Frias-López) DNA Baja expresión Genes poco activos Frias López et al, Proc Natl Acad Sci USA 105, 3805 (2008) Gilbert et al, PLoS ONE 3, e3042 (2008)

Bioinformática para el estudio de metagenomas Conclusiones Bioinformática para el estudio de metagenomas • Ensamblaje Varios métodos ya desarrollados Buenos resultados para metagenomas simples (en torno a 50% ensamblado) Muy dificil para metagenomas complejos • Predicción de genes Varios métodos ya desarrollados, con buenos resultados para la mayoría de casos • Búsqueda de homologías Problema computacional por la gran cantidad de datos. Supercomputación, grids • Asignación funcional Muy buena precisión, pero posible para menos de la mitad de genes • Binning Buena precisión para secuencias largas (>5 Kb). Poco útiles en la práctica • Metatranscriptómica Métodos en desarrollo