Nuria Medina Medina Rosana Montes Soldado María del Mar Abad Grau Modelos gráficos para detección de loci de susceptibilidad en enfermedades complejas Nuria Medina Medina Rosana Montes Soldado María del Mar Abad Grau
Enfermedades complejas G1 Enfermedad compleja E2 G2 E3 G3 . . . Em Gn Ej: diabetes mellitus, cardiopatía isquémica, asma, cáncer, obesidad, esclerosis múltiple, etc.
Métodos de identificación de variaciones genéticas en enfermedades complejas (Burton et al. 2005) Fenotipos Familias Haplotipos(genoma) /fenotipos Familias y/o no emparentados (transcriptoma)/ (proteoma) MRNA proteínas
Métodos de identificación de variaciones genéticas en enfermedades complejas (Burton et al. 2005) Fenotipos Familias Haplotipos(genoma) /fenotipos Familias y/o no emparentados (transcriptoma)/ (proteoma) proteínas MRNA
Riesgos de recurrencia
Métodos de identificación de variaciones genéticas en enfermedades complejas (Burton et al. 2005) Fenotipos Familias Haplotipos(genoma) /fenotipos Familias y/o no emparentados (transcriptoma)/ (proteoma) proteínas MRNA
Heredabilidad
Gemelos monozigóticos y dizigóticos
Estudios de adopción
Métodos de identificación de variaciones genéticas en enfermedades complejas (Burton et al. 2005) Fenotipos Familias Haplotipos(genoma) /fenotipos Familias y/o no emparentados (transcriptoma)/ (proteoma) proteínas MRNA
Análisis de Segregación ¿Hay genes de gran influencia? Estimación del modelo de herencia de un fenotipo Modelos de herencia complejos: menos usados Alternativas: Estudios de ligamiento no paramétricos y otros estudios de genoma (desde la secuenciación genética)
Métodos de identificación de variaciones genéticas en enfermedades complejas (Burton et al. 2005) Fenotipos Familias Haplotipos(genoma) /fenotipos Familias y/o no emparentados (transcriptoma)/ (proteoma) proteínas MRNA
Estudios de genoma Directos Indirectos Genoma completo Estudios (intra) familiares Análisis de ligamiento Estudios poblacionales Individuos no emparentados Estudios de asociación Mapeo del desequilibrio de ligamiento Individuos emparentados Test de haplotipos de riesgo (HRR) Test de distorsión de la trasmisión (TDT) Directos Indirectos Genoma completo
Estudios de ligamiento y poblacionales indirectos Objetivos: Búsqueda de determinantes genéticos mediante la acotación de zonas de asociación Conceptos clave: Estudios de ligamiento (bajo acotamiento): ligamiento Estudios poblacionales indirectos (alto acotamiento): desequilibrio de ligamiento
Meiosis
Recombinación genética por entrecruzamiento Factor de recombinación θa,b: Probabilidad de recombinación en la meiosis entre loci a y b Ligamiento
Conceptos basados en la recombinación genética Ligamiento (familia): cuando alelos en dos loci distintos pasan juntos a los gametos de forma más frecuente de lo esperado Desequilibrio de ligamiento (DL) o asociación alélica (población): cuando en una población, alelos en dos loci distintos pasan juntos a los gametos de forma más frecuente de lo esperado DLa,b ligamientoa,b 1 DL distancia 500 kb
Métodos de identificación de variaciones genéticas en enfermedades complejas (Burton et al. 2005) Fenotipos Familias Haplotipos(genoma) /fenotipos Familias y/o no emparentados (transcriptoma)/ (proteoma) proteínas MRNA
Árbol de haplotipos en un análisis de ligamiento paramétrico para una enf.mendeliana dominante
Análisis del Ligamiento Paramétrico: enfermedades mendelianas Heterogeneidad genética No paramétrico: enfermedades complejas Idea: más haplotipos comunes entre afectados emparentados (IBD) cerca de un gen de susceptibilidad Tipos: Pares de hermanos afectados Varios hermanos Distintos parentescos Genehunter, Allegro θenf,marcador más verosímil
Construcción de mapas genéticos o de ligamiento Estimación de Ɵa =Ɵa,a+1 para cada par de posiciones consecutivas Algoritmo EM (Genehunter, Allegro, Merlin) E: Dado Ɵi=(Ɵi1, ..., Ɵim-1), calcular la esperanza de recombinaciones por posición Elston-Stewart Cadenas ocultas de Markov (Lander & Green 87): Allegro, Genehunter, Merlin M: Calcular EMV Ɵi+1=(Ɵi+1 1, ..., Ɵi+1, m-1)
Construcción de mapas genéticos o de ligamiento O(26mn) m: total posiciones n: total individuos O(6mn22n)
Vectores de herencia Árbol empaquetado Árbol ralo (Merlin: Abecasis et al. 2002)
Métodos de identificación de variaciones genéticas en enfermedades complejas (Burton et al. 2005) Fenotipos Familias Haplotipos(genoma) /fenotipos Familias y/o no emparentados (transcriptoma)/ (proteoma) proteínas MRNA
Estudios poblacionales del genoma Según marcadores usados: Directos Indirectos De genoma completo Según parentesco Individuos no emparentados Estudios de asociación Mapeo del desequilibrio de ligamiento Individuos emparentados Test de haplotipos de riesgo (HRR) Test de distorsión de la trasmisión (TDT)
Modelos gráficos para el análisis de haplotipos en estudios poblacionales Deterministas Árboles filogenéticos de haplotipos Redes de recombinación ancestral Estocásticos Redes bayesianas Redes de Markov Grafos no dirigidos
Árbol Filogenético La filogenia es la historia de la evolución de un grupo de organismos La filogenia se puede representar gráficamente mediante árboles filogenéticos En la base del tronco estaría el antepasado común de todos los organismos, y de él partirían unas ramas, de las cuales saldrían ramas más finas, y de éstas ramitas, etc.
Árbol Filogenético La forma convencional de un árbol filogenético es la siguiente:
Árbol Filogenético El nodo raíz indica la posición de la divergencia base, y en ciencias de la computación suele situarse arriba en lugar de abajo del árbol Las ramas que parten de los nodos interiores indican divergencias genéticas y pueden pintarse también con forma rectangular
Árbol Filogenético La rotación de las ramas no importa, de modo que un mismo árbol permite distintas representaciones
Árbol Filogenético La raíz del árbol es importante porque da la dirección
Árbol Filogenético Existen distintos tipos de árboles: Dendograma: indica sólo relaciones de parecido Cladograma: indica relaciones de parecido y evolución. Muestra la distancia al antecesor común en términos relativos. La longitud de las ramas no indican el tiempo evolutivo Serían equivalentes en un dendograma, pues en ellos el eje Y no tiene significado
Árbol Filogenético Filograma: indica relaciones de parecido, evolución y distancia, para ello contiene información adicional dada por la longitud de las ramas. Los números asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad de cambio evolutivo.
Construir el Árbol Filogenético de haplotipos Un posible ejemplo de conjunto de secuencias sería:
Construir el Árbol Filogenético Existen distintos métodos para construir árboles filogenéticos: Métodos de distancia: Usando matrices de distancia: UPGMA: Unweighted Pair Group Method with Arithmetic Mean. NJ-Neighbour Joining. Vecino más cercano Minimum evolution. Utiliza el método de mínimos cuadrados. Métodos discretos: Operan directamente con las secuencias Máxima parsimonia: buscar el menor número de mutaciones requeridas Parsimonia estadística: mutación múltiple en distancias cortas Máxima verosimilitud (Maximum likelihood): utiliza el estado del carácter y la distancia
Construir el Árbol Filogenético Método parsimonia: La idea es que la hipótesis más sencilla es la más probable Entonces el objetivo es encontrar el árbol que minimice el número de cambios
Máxima parsimonia versus parsimonia estadística (Templeton 2000)
Pasos en la construcción de árboles de haplotipos (Templeton 2000)
Ejemplo de árbol de haplotipos
Redes de recombinación ancestral
TreeDT: Árboles de haplotipos en estudios de asociación Tree Scanning (Templeton et al. 2005): prior tree TreeDT (Sevon et al. 2006) Se construye un árbol para cada posición y se aplica el “Tree Disequilibrium Test”que busca subárboles con muchos haplotipos enfermos
Máxima parsimonia en la recombinación (Song, Hein 2003) Grafo de recombinación ancestral Tres operaciones “poda-y-reinjerto de subárbol” (PRS) Algoritmo determinista
Redes bayesianas en estudios de asociación (Sebastiani et al. 2005)
Redes bayesianas en estudios de asociación (Sebastiani et al. 2005) Genotipos en vez de haplotipos
Modelos gráficos en estudios de asociación (Verzilli et al. 2006) Genotipos en vez de haplotipos Grafos acíclicos descomponibles (representables por árboles de unión) Conocimiento a priori: DL Paradigma de la media de modelos: MCMC
Modelos gráficos para estimación de haplotipos (Scheet & Stephens 2006) Las variables son los clústeres HMM
Bloques de haplotipos de baja recombinación Mapas de LD Bloques de haplotipos de baja recombinación (Dali et al. 2001, Patil et al. 2001, Gabriel et al. 2002)
Redes bayesianas para estimación de mapas DL (Greenspan & Geiger 2004: Haploblock) Genotipos y haplotipos
Redes bayesianas para estimación de mapas DL (Rodin & Boerwinkle 2005) Modelo multinomial Criterio: clase de equivalencia max Usada para selección de variables Bootstrap
Modelos gráficos para estimación de mapas DL (Thomas 2009) Haplotipos (las variables son alelos) Grafos de intervalos: Posiciones ordenadas DL disminuye con la distancia
Los nodos representan secuencias de la filogenia GDAs probabilísticos para representar filogenias (Strimmer et al. 2001) Grafo de recombinación ancestral Los nodos representan secuencias de la filogenia De árbol (mutación) De recombinación
Algunas ideas TDT (U/T) en vez de caso-control Redes bayesianas: Un nodo por SNP (eliminar aquéllos de equivalencia exacta) Orientación de los arcos según antigüedad de la variación (información filogenética) Una red representa varias posibles redes filogenéticas
Estudios del transcriptoma Extracción de conocimiento en datos masivos de expresión genética (microarrays) Identificación de genes relacionados con el cáncer Identificación de genes relacionados con diversas funciones celulares
Métodos de identificación de variaciones genéticas en enfermedades complejas (Burton et al. 2005) Fenotipos Familias Haplotipos(genoma) /fenotipos Familias y/o no emparentados (transcriptoma)/ (proteoma) proteínas MRNA
Agrupamiento (clustering) en datos de expresión genética Patrones de expresión genética y agrupamiento (clustering) mediante dendogramas Ramoni, Marco F. et al. (2002) Proc. Natl. Acad. Sci. USA 99, 9121-9126
Agrupamiento (clustering) en datos de expresión genética Sorlie, Therese et al. (2001) Proc. Natl. Acad. Sci. USA 98(19): 10869–10874 85 muestras (78 carcinomas, 3 tumores benignos y 4 tejidos normales) Colores: Subtipos de tumor encontrados
Agrupamiento (clustering) en datos de expresión genética Xu. Ying et al. (2001) Genome Informatics 12: 24-33 Grupos encontrados