La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Tema 4. La reconstrucción filogenética. 4.1. La homología como guía para reconocer las relaciones filogenéticas. 4.2. Tipos de caracteres y estados del.

Presentaciones similares


Presentación del tema: "Tema 4. La reconstrucción filogenética. 4.1. La homología como guía para reconocer las relaciones filogenéticas. 4.2. Tipos de caracteres y estados del."— Transcripción de la presentación:

1 Tema 4. La reconstrucción filogenética La homología como guía para reconocer las relaciones filogenéticas Tipos de caracteres y estados del carácter La perspectiva filogenética de la biología ¿Qué es un árbol filogenético? 4.5. Inferencia e interpretación de árboles filogenéticos Métodos básicos de reconstrucción filogenética Filogenias moleculares Dificultades y aplicaciones de la reconstrucción filogenética.

2 01. Presentación tema 4 primera parte. 02. Presentación tema 4 segunda parte. 03. Presentación tema 4 tercera parte. 04. Presentación tema 4 cuarta parte. 05. Apuntes tema 04_reconstrucción árboles evolutivos. 06, Apuntes tema 04_descifrando el árbol de la vida 07. Chapter 27_Phylogenetic reconstruction. Tema 4. La reconstrucción filogenética.

3 Present Temps Ancestre comú més recent (MRCA) TCAAGGTATTAAC 316/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

4 mutació MRCA TCGAGGTATTAAC TCTAGGTATTAAC 416/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

5 TCGAGGTATTAAC TCTAGGTATTAAC mutación MRCA 516/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

6 TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC mutación MRCA 616/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

7 TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC mutación 716/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

8 TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC mutación 816/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

9 TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC 916/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

10 TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC 1016/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

11 TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC 1116/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

12 TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC 1216/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

13 TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC 1316/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

14 Presente Tiempo MRCA TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC * ** * * 1416/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

15 Secuencia 1 TCGAGGTATTAAC Secuencia 2 TCTAGGTATTAAC Secuencia 3 TCGAGGCATTAAC Secuencia 4 TCTAGGTGTTAAC Secuencia 5 TCGAGGTATTAGC Secuencia 6 TCTAGGTATCAAC 1516/01/2014 Fernando González Candelas Sec1Sec2Sec3Sec4Sec5Sec6 Sec Sec Sec3-323 Sec4-32 Sec5-3 Sec Filogenias moleculares

16 Secuencia 1 TCGAGGTATTAAC Secuencia 2 TCTAGGTATTAAC Secuencia 3 TCGAGGCATTAAC Secuencia 4 TCTAGGTGTTAAC Secuencia 5 TCGAGGTATTAGC Secuencia 6 TCTAGGTATCAAC 1616/01/2014 Fernando González Candelas Seq1Seq2Seq3Seq4Seq5Seq6 Seq Seq Seq Seq Seq Seq Secuencia 3 Secuencia 1 Secuencia 5 Secuencia 2 Secuencia 6 Secuencia Filogenias moleculares

17 TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC * ** * * 1716/01/2014 Fernando González Candelas 4.7. Filogenias moleculares

18 La utilización de secuencias Para poder comparar los estados de un carácter, debemos primero determinar cuáles son homólogos y corresponden, por tanto, a un mismo carácter. En el caso de secuencias nucleotídicas y aminoacídicas, el carácter es la posición nucleotídica y el residuo aminoacídico, respectivamente. Se trata por tanto de una homología posicional. Homología posicional entre secuencias: Un par de nucleótidos de dos secuencias presentan homología posicional cuando descienden del mismo nucleótido presente en la secuencia ancestral de la que derivan. La homología posicional la identificamos mediante la obtención de alineamientos. Alineamiento de secuencias: Es una hipótesis sobre la homología posicional entre las posiciones o los residuos de dos o más secuencias.

19 Alineamiento de secuencias múltiples: Objetivos Generar un resumen conciso y rico en información de los datos de secuencias. A veces se emplea para ilustrar la disimilitud entre un grupo de secuencias. Los alineamientos pueden tratarse como modelos que pueden emplearse para contrastar hipótesis. ¿Este modelo refleja de forma precisa lo sucedido a partir de la evidencia biológica conocida? 4.7. Filogenias moleculares

20 Fácil Difícil, debido a las inserciones o deleciones (indels) 4.7. Filogenias moleculares Problemas con la utilización de secuencias El alineamiento se puede obtener fácilmente o ser más complicado cuando si hay pérdidas (deleciones) o ganancias (inserciones) de nucleótidos o aminoácidos

21 4.7. Filogenias moleculares Problemas con la utilización de secuencias Para obtener una reconstrucción filogenética, a partir del alineamiento se pueden analizar los cambios de estado de los caracteres (métodos basados en caracteres como máxima parsimonia) o transformarlos en una medida de distancias entre secuencias (métodos basados en distancias). Las estimas de distancia tratan de determinar el número de cambios por posición desde que 2 secuencias divergieron de su ancestro común. Contar simplemente el número de diferencias (la llamada distancia p) puede subestimar considerablemente la cantidad de cambios producidos realmente, especialmente si las secuencias son muy diferentes, debido a las sustituciones múltiples, tanto debidas a homoplasia (en rojo) como no (en azul ).

22 (a) Substitució única 1 canvi, 1 diferència (b) Substitució múltiple 2 canvis, 1 diferència (c) Substitució coincident 2 canvis, 1 diferència (d) Substitució paral·lela 2 canvis, 0 diferències (e) Substitució convergent 3 canvis, 0 diferències (f) Reversió 2 canvis, 0 diferències A A A C C T A A A C C T A A A G C GC C C A A A C C T T A A C A C T T A A A A A C C Tiempo Diferencia esperada Diferencia observada Corrección Diferencia entre secuencias Saturación

23 Procedimiento general de ClustalW 1 PEEKSAVTALWGKV N- - VDEVGG 2 GEEKAAVLALWDKV N- - EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ Hbb_Humano 1 - Hbb_Caballo Hba_Humano Hba_Caballo Myg_Ballena Hbb_Humano Hbb_Caballo Hba_Caballo Hba_Humano Myg_Ballena hélices Alineamiento emparejado rápido: calcular la matriz de distancias Árbol Neighbor-joining (Árbol guía) Alineamiento progresivo siguiendo el árbol guía CLUSTAL W 4.7. Filogenias moleculares

24 Las estimas de distancia intentan estimar el número promedio de cambios por sitio desde que 2 especies (secuencias) divergieron de su ancestro común Contar simplemente el número de diferencias (distancia p) puede subestimar considerablemente la cantidad de cambios producidos realmente – especialmente si las secuencias son muy diferentes – debido a las sustituciones múltiples En consecuencia, empleamos un modelo que incluye parámetros que reflejan el modo en que creemos han evolucionado las secuencias Métodos de Distancia 4.7. Filogenias moleculares Rápido – adecuado para el análisis de conjuntos de datos muy grandes Se dispone de un gran número de modelos con muchos parámetros que mejoran la estima de las distancias Se pierde información – sólo con las distancias es imposible recuperar las secuencias originales Sólo mediante los análisis basados en caracteres puede investigarse la historia de los sitios, p.e., se puede inferir las posiciones más informativas VENTAJASINCONVENIENTES

25 A T G C TRANSVERSIONES TRANSICIONES En consecuencia, corregimos las diferencias observadas según un modelo de evolución para considerar las sustituciones múltiples El modelo más simple es el que propusieron Jukes y Cantor Todas las sustituciones nucleotídicas se producen con la misma probabilidad P ij (t) = ¼ - ¼ e -3t (si ij) y la probabilidad de no sustitución es: P ij (t) = ¼ + ¾ e -3t (si i=j) La corrección a la que se llega es: 4.7. Filogenias moleculares

26 K = (d xy ) = distancia entre dos secuencias expresada como el número de sustituciones por posición nucleotídica (nótese que d xy = r/n, donde r es el número de reemplazamientos y n es el número total de sitios. Aquí se asume que todos los sitios pueden variar y que cuando no hay variación entre las secuencias se subestima la cantidad de cambio realmente producido en los sitios variables) p = es la proporción observada de nucleótidos diferentes entre las dos secuencias (disimilitud fraccional) ln = función logaritmo natural para corregir las mutaciones superpuestas Las fracciones 3/4 y 4/3 reflejan que hay cuatro tipos de nucleótidos y tres formas en que un segundo nucleótido puede no coincidir con uno previo - siendo todos los tipos de cambio igual de probables (i.e. secuencias no emparentadas deben coincidir en un 25% sólo por azar) 4.7. Filogenias moleculares

27 A T G C TRANSVERSIONES TRANSICIONES Hay más modelos según las probabilidades de cambio entre los 4 tipos de nucleótidos sean diferentes Filogenias moleculares

28 Modelo general reversible Relaciones entre algunos modelos de sustitución Jukes-Cantor Tajima-Nei 84 Felsenstein 81 Kimura 2P Kimura 3P Zharkikh 94 Tamura 92 HKY 85 Felsenstein 84 Tamura-Nei 93 3 tipos de sustitución: 2 transiciones y 1 transversión Bases equifrecuentes 3 tipos de sustitución: 1 transición y 2 transversiones Bases equifrecuentes 2 tipos de sustitución: transiciones y transversiones 1 tipo de sustitución 2 tipos de sustitución: transiciones y transversiones 4.7. Filogenias moleculares

29 Podría llamarse también máxima probabilidad. Históricamente es el método más moderno. La popularizó Joseph Felsenstein, Seattle, Washington. Su lenta adopción por la comunidad científica tiene que ver con la dificultad de comprensión de la teoría y también con la carencia (inicialmente) de buenos programas con varios modelos y facilidad en la interacción con los datos. En aquel entonces, también era computacionalmente imposible analizar conjuntos de datos grandes (cuando se propuso, a mediados de los 80, un ordenador típico tenía 1-2 Mb de RAM y un procesador a 20 Mhz). En la actualidad, la mejora en prestaciones de programas, modelos y ordenadores han permitido que la ML sea uno de los métodos favoritos para el análisis de secuencias Filogenias moleculares Máxima verosimilitud (Català: Màxima versemblança; Anglès: Maximum likelihood, ML)

30 ML en comparación con otros métodos ML se asemeja a otros métodos en muchas cosas En otras es esencialmente diferente. ML asume un modelo de evolución de las secuencias (al igual que la máxima parsimonia o los métodos de distancia). ML intenta dar una respuesta a la siguiente pregunta: ¿Cuál es la probabilidad de que observe estos datos (el alineamiento de secuencias múltiples), dado un modelo concreto de evolución (un árbol y un proceso)? ML emplea un modelo. Esto tiene una buena justificación, puesto que se puede demostrar que los datos de secuencias moleculares aparecen según un proceso estocástico Filogenias moleculares

31 ¿Cuál es la probabilidad de observar un dato? Si lanzamos al aire una moneda y nos sale cara y pensamos que la moneda no está trucada, entonces la probabilidad de observar esta cara es 0.5. Si pensamos que la moneda está trucada, de forma que salga cara el 80% de las veces, entonces la probabilidad de observar este dato (una cara) es 0.8. Por tanto: La probabilidad de hacer cierta observación depende completamente del modelo subyacente a nuestros supuestos. p = ? Lección: El dato no ha cambiado, pero nuestro modelo si. Por tanto, bajo el nuevo modelo la probabilidad de observar el dato ha variado Filogenias moleculares Máxima verosimilitud

32 Objetivo de la máxima verosimilitud 4.7. Filogenias moleculares - Este método trata de contestar la siguiente cuestión: ¿Cuál es la probabilidad de que se observe una serie de datos (alineamiento de secuencias) dado un determinado modelo de evolución? Datos: un alineamiento de secuencias. Modelo: árbol filogenético + proceso evolutivo. - El mejor modelo (óptimo) será el que presenta una mayor probabilidad (verosimilitud). Probabilidad de dados A C G T ACGTACGT j

33 La verosimilitud de un sitio concreto es la suma de las probabilidades de cada reconstrucción posible de estados ancestrales dado cierto modelo de sustitución de unas bases por otras. L ij = Prob C C A G A A + C C A G C A +... Prob C C A G G A Prob C C A G T T + La verosimilitud del árbol completo es el producto de las verosimilitudes en cada sitio L ij = L (1) * L (2) *... * L (N) = L (j) N j=1 ¿Cómo calcular la verosimilitud de un árbol? 4.7. Filogenias moleculares

34 -Proceso Markoviano homogéneo: la historia anterior no afecta a la probabilidad posterior. -Pueden darse diferentes tasas de sustitución nucleotídica según el nucleótido inicial y final (4 x 4). -La tasa de sustitución entre posiciones del alineamiento puede ser constante o variable. Para calcular las probabilidades necesitamos de un modelo de evolución. En el caso de sustituciones nucleotídicas asumimos: Para nucleótidos, hay 16 posibles tasas de sustitución - una matriz de 4x4. Para aminoácidos, la matriz es de 20 x 20, y para codones 61 x 61 Inicial = A C G T ACGTACGT Final Máxima verosimilitud 4.7. Filogenias moleculares

35 Los modelos que se utilizan son los mismos que en el caso de corrección de distancias nucleotídicas 4.7. Filogenias moleculares Máxima verosimilitud

36 Ventajas de la máxima verosimilitud No hace falta observar el cambio entre secuencias y luego corregir las mutaciones superpuestas. No hay necesidad de 'corregir' nada, porque los modelos tienen en cuenta las sustituciones superpuestas. Se obtienen estimas precisas de las longitudes de las ramas de los árboles. Cada lugar tiene una verosimilitud. Si el modelo es correcto, deberíamos recuperar el árbol correcto. Se puede usar un modelo que se ajuste a los datos. ML usa todos los datos (no se seleccionan sitios informativos; todos los lugares lo son). ML nos proporciona información no sólo de la filogenia de las secuencias, sino también del proceso evolutivo que ha conducido a observar las secuencias actuales Puede ser inconsistente si los modelos no son adecuados. Es posible que el modelo no sea bastante sofisticado. Es un método costoso en términos de cálculo computacional. Es posible que no se puedan examinar todos los modelos de evolución posibles (matrices de sustitución, topologías del árbol, etc.) Inconvenientes de la máxima verosimilitud 4.7. Filogenias moleculares

37 Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? Perisodáctilos Artiodáctilos 4.8.Dificultades y aplicaciones de la reconstrucción filogenética

38 Los artiodáctilos se caracterizan morfológicamente por las características del astrágalo que les permite una mayor rotación del tobillo y, por tanto, una zancada mayor. Problema: las ballenas tienen extremidades muy modificadas (delanteras) o ausentes (traseras). No podemos saber como es el astrágalo porque está ausente. Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? 4.8.Dificultades y aplicaciones de la reconstrucción filogenética

39 ¿Y el registro fósil? El astrágalo de arqueocetos parece similar al de artiodáctilos. Alternativa: Datos moleculares Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? 4.8.Dificultades y aplicaciones de la reconstrucción filogenética

40 Secuencias del gen de la beta caseína, una de las proteínas de la leche (Gatsey et al., 1999) Confirman el origen artiodáctilo!! Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? 4.8.Dificultades y aplicaciones de la reconstrucción filogenética

41 Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? 4.8.Dificultades y aplicaciones de la reconstrucción filogenética El árbol Neighbor-Joining obtenido con distancias basadas en las secuencias del gen de la beta caseína también confirman el origen artiodáctilo los cetáceos.

42 El origen artiodáctilo de los cetáceos se confirmó con los datos de presencia y ausencia de elementos transponibles LINE o SINE en 20 loci (Nakaido et al., 1999) Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? 4.8.Dificultades y aplicaciones de la reconstrucción filogenética


Descargar ppt "Tema 4. La reconstrucción filogenética. 4.1. La homología como guía para reconocer las relaciones filogenéticas. 4.2. Tipos de caracteres y estados del."

Presentaciones similares


Anuncios Google