Tema 4. La reconstrucción filogenética.

Tema 4. La reconstrucción filogenética.
4.1. La homología como guía para reconocer las relaciones filogenéticas. 4.2. Tipos de caracteres y estados del carácter. 4.3. La perspectiva filogenética de la biología. 4.4. ¿Qué es un árbol filogenético? 4.5. Inferencia e interpretación de árboles filogenéticos . 4.6. Métodos básicos de reconstrucción filogenética. 4.7. Filogenias moleculares. 4.8. Dificultades y aplicaciones de la reconstrucción

Tema 4. La reconstrucción filogenética.
01. Presentación tema 4 primera parte. 02. Presentación tema 4 segunda parte. 03. Presentación tema 4 tercera parte. 04. Presentación tema 4 cuarta parte. 05. Apuntes tema 04_reconstrucción árboles evolutivos. 06, Apuntes tema 04_descifrando el árbol de la vida 07. Chapter 27_Phylogenetic reconstruction.

4.6. Métodos básicos de reconstrucción filogenética.
¿Cómo se obtiene un árbol evolutivo? En principio la cosa parece simple, los taxones más relacionados, que hace menos que divergieron de un ancestro común, deberán compartir un mayor número de caracteres (morfológicos y moleculares) Carácter: variable independiente cuyos posibles valores son los estados mutuamente excluyentes del carácter. Pueden ser morfológicos (presencia o ausencia de una estructura, color de los pétalos, etc.) o moleculares (secuencias de DNA de proteínas, etc.) Matriz de datos: asigna un estado del carácter a cada taxón. Carácter 1 2 3 4 5 6 7 8 Taxón 1 Taxón 2 Taxón 3 Taxón 4 Posición Taxón AAGAGTGCA Taxón AGCCGTGCG Taxón AGATATCCA Taxón AGAGATCCG

A partir de las matrices de datos podemos cuantificar el parecido o las diferencias (distancia) entre taxones y reconstruir el árbol filogenético. Y a partir del árbol filogenético se puede proponer la clasificación de los organismos. Esto es lo que propusieron Sneath y Sokal: la llamada escuela fenética o Taxonomía numérica. Ejemplo: secuencias de la proteína citocromo c Humano GAVGKGKKIFIMKCSQCHTVGKGGKHKTGPNLHGLFGRKTQGAPGYSYTAAN Macaco GAVGKGKKIFIMKCSQCHTVGKGGKHKTGPNLHGLFGRKTQGAPGYSYTAAN Caballo GAVGKGKKIFVQKCAQCHTVGKGGKHKTGPNLHGLFGRKTQGAPGFTYTDAN Humano KNKGISWGEDTLMGYLENPKKIPGTKMIFVGIKKKEERADLIAYLKKATNE Macaco KNKGITWGEDTLMGYLENPKKIPGTKMIFVGIKKKEERADLIAYLKKATNE Caballo KNKGITWKEETLMGYLENPKKIPGTKMIFAGIKKKTERGDLIAYLKKATNE Distancias aminoacídicas: Especie Humana Macaco Caballo 1 12 11

Ejemplo: distancias a partir de las secuencias de la proteína citocromo c Especie Humana Macaco Caballo 1 12 11 Humano Macaco Caballo 1 11 A B C El árbol que concuerda con una menor distancia (más parecido) entre especies que hace menos tiempo que han divergido es el A, que además concuerda con los datos del registro fósil.

Sin embargo, a veces la cosa se complica, ya que los caracteres nos pueden ‘‘engañar’’ Recordemos que según Willi Hennig la similitud o parecido entre caracteres puede ser debida a tres causas: Descendencia a partir de un ancestro común reciente: Homología derivada compartida (o sinapomorfía). Descendencia a partir de un ancestro común lejano: Homología ancestral compartida (o simplesiomorfía). Convergencia evolutiva: Analogía (o homoplasia). De ellas, la única similitud que nos da información correcta del proceso cladogenético y, por tanto, de las relaciones filogenéticas es la Homología derivada compartida o sinapomorfía.

¿Como detectar cada tipo de similitud? La escuela cladista o sistemática filogenética propuso dos procedimientos: Para diferenciar las homologías de las analogías o homoplasias: propuso el criterio de máxima parsimonia. Para diferenciar las homologías ancestrales de las derivadas: propuso determinar para cada carácter el estado ancestral y el derivado. Ello se consigue comparando los caracteres con los del registro fósil, viendo que ocurre con el carácter durante desarrollo embrionario, o bien comparando los caracteres con los de especies de referencia externa (outgroups).

En cambio, la fenética o taxonomía numérica propone utilizar todas las similitudes para obtener aproximaciones filogenéticas que permitan obtener una clasificación de los seres vivos objetiva y repetible. Por ello, propusieron: Considerar cuantos más caracteres mejor (> 100) Dar la misma importancia a todos los caracteres Obtener una medida cuantitativa de la similitud (coeficientes) o de la diferencia (disimilitud y distancia) entre individuos, especies o taxones (OTUs, unidades taxonómicas operativas) basada en todos los caracteres. Utilizar procedimientos matemáticos y estadísticos para el análisis de las similitudes entre OTUs (procedimientos de agrupamiento).

Algoritmos para reconstrucción de árboles filogenéticos
4.6. Métodos básicos de reconstrucción filogenética. Algoritmos para reconstrucción de árboles filogenéticos Medición de distancias. Encontrar el árbol filogenético que sea consistente con los datos de distancia evolutiva entre las secuencias. Máxima parsimonia: Encontrar el árbol filogenético en que se necesita el menor número de “pasos” para generar las secuencias. Máxima probabilidad: De todas las posibles combinaciones de árboles filogenéticos para un grupo de secuencias encontrar aquel con la mayor probabilidad tomando en cuenta la factibilidad de los eventos evolutivos necesarios para producir el árbol. Bayesiano: Se utiliza el teorema de Bayes para calcular el árbol con la mayor probabilidad, utilizando una estrategia de muestreo de las probabilidades a priori.

X 4.6. Métodos básicos de reconstrucción filogenética.
Podemos clasificar a los métodos de reconstrucción filogenética en base al tipo de datos que emplean (caracteres discretos vs. distancias) y si usan un método algorítmico o un método de búsqueda basado en un criterio de optimización para encontrar la topología óptima bajo el criterio seleccionado Tipo de datos Distancias caracteres discretos UPGMA Neighbor joining X Evolución mínima Máxima parsimonia Máxima verosimilitud optimización agrupamiento Método de reconstrucción Criterio de algoritmo de

Métodos basados en caracteres Los métodos filogenéticos basados en caracteres infieren la filogenia a partir de la comparación de las características de los organismos analizados, basándose en las siguientes premisas: 1) Los cambios heredables (morfología, secuencias, etc.) producen cambios en las propiedades de los organismos (diferentes estados del carácter). 2) Los cambios ocurridos en los caracteres a lo largo de la evolución pueden deducirse de las similitudes y diferencias entre organismos, lo que proporciona la base de la inferencia filogenética. 3) La utilidad de los cambios de estado depende de que sean realmente debidos a similitud por descendencia (homología) y que no se trate de similitud debida a cambio evolutivo convergente o reversible (homoplasia). La diferenciación entre homoplasia y homología es el problema principal de la inferencia filogenética que los distintos métodos tratan de resolver.

Los métodos filogenéticos basados en caracteres utilizan directamente la matriz de datos (N x M, donde N son organismos, especies, taxones, genes, etc. y M los caracteres). Estos métodos tratan de buscar la combinación de estados de los caracteres de los nodos internos de un árbol que mejor explican los estados de los caracteres presentes en los nodos externos (observados en los organismos, especies, taxones bajo análisis), minimizando la homoplasia. Se han propuesto diferentes métodos basados en el análisis de los cambios de estado de los caracteres. Todos ellos son métodos de optimización que requieren analizar todos los árboles posibles para determinar el mejor (óptimo) que cumpla un criterio de optimización.

Método de máxima parsimonia: - Utilizan la máxima parsimonia: el árbol óptimo es el que requiere un menor número de cambios de estado en un conjunto de caracteres. - El árbol que requiere un menor número de cambios es la que requiere el mayor número de cambios homólogos y menor de cambios homoplásicos para explicar la evolución de los caracteres, ya que el cambio homólogo ocurre una sola vez en la evolución pero el análogo (homoplasia) ocurre más de una vez. - El principio de parsimonia se relaciona con el postulado del filósofo medieval Guillermo de Ockham de que la mejor hipótesis es la más simple.

Los métodos de parsimonia molecular no difieren de la parsimonia aplicada a otro tipo de caracteres, excepto en la naturaleza de los caracteres y de los mecanismos de mutación que explican la transición de estados de los caracteres. Veamos un ejemplo, 1 Gato 2 Perro 3 Rata 4 Ratón 3 hipótesis alternativas para las relaciones entre 4 mamíferos: 1 Gato 3 Rata 2 Perro 4 Ratón Árbol ((1,3),(2,4)) 1 Gato 2 Perro 4 Ratón 3 Rata Árbol ((1,2),(3,4)) Árbol ((1,4),(2,3))

Matriz de caracteres: 1 Gato ACCCCTTC 2 Perro ACCCCATA 3 Rata ACTGCTTC 4 Ratón ACTGCTAA Tres posibles árboles: (1,2),(3,4) (1,3),(2,4) (1,4),(2,3) PARSIMONIA 1 2 3 4

1 Gato ACCCCTTC 2 Perro ACCCCATA 3 Rata ACTGCTTC 4 Ratón ACTGCTAA (1,2),(3,4) 0 (1,3),(2,4) 0 (1,4),(2,3) 0 PARSIMONIA 1 A 3 A 1 A 2 A 1 A 2 A 4 A 3 A 2 A 3 A 4 A 4 A

1 Gato ACCCCTTC 2 Perro ACCCCATA 3 Rata ACTGCTTC 4 Ratón ACTGCTAA (1,2),(3,4) 001 (1,3),(2,4) 002 (1,4),(2,3) 002 PARSIMONIA 1 C 3 T 1 C 2 C 1 C 2 C C T T C T C C T C T 2 C 4 T 3 T 4 T 4 T 3 T

1 Gato ACCCCTTC 2 Perro ACCCCATA 3 Rata ACTGCTTC 4 Ratón ACTGCTAA (1,2),(3,4) 0011 (1,3),(2,4) 0022 (1,4),(2,3) 0022 PARSIMONIA 1 C 3 G 1 C 2 C 1 C 2 C C G G C G C C G C G 2 C 4 G 3 G 4 G 4 G 3 G

1 Gato ACCCCTTC 2 Perro ACCCCATA 3 Rata ACTGCTTC 4 Ratón ACTGCTAA (1,2),(3,4) (1,3),(2,4) (1,4),(2,3) PARSIMONIA 1 T 3 T 1 T 2 A 1 T 2 A T A T A T A 2 A 4 T 3 T 4 T 4 T 3 T

1 Gato ACCCCTTC 2 Perro ACCCCATA 3 Rata ACTGCTTC 4 Ratón ACTGCTAA (1,2),(3,4) (1,3),(2,4) (1,4),(2,3) PARSIMONIA 1 T 3 T 1 T 2 T 1 T 2 T T A T A T A 2 T 4 A 3 T 4 A 4 A 3 T

1 Gato ACCCCTTC 2 Perro ACCCCATA 3 Rata ACTGCTTC 4 Ratón ACTGCTAA (1,2),(3,4) (1,3),(2,4) (1,4),(2,3) PARSIMONIA 1 C 3 C 1 C 2 A 1 C 2 A C A C A A C C A A C 2 A 4 A 3 C 4 A 4 A 3 C Según el criterio de máxima parsimonia deberíamos preferir el árbol (1,2),(3,4) frente a los otros ya que requiere menos cambios.

S1 ACCCCTTC S2 ACCCCATA S3 ACTGCTTC S4 ACTGCTAA (1,2),(3,4) (1,3),(2,4) (1,4),(2,3) CCIICNNI C = Sitio constante I = Sitio informativo N = Sitio NO informativo PARSIMONIA Del ejemplo anterior se deduce que: Los sitios constantes se deben ignorar siempre ya que no implican ningún cambio (coste 0) en caulquier árbol. Los sitios no informativos se ignoran para determinar el mejor árbol, ya que implican el mismo número de cambios en todos los árboles. Sólo hay que considerar los SITIOS INFORMATIVOS, aquellos en los que al menos dos estados del carácter aparecen dos o más veces.

DISTANCIAS Ventajas de la conversión de la matriz de caracteres en distancias Para ciertos tipos de datos es el único método disponible. Al igual que con los métodos estadísticos, para datos de secuencias se dispone de un gran número de modelos que permiten la corrección de superposición de cambios lo que mejora la estima de las distancias. Son métodos rápidos con algoritmos de computación simples, algunos métodos permiten obtener filogenias de un gran número de taxones. Se puede complementar con el test de razones de verosimilitud, que permite determinar el modelo (y sus parámetros) que mejora las estimas de distancias. Inconvenientes de la conversión de la matriz de caracteres en distancias Se pierde información, ya que dadas unas distancias ajustadas a una filogenia no es posible determinar los cambios de los caracteres implicados. De los datos se puede determinar las distancias pero de las distancias no se derivan los cambios implicados. Únicamente a través del análisis de caracteres podemos identificar los caracteres informativos con los cambios diagnósticos (‘signaturas’). No se puede realizar un análisis simultáneo de distintos tipos de caracteres que requieran un tratamiento diferente al transformarlos en distancias. Por ejemplo: no podemos considerar sustituciones nucleotídicas e ‘indels’ simultáneamente en la estima de distancias.

DISTANCIAS Como distancia filogenética entendemos la cantidad de cambio evolutivo ocurrido para un conjunto de caracteres entre taxones. En matemáticas, la distancia es la diferencia de valores de un conjunto de variables que definen las coordenadas de puntos en el espacio n-dimensional. Las distancias aditivas son aquellas que se ajustan a un árbol, en ese caso las distancias son la suma de los valores de las ramas que conectan dos nodos, este tipo de distancias cumplen una serie de propiedades. Las distancias no aditivas se ajustan a otras representaciones gráficas como una red (network), pero no a un árbol. Si se ajustan a una red, las distancias no aditivas serán la suma de los valores de las ramas que conectan dos nodos, pero en este caso no cumplirán las propiedades de las distancias aditivas. - Un tipo de distancias aditivas, que además cumplen una serie de propiedades añadidas, son las distancias ultramétricas que se ajustan a un árbol ultramétrico, en los que la distancias entre un nodo interno y los nodos externos que conecta son iguales.

Cualquier distancia aditiva debe cumplir las siguientes propiedades: No negatividad d(a,b)  0 Simetría d(a,b) = d(b,a) Desigualdad triangular d(a,c)  d(a,b) + d(b,c) Diferenciación d(a,b) = 0 sólo si a = b Además cumplen la regla de los cuatro puntos (o de los vecinos): A B C D a b x c d dAB + dCD  dAC + dBD dAB + dCD  dAD + dBC dAC + dBD = dAD + dBC = a + b + c + d + 2x dAC + dBD = dAD + dBC = dAB + dCD + 2x En el caso de las distancias ultramétricas cumplen las anteriores propiedades y la regla de los cuatro puntos como distancias aditivas que son, pero además cumplen la propiedad de los 3 puntos: A B C a b c d Para cualquier par de nodos externos, las distancias de las ramas que los conectan al nodo interno común son iguales. Propiedades aditivas: dAB = a + b; dAC = a + d +c; dBC = b +d +c Propiedades ultramétricas: a = b y a + d = b + d = c

Árboles ultramétricos: métodos de agrupamiento (clustering) A partir de una matriz de distancias van agrupando los taxones que presenten menor distancia entre sí ya que, asumiendo una tasa de cambio constante (ultrametricidad), serán los que han divergido más recientemente. Al reconstruir el árbol se van ajustando las distancias empíricas a ultramétricas forzando que cumplan las propiedades de la ultrametricidad. Si las distancias empíricas no son ultramétricas la reconstrucción filogenética será incorrecta. Métodos de agrupamiento: UPGMA (Unweighted pair grouping method by the aritmetic mean), WPGMA (Weighted pair grouping method by the aritmetic mean), SL (single linkage) y CL (complete linkage). Secuencias: A, B, C y D 1ª unión Si min dij = dAB a matriz de distancias A B C B dAB C dAC dBC D dAD dBD dCD A b B dAB/2 Aditividad dAB = a + b Ultrametricidad a = b dAB = 2a = 2b a = b = dAB/2 dij: distancia entre secuencias i y j

Árboles ultramétricos: métodos de agrupamiento (clustering) 2ª unión Si min dij = d(AB)C A B C d(AB)C/2 (AB) C C d(AB)C D d(AB)D dCD d(ij)k = (dik + djk)/2 para UPGMA y WPGMA d(ij)k = min (dik , djk ) para single linkage d(ij)k = max (dik , djk ) para complete linkage A la hora de estimar la distancia de un grupo respecto a los demás grupos o taxones (par AB a C en el ejemplo), si las distancias fueran estrictamente ultramétricas dAB y dBC deberían ser iguales, si no lo son es debido a errores estocásticos o homoplasia, por lo que se fuerza a que lo sean y ahí es donde difieren los 4 métodos, el UPGMA toma la media no ponderada de ellas, WPGMA la media ponderada, ‘single linkage’ la mínima de ellas y ‘complete linkage’ la máxima.

Árbol final con distancias de las ramas
4.6. Métodos básicos de reconstrucción filogenética. Árboles ultramétricos: métodos de agrupamiento (clustering) A Árbol final con distancias de las ramas B dAB/2 C d(AB)C/2 D d(ABC)D/2 d(ABC)D = [dAD + dBD + dCD]/3 (en el caso de UPGMA) d(ABC)D = [(dAD + dBD )/2+ dCD]/2 (en el caso de WPGMA) d(ABC)D = min [dAD + dBD + dCD] (en el caso de Single Linkage) d(ABC)D = max [dAD + dBD + dCD] (en el caso de Complete Linkage)

Árboles ultramétricos: métodos de agrupamiento (clustering) A - GCTTGTCCGTTACGAT B – ACTTGTCTGTTACGAT C – ACTTGTCCGAAACGAT D - ACTTGACCGTTTCCTT E – AGATGACCGTTTCGAT F - ACTACACCCTTATGAG A B C D E 2 4 6 F 8 A B C D E 2 4 6 F 8

Árboles ultramétricos: métodos de agrupamiento (clustering) dist(A,B),C = (distAC + distBC) / 2 = 4 dist(A,B),D = (distAD + distBD) / 2 = 6 dist(A,B),E = (distAE + distBE) / 2 = 6 dist(A,B),F = (distAF + distBF) / 2 = 8 A,B C D E 4 6 F 8 A,B C D E 4 6 F 8

Árboles ultramétricos: métodos de agrupamiento (clustering) A,B C D,E 4 6 F 8 AB,C D,E 6 F 8 ABC,DE F 8

Árboles ultramétricos: métodos de agrupamiento (clustering) Los métodos de agrupamiento fallan cuando las tasas evolutivas no son constantes Matriz de distancias A B C D E 5 4 7 10 6 9 F 8 11 Árbol real Topología incorrecta Topología incorrecta Raíz Árbol UPGMA

Árboles aditivos: método de árbol único por análisis de cuartetos Hay diferentes métodos que no asumen ultrametricidad. Vamos a ver uno de ellos, el Neighbor-Joining como ejemplo. Utilizan la propiedad de los 4 puntos de las distancias aditivas para identificar a los vecinos más próximos: A B C D a b x c d dAC + dBD = dAD + dBC = a + b + c + d + 2x = dAB + dCD + 2x dAB + dCD < dAC + dBD dAB + dCD < dAD + dBC A-B y C-D son vecinos A-C, B-D, A-D y B-C no son vecinos

Árboles aditivos: método de árbol único por análisis de cuartetos Para determinar la topología del árbol aditivo, se agrupan los taxones en todos los cuartetos posibles y se calculan para cada cuarteto las tres sumas de distancias dos a dos y se determina que suma es la menor, lo que identifica a los dos pares de vecinos más próximos. El par de taxones que aparece respaldado como vecinos en todas las combinaciones es el primero en agruparse. Una vez agrupado se recalculan las distancias del primer par de taxones a todos los restantes taxones (promediando como se hacía en el UPGMA), y se vuelven a calcular, de todos los cuartetos posibles, cual es el siguiente par respaldado como vecinos. Así sucesivamente hasta que quedan agrupados todos los taxones. Una vez se ha determinado la topología, se le ajustan las distancias por el método de Fitch-Margoliash o de mínimos cuadrados, para obtener el árbol.

Árboles aditivos: método Neighbor-Joining (NJ) de árbol único 1 2 3 4 5 6 7 8 X 1 2 3 4 5 6 7 8 Y X Saitou y Nei demostraron que la longitud de las ramas del nuevo árbol que agrupa el par 1 y 2 (S12) vienen dada por: S = Suma de las ramas de un árbol dij= Distancia entre las secuencias i y j Si calculamos las distancias para todos los posibles árboles que agrupan todas las combinaciones de pares de taxones (S12, S13, ……., S78), Saitou y Nei demostraron que el par de taxones que minimiza longitud del árbol es el par de vecinos más próximos.

Árboles aditivos: método Neighbor-Joining (NJ) de árbol único Una vez identificados los vecinos más próximos, se agrupan y se eliminan del árbol para volver a iniciar el ciclo con el nodo X: X 1 2 3 4 5 6 7 8 Y X 3 4 5 6 7 8 Y Para ello hay que recalcular las longitudes de las ramas de 1 a Y (L1y) y de 2 a Y (L2Y) y las distancias de Y a los restantes taxones (dYk), que Saitou y Nei demuestran que vienen dadas por:

Árboles aditivos: método Neighbor-Joining (NJ) de árbol único Se comprime 1 y 2 en Y, y se sigue aplicando el procedimiento, recalculando las distancias de los restantes taxones al nuevo nodo Y, que se tratará como un taxón más, según la ecuación: dYk Y k 1 2 Y k d12 d2k d1k

Árboles aditivos: método Neighbor-Joining (NJ) de árbol único Ejemplo tomado del artículo original de Saitou y Nei (1987)

Árboles aditivos: método Neighbor-Joining (NJ) de árbol único Ejemplo tomado del artículo original de Saitou y Nei (1987) Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6

Tema 4. La reconstrucción filogenética.

Presentaciones similares

Presentación del tema: "Tema 4. La reconstrucción filogenética."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Tema 4. La reconstrucción filogenética.

Presentaciones similares

Presentación del tema: "Tema 4. La reconstrucción filogenética."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback