Tema 4. La reconstrucción filogenética.

Tema 4. La reconstrucción filogenética.
4.1. La homología como guía para reconocer las relaciones filogenéticas. 4.2. Tipos de caracteres y estados del carácter. 4.3. La perspectiva filogenética de la biología. 4.4. ¿Qué es un árbol filogenético? 4.5. Inferencia e interpretación de árboles filogenéticos . 4.6. Métodos básicos de reconstrucción filogenética. 4.7. Filogenias moleculares. 4.8. Dificultades y aplicaciones de la reconstrucción

Tema 4. La reconstrucción filogenética.
01. Presentación tema 4 primera parte. 02. Presentación tema 4 segunda parte. 03. Presentación tema 4 tercera parte. 04. Presentación tema 4 cuarta parte. 05. Apuntes tema 04_reconstrucción árboles evolutivos. 06, Apuntes tema 04_descifrando el árbol de la vida 07. Chapter 27_Phylogenetic reconstruction.

4.7. Filogenias moleculares
Present TCAAGGTATTAAC Temps Ancestre comú més recent (MRCA) 24/03/2017 Fernando González Candelas

TCGAGGTATTAAC TCTAGGTATTAAC mutació MRCA 24/03/2017 Fernando González Candelas

TCGAGGTATTAAC TCTAGGTATTAAC mutación MRCA 24/03/2017 Fernando González Candelas

TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC mutación MRCA 24/03/2017 Fernando González Candelas

TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC mutación 24/03/2017 Fernando González Candelas

TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC mutación 24/03/2017 Fernando González Candelas

TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC 24/03/2017 Fernando González Candelas

TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC 24/03/2017 Fernando González Candelas

TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC 24/03/2017 Fernando González Candelas

Presente TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC * ** * * Tiempo MRCA 24/03/2017 Fernando González Candelas

Secuencia 1 TCGAGGTATTAAC Secuencia 2 TCTAGGTATTAAC Secuencia 3 TCGAGGCATTAAC Secuencia 4 TCTAGGTGTTAAC Secuencia 5 TCGAGGTATTAGC Secuencia 6 TCTAGGTATCAAC Sec1 Sec2 Sec3 Sec4 Sec5 Sec6 - 1 2 3 24/03/2017 Fernando González Candelas

Seq1 Seq2 Seq3 Seq4 Seq5 Seq6 - 1 2 3 Secuencia 1 TCGAGGTATTAAC Secuencia 2 TCTAGGTATTAAC Secuencia 3 TCGAGGCATTAAC Secuencia 4 TCTAGGTGTTAAC Secuencia 5 TCGAGGTATTAGC Secuencia 6 TCTAGGTATCAAC Secuencia 3 Secuencia 1 Secuencia 5 Secuencia 2 Secuencia 6 Secuencia 4 24/03/2017 Fernando González Candelas

TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC * ** * * 24/03/2017 Fernando González Candelas

La utilización de secuencias Para poder comparar los estados de un carácter, debemos primero determinar cuáles son homólogos y corresponden, por tanto, a un mismo carácter. En el caso de secuencias nucleotídicas y aminoacídicas, el carácter es la posición nucleotídica y el residuo aminoacídico, respectivamente. Se trata por tanto de una homología posicional. Homología posicional entre secuencias: Un par de nucleótidos de dos secuencias presentan homología posicional cuando descienden del mismo nucleótido presente en la secuencia ancestral de la que derivan. La homología posicional la identificamos mediante la obtención de alineamientos. Alineamiento de secuencias: Es una hipótesis sobre la homología posicional entre las posiciones o los residuos de dos o más secuencias.

Alineamiento de secuencias múltiples: Objetivos
4.7. Filogenias moleculares Alineamiento de secuencias múltiples: Objetivos Generar un resumen conciso y rico en información de los datos de secuencias. A veces se emplea para ilustrar la disimilitud entre un grupo de secuencias. Los alineamientos pueden tratarse como modelos que pueden emplearse para contrastar hipótesis. ¿Este modelo refleja de forma precisa lo sucedido a partir de la evidencia biológica conocida?

Difícil, debido a las inserciones o deleciones (indels)
4.7. Filogenias moleculares Problemas con la utilización de secuencias El alineamiento se puede obtener fácilmente o ser más complicado cuando si hay pérdidas (deleciones) o ganancias (inserciones) de nucleótidos o aminoácidos Fácil Difícil, debido a las inserciones o deleciones (indels)

Problemas con la utilización de secuencias Para obtener una reconstrucción filogenética, a partir del alineamiento se pueden analizar los cambios de estado de los caracteres (métodos basados en caracteres como máxima parsimonia) o transformarlos en una medida de distancias entre secuencias (métodos basados en distancias). Las estimas de distancia tratan de determinar el número de cambios por posición desde que 2 secuencias divergieron de su ancestro común. Contar simplemente el número de diferencias (la llamada distancia p) puede subestimar considerablemente la cantidad de cambios producidos realmente, especialmente si las secuencias son muy diferentes, debido a las sustituciones múltiples, tanto debidas a homoplasia (en rojo) como no (en azul ).

(b) Substitució múltiple 2 canvis, 1 diferència
(a) Substitució única 1 canvi, 1 diferència (b) Substitució múltiple 2 canvis, 1 diferència (c) Substitució coincident (d) Substitució paral·lela 2 canvis, 0 diferències (e) Substitució convergent 3 canvis, 0 diferències (f) Reversió A C T G Tiempo Diferencia esperada Diferencia observada Corrección Diferencia entre secuencias Saturación

Procedimiento general de ClustalW
4.7. Filogenias moleculares Procedimiento general de ClustalW CLUSTAL W Hbb_Humano 1 - Hbb_Caballo Hba_Humano Alineamiento emparejado rápido: calcular la matriz de distancias Hba_Caballo Myg_Ballena Hbb_Humano 2 3 4 Hbb_Caballo Árbol ‘Neighbor-joining’ (Árbol guía) Hba_Humano 1 Hba_Caballo Myg_Ballena a-hélices 1 PEEKSAVTALWGKV N- - VDEVGG 2 3 4 Alineamiento progresivo siguiendo el árbol guía 2 GEEKAAVLALWDKV N- - EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 1 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ

Métodos de Distancia 4.7. Filogenias moleculares
Las estimas de distancia intentan estimar el número promedio de cambios por sitio desde que 2 especies (secuencias) divergieron de su ancestro común Contar simplemente el número de diferencias (distancia p) puede subestimar considerablemente la cantidad de cambios producidos realmente – especialmente si las secuencias son muy diferentes – debido a las sustituciones múltiples En consecuencia, empleamos un modelo que incluye parámetros que reflejan el modo en que creemos han evolucionado las secuencias VENTAJAS INCONVENIENTES Rápido – adecuado para el análisis de conjuntos de datos muy grandes Se dispone de un gran número de modelos con muchos parámetros que mejoran la estima de las distancias Se pierde información – sólo con las distancias es imposible recuperar las secuencias originales Sólo mediante los análisis basados en caracteres puede investigarse la historia de los sitios, p.e., se puede inferir las posiciones más informativas

En consecuencia, corregimos las diferencias observadas según un modelo de evolución para considerar las sustituciones múltiples El modelo más simple es el que propusieron Jukes y Cantor  A T G C TRANSVERSIONES TRANSICIONES Todas las sustituciones nucleotídicas se producen con la misma probabilidad Pij (t) = ¼ - ¼ e-3t (si ij) y la probabilidad de no sustitución es: Pij (t) = ¼ + ¾ e-3t (si i=j)      La corrección a la que se llega es:

K = (dxy) = distancia entre dos secuencias expresada como el número de sustituciones por posición nucleotídica (nótese que dxy = r/n, donde r es el número de reemplazamientos y n es el número total de sitios. Aquí se asume que todos los sitios pueden variar y que cuando no hay variación entre las secuencias se subestima la cantidad de cambio realmente producido en los sitios variables) p = es la proporción observada de nucleótidos diferentes entre las dos secuencias (disimilitud fraccional) ln = función logaritmo natural para corregir las mutaciones superpuestas Las fracciones 3/4 y 4/3 reflejan que hay cuatro tipos de nucleótidos y tres formas en que un segundo nucleótido puede no coincidir con uno previo - siendo todos los tipos de cambio igual de probables (i.e. secuencias no emparentadas deben coincidir en un 25% sólo por azar)

Hay más modelos según las probabilidades de cambio entre los 4 tipos de nucleótidos sean diferentes. A T G C TRANSVERSIONES TRANSICIONES

Relaciones entre algunos modelos de sustitución Modelo general reversible 3 tipos de sustitución: 2 transiciones y 1 transversión Bases equifrecuentes Tamura-Nei 93 Zharkikh 94 3 tipos de sustitución: 1 transición y 2 transversiones 2 tipos de sustitución: transiciones y transversiones Tamura 92 HKY 85 Felsenstein 84 Kimura 3P Bases equifrecuentes 2 tipos de sustitución: transiciones y transversiones 1 tipo de sustitución Tajima-Nei 84 Felsenstein 81 Kimura 2P 1 tipo de sustitución Bases equifrecuentes Jukes-Cantor

Máxima verosimilitud (Català: Màxima versemblança; Anglès: Maximum likelihood, ML) Podría llamarse también máxima probabilidad. Históricamente es el método más moderno. La popularizó Joseph Felsenstein, Seattle, Washington. Su lenta adopción por la comunidad científica tiene que ver con la dificultad de comprensión de la teoría y también con la carencia (inicialmente) de buenos programas con varios modelos y facilidad en la interacción con los datos. En aquel entonces, también era computacionalmente imposible analizar conjuntos de datos grandes (cuando se propuso, a mediados de los ’80, un ordenador típico tenía 1-2 Mb de RAM y un procesador a 20 Mhz). En la actualidad, la mejora en prestaciones de programas, modelos y ordenadores han permitido que la ML sea uno de los métodos favoritos para el análisis de secuencias.

ML en comparación con otros métodos
4.7. Filogenias moleculares ML en comparación con otros métodos ML se asemeja a otros métodos en muchas cosas En otras es esencialmente diferente. ML asume un modelo de evolución de las secuencias (al igual que la máxima parsimonia o los métodos de distancia). ML intenta dar una respuesta a la siguiente pregunta: ¿Cuál es la probabilidad de que observe estos datos (el alineamiento de secuencias múltiples), dado un modelo concreto de evolución (un árbol y un proceso)? ML emplea un ‘modelo’. Esto tiene una buena justificación, puesto que se puede demostrar que los datos de secuencias moleculares aparecen según un proceso estocástico.

¿Cuál es la probabilidad de observar un dato?
4.7. Filogenias moleculares Máxima verosimilitud ¿Cuál es la probabilidad de observar un dato? Si lanzamos al aire una moneda y nos sale cara y pensamos que la moneda no está trucada, entonces la probabilidad de observar esta cara es 0.5. Si pensamos que la moneda está trucada, de forma que salga cara el 80% de las veces, entonces la probabilidad de observar este dato (una cara) es 0.8. Por tanto: La probabilidad de hacer cierta observación depende completamente del modelo subyacente a nuestros supuestos. Lección: El dato no ha cambiado, pero nuestro modelo si. Por tanto, bajo el nuevo modelo la probabilidad de observar el dato ha variado. p = ?

Objetivo de la máxima verosimilitud
4.7. Filogenias moleculares Objetivo de la máxima verosimilitud Este método trata de contestar la siguiente cuestión: ¿Cuál es la probabilidad de que se observe una serie de datos (alineamiento de secuencias) dado un determinado modelo de evolución? Datos: un alineamiento de secuencias. Modelo: árbol filogenético + proceso evolutivo. - El mejor modelo (óptimo) será el que presenta una mayor probabilidad (verosimilitud). Probabilidad de dados A C G T A C G T j

¿Cómo calcular la verosimilitud de un árbol?
4.7. Filogenias moleculares ¿Cómo calcular la verosimilitud de un árbol? La verosimilitud de un sitio concreto es la suma de las probabilidades de cada reconstrucción posible de estados ancestrales dado cierto modelo de sustitución de unas bases por otras. Lij = Prob C A G + T La verosimilitud del árbol completo es el producto de las verosimilitudes en cada sitio Lij = L(1) * L(2) * ... * L(N) =  L(j) N j=1

Máxima verosimilitud Para calcular las probabilidades necesitamos de un modelo de evolución. En el caso de sustituciones nucleotídicas asumimos: Proceso Markoviano homogéneo: la historia anterior no afecta a la probabilidad posterior. Pueden darse diferentes tasas de sustitución nucleotídica según el nucleótido inicial y final (4 x 4). La tasa de sustitución entre posiciones del alineamiento puede ser constante o variable. Para nucleótidos, hay 16 posibles tasas de sustitución - una matriz de 4x4. Inicial = A C G T A C G T Final Para aminoácidos, la matriz es de 20 x 20, y para codones 61 x 61

Máxima verosimilitud Los modelos que se utilizan son los mismos que en el caso de corrección de distancias nucleotídicas

Ventajas de la máxima verosimilitud
4.7. Filogenias moleculares Ventajas de la máxima verosimilitud No hace falta observar el cambio entre secuencias y luego corregir las mutaciones superpuestas. No hay necesidad de 'corregir' nada, porque los modelos tienen en cuenta las sustituciones superpuestas. Se obtienen estimas precisas de las longitudes de las ramas de los árboles. Cada lugar tiene una verosimilitud. Si el modelo es correcto, deberíamos recuperar el árbol correcto. Se puede usar un modelo que se ajuste a los datos. ML usa todos los datos (no se seleccionan sitios informativos; todos los lugares lo son). ML nos proporciona información no sólo de la filogenia de las secuencias, sino también del proceso evolutivo que ha conducido a observar las secuencias actuales Inconvenientes de la máxima verosimilitud Puede ser inconsistente si los modelos no son adecuados. Es posible que el modelo no sea bastante sofisticado. Es un método costoso en términos de cálculo computacional. Es posible que no se puedan examinar todos los modelos de evolución posibles (matrices de sustitución, topologías del árbol, etc.)

4.8.Dificultades y aplicaciones de la reconstrucción filogenética
Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? Artiodáctilos Artiodáctilos Perisodáctilos Perisodáctilos

Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? Los artiodáctilos se caracterizan morfológicamente por las características del astrágalo que les permite una mayor rotación del tobillo y, por tanto, una zancada mayor. Problema: las ballenas tienen extremidades muy modificadas (delanteras) o ausentes (traseras). No podemos saber como es el astrágalo porque está ausente.

Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? ¿Y el registro fósil? El astrágalo de arqueocetos parece similar al de artiodáctilos. Alternativa: Datos moleculares

Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? Secuencias del gen de la beta caseína, una de las proteínas de la leche (Gatsey et al., 1999) Confirman el origen artiodáctilo!!

Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? El árbol Neighbor-Joining obtenido con distancias basadas en las secuencias del gen de la beta caseína también confirman el origen artiodáctilo los cetáceos. Distancias genéticas para el análisis de agrupamientos. Cada entrada en esta tabla es una distancia genética entre un par de taxones, calculada a partir de las secuencias de la figura anterior. La filogenia se obtuvo mediante el análisis de agrupaciones de estas distancias genéticas. Nótese que pares de taxones, como la vaca y el ciervo (azul), o las ballenas y los hipopótamos (rojo), con bajas distancias genéticas se agrupan en taxones hermanos. Las longitudes de las ramas son proporcionales a la proporción esperada de diferencias nucleotídicas entre grupos (también se muestran numéricamente para algunas ramas).

Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? El origen artiodáctilo de los cetáceos se confirmó con los datos de presencia y ausencia de elementos transponibles LINE o SINE en 20 loci (Nakaido et al., 1999)

Tema 4. La reconstrucción filogenética.

Presentaciones similares

Presentación del tema: "Tema 4. La reconstrucción filogenética."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Tema 4. La reconstrucción filogenética.

Presentaciones similares

Presentación del tema: "Tema 4. La reconstrucción filogenética."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback