Tema 4. La reconstrucción filogenética.

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

Tema 4: Medidas de posición individual.
MÉTODOS Y DISEÑOS DE INVESTIGACIÓN METODOLOGÍAS DE INVESTIGACIÓN
Tema. 4. Medidas de posición. Medidas de posición individual, centiles
Estimación de la media poblacional
El método científico.
Estadística Unidad III
Genética de poblaciones y selección natural
Modelos de Variable Dependiente Binaria -Logit y Probit-
Investigación de Operaciones
Contraste de Hipótesis
Pronósticos, Series de Tiempo y Regresión
PROGRESIONES Prof. José Mardones Cuevas
INSTITUTO TECNOLÒGICO UNIDAD IV CADENAS DE MARKOV
PARADIGMAS DE LA EVALUACIÓN
La prueba U DE MANN-WHITNEY
KRIGING.
Pruebas de Especificación en el Modelo de Regresión Múltiple
Representación en espacio de estado
TEMA VII.
REGRESIÓN POR MÍNIMOS CUADRADOS
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Ecuaciones diferenciales de 1er orden :
Conceptos generales sobre Taxonomía
El método científico y sus etapas
PROCESAMIENTO DE DATOS DE VIENTO 1º Parte.
Bioestadística III. Escala cuantitativa. n Cuando la escala de medición es cuantitativa, y el análisis requiere un solo valor numérico que resuma alguna.
Tema 2: Métodos de ajuste
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
DNA Mitocondrial (mtDNA) y Nature - volumen de enero de 1987
PREGUNTAS ORIENTADORAS DEL PROBLEMA
La Derivada. Ya vimos: los conceptos, métodos ó instrumentos necesarios para establecer el “comportamiento” de una función.  en un entorno de x o [ 
1 Planteamiento del problema ¿Tenemos los humanos la capacidad de percibir si nos miran desde atrás? O, más exactamente: ¿Es defendible que existen otras.
Población y Muestra.
Teoría de lenguajes y compiladores
Unidad V: Estimación de
Práctica 1: Alineamientos Partimos de un archivo de datos que contiene 5 secuencias de mRNA asociado a la CFTR archivo de prácticas archivo de prácticas.
Elaborado por: Guillermo Baquerizo I Término
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Distancia entre dos secuencias: Jukes - Cantor
Filogenia. Filogenia Filogenia y genealogía La filogenia reproduce la trayectoria evolutiva del taxón.
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
Material de apoyo Unidad 4 Estructura de datos
Para construir un árbol filogenético se necesitan tres ingredientes básicos:
Unidad V: Estimación de
Métodos de reconstrucción filogenética
Estimación Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra. Sea un estadístico ( función.
ESTADÍSTICAS DESCRIPTIVA
Métodos de calibración: regresión y correlación
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Inferencia Estadística
Titular: Agustín Salvia
Previsión de Ventas. Métodos no paramétricos Previsión de Ventas. Tema 2. 1 Antonio Montañés Bernal Curso
Inferencia Bayesiana de Filogenias Moleculares Tania Hernández.
Unidad V: Estimación de
Matrices de sustitución
Repaso de clase anterior
Homología y homoplasia
Capítulo 1. Conceptos básicos de la Estadística
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Seminario de Investigación (6) Mtra. Marcela Alvarez Pérez.
Taller: Inteligencia Computacional
MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)
Alumno: Ariedne Niurca Aranda García Tutor: BIBIANA PORTUGAL FRIAS MÉTODOS DE INVESTIGACIÓN II Unidad 1 Actividad 2.
INFERENCIA ESTADÍSTICA
TEMA I Teoría de Circuitos
Taller de investigación 1
DISEÑO UN PROYECTO DE SERVICIO LICEO INDUSTRIAL DE SAN MIGUEL AGUSTÍN EDWARDS ROSS EDUCACIÓN TECNOLÓGICA 2011.
Regresión logística Tema 6c. En la regresión lineal la variable dependiente es continua En regresión logística se utiliza cuando la variable dependiente.
Transcripción de la presentación:

Tema 4. La reconstrucción filogenética. 4.1. La homología como guía para reconocer las relaciones filogenéticas. 4.2. Tipos de caracteres y estados del carácter. 4.3. La perspectiva filogenética de la biología. 4.4. ¿Qué es un árbol filogenético? 4.5. Inferencia e interpretación de árboles filogenéticos . 4.6. Métodos básicos de reconstrucción filogenética. 4.7. Filogenias moleculares. 4.8. Dificultades y aplicaciones de la reconstrucción

Tema 4. La reconstrucción filogenética. 01. Presentación tema 4 primera parte. 02. Presentación tema 4 segunda parte. 03. Presentación tema 4 tercera parte. 04. Presentación tema 4 cuarta parte. 05. Apuntes tema 04_reconstrucción árboles evolutivos. 06, Apuntes tema 04_descifrando el árbol de la vida 07. Chapter 27_Phylogenetic reconstruction.

4.7. Filogenias moleculares Present TCAAGGTATTAAC Temps Ancestre comú més recent (MRCA) 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC mutació MRCA 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC mutación MRCA 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC mutación MRCA 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC mutación 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC mutación 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares Presente TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC * ** * * Tiempo MRCA 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares Secuencia 1 TCGAGGTATTAAC Secuencia 2 TCTAGGTATTAAC Secuencia 3 TCGAGGCATTAAC Secuencia 4 TCTAGGTGTTAAC Secuencia 5 TCGAGGTATTAGC Secuencia 6 TCTAGGTATCAAC Sec1 Sec2 Sec3 Sec4 Sec5 Sec6 - 1 2 3 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares Seq1 Seq2 Seq3 Seq4 Seq5 Seq6 - 1 2 3 Secuencia 1 TCGAGGTATTAAC Secuencia 2 TCTAGGTATTAAC Secuencia 3 TCGAGGCATTAAC Secuencia 4 TCTAGGTGTTAAC Secuencia 5 TCGAGGTATTAGC Secuencia 6 TCTAGGTATCAAC Secuencia 3 Secuencia 1 Secuencia 5 Secuencia 2 Secuencia 6 Secuencia 4 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC TCTAGGTGTTAAC TCGAGGTATTAGC TCTAGGTATCAAC * ** * * 24/03/2017 Fernando González Candelas

4.7. Filogenias moleculares La utilización de secuencias Para poder comparar los estados de un carácter, debemos primero determinar cuáles son homólogos y corresponden, por tanto, a un mismo carácter. En el caso de secuencias nucleotídicas y aminoacídicas, el carácter es la posición nucleotídica y el residuo aminoacídico, respectivamente. Se trata por tanto de una homología posicional. Homología posicional entre secuencias: Un par de nucleótidos de dos secuencias presentan homología posicional cuando descienden del mismo nucleótido presente en la secuencia ancestral de la que derivan. La homología posicional la identificamos mediante la obtención de alineamientos. Alineamiento de secuencias: Es una hipótesis sobre la homología posicional entre las posiciones o los residuos de dos o más secuencias.

Alineamiento de secuencias múltiples: Objetivos 4.7. Filogenias moleculares Alineamiento de secuencias múltiples: Objetivos Generar un resumen conciso y rico en información de los datos de secuencias. A veces se emplea para ilustrar la disimilitud entre un grupo de secuencias. Los alineamientos pueden tratarse como modelos que pueden emplearse para contrastar hipótesis. ¿Este modelo refleja de forma precisa lo sucedido a partir de la evidencia biológica conocida?

Difícil, debido a las inserciones o deleciones (indels) 4.7. Filogenias moleculares Problemas con la utilización de secuencias El alineamiento se puede obtener fácilmente o ser más complicado cuando si hay pérdidas (deleciones) o ganancias (inserciones) de nucleótidos o aminoácidos Fácil Difícil, debido a las inserciones o deleciones (indels)

4.7. Filogenias moleculares Problemas con la utilización de secuencias Para obtener una reconstrucción filogenética, a partir del alineamiento se pueden analizar los cambios de estado de los caracteres (métodos basados ​​en caracteres como máxima parsimonia) o transformarlos en una medida de distancias entre secuencias (métodos basados ​​en distancias). Las estimas de distancia tratan de determinar el número de cambios por posición desde que 2 secuencias divergieron de su ancestro común. Contar simplemente el número de diferencias (la llamada distancia p) puede subestimar considerablemente la cantidad de cambios producidos realmente, especialmente si las secuencias son muy diferentes, debido a las sustituciones múltiples, tanto debidas a homoplasia (en rojo) como no (en azul ).

(b) Substitució múltiple 2 canvis, 1 diferència (a) Substitució única 1 canvi, 1 diferència (b) Substitució múltiple 2 canvis, 1 diferència (c) Substitució coincident (d) Substitució paral·lela 2 canvis, 0 diferències (e) Substitució convergent 3 canvis, 0 diferències (f) Reversió A C T G Tiempo Diferencia esperada Diferencia observada Corrección Diferencia entre secuencias Saturación

Procedimiento general de ClustalW 4.7. Filogenias moleculares Procedimiento general de ClustalW CLUSTAL W Hbb_Humano 1 - Hbb_Caballo 2 .17 - Hba_Humano 3 .59 .60 - Alineamiento emparejado rápido: calcular la matriz de distancias Hba_Caballo 4 .59 .59 .13 - Myg_Ballena 5 .77 .77 .75 .75 - Hbb_Humano 2 3 4 Hbb_Caballo Árbol ‘Neighbor-joining’ (Árbol guía) Hba_Humano 1 Hba_Caballo Myg_Ballena a-hélices 1 PEEKSAVTALWGKV N- - VDEVGG 2 3 4 Alineamiento progresivo siguiendo el árbol guía 2 GEEKAAVLALWDKV N- - EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 1 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ

Métodos de Distancia 4.7. Filogenias moleculares Las estimas de distancia intentan estimar el número promedio de cambios por sitio desde que 2 especies (secuencias) divergieron de su ancestro común Contar simplemente el número de diferencias (distancia p) puede subestimar considerablemente la cantidad de cambios producidos realmente – especialmente si las secuencias son muy diferentes – debido a las sustituciones múltiples En consecuencia, empleamos un modelo que incluye parámetros que reflejan el modo en que creemos han evolucionado las secuencias VENTAJAS INCONVENIENTES Rápido – adecuado para el análisis de conjuntos de datos muy grandes Se dispone de un gran número de modelos con muchos parámetros que mejoran la estima de las distancias Se pierde información – sólo con las distancias es imposible recuperar las secuencias originales Sólo mediante los análisis basados en caracteres puede investigarse la historia de los sitios, p.e., se puede inferir las posiciones más informativas

4.7. Filogenias moleculares En consecuencia, corregimos las diferencias observadas según un modelo de evolución para considerar las sustituciones múltiples El modelo más simple es el que propusieron Jukes y Cantor  A T G C TRANSVERSIONES TRANSICIONES Todas las sustituciones nucleotídicas se producen con la misma probabilidad Pij (t) = ¼ - ¼ e-3t (si ij) y la probabilidad de no sustitución es: Pij (t) = ¼ + ¾ e-3t (si i=j)      La corrección a la que se llega es:

4.7. Filogenias moleculares K = (dxy) = distancia entre dos secuencias expresada como el número de sustituciones por posición nucleotídica (nótese que dxy = r/n, donde r es el número de reemplazamientos y n es el número total de sitios. Aquí se asume que todos los sitios pueden variar y que cuando no hay variación entre las secuencias se subestima la cantidad de cambio realmente producido en los sitios variables) p = es la proporción observada de nucleótidos diferentes entre las dos secuencias (disimilitud fraccional) ln = función logaritmo natural para corregir las mutaciones superpuestas Las fracciones 3/4 y 4/3 reflejan que hay cuatro tipos de nucleótidos y tres formas en que un segundo nucleótido puede no coincidir con uno previo - siendo todos los tipos de cambio igual de probables (i.e. secuencias no emparentadas deben coincidir en un 25% sólo por azar)

4.7. Filogenias moleculares Hay más modelos según las probabilidades de cambio entre los 4 tipos de nucleótidos sean diferentes. A T G C TRANSVERSIONES TRANSICIONES

4.7. Filogenias moleculares Relaciones entre algunos modelos de sustitución Modelo general reversible 3 tipos de sustitución: 2 transiciones y 1 transversión Bases equifrecuentes Tamura-Nei 93 Zharkikh 94 3 tipos de sustitución: 1 transición y 2 transversiones 2 tipos de sustitución: transiciones y transversiones Tamura 92 HKY 85 Felsenstein 84 Kimura 3P Bases equifrecuentes 2 tipos de sustitución: transiciones y transversiones 1 tipo de sustitución Tajima-Nei 84 Felsenstein 81 Kimura 2P 1 tipo de sustitución Bases equifrecuentes Jukes-Cantor

4.7. Filogenias moleculares Máxima verosimilitud (Català: Màxima versemblança; Anglès: Maximum likelihood, ML) Podría llamarse también máxima probabilidad. Históricamente es el método más moderno. La popularizó Joseph Felsenstein, Seattle, Washington. Su lenta adopción por la comunidad científica tiene que ver con la dificultad de comprensión de la teoría y también con la carencia (inicialmente) de buenos programas con varios modelos y facilidad en la interacción con los datos. En aquel entonces, también era computacionalmente imposible analizar conjuntos de datos grandes (cuando se propuso, a mediados de los ’80, un ordenador típico tenía 1-2 Mb de RAM y un procesador a 20 Mhz). En la actualidad, la mejora en prestaciones de programas, modelos y ordenadores han permitido que la ML sea uno de los métodos favoritos para el análisis de secuencias.

ML en comparación con otros métodos 4.7. Filogenias moleculares ML en comparación con otros métodos ML se asemeja a otros métodos en muchas cosas En otras es esencialmente diferente. ML asume un modelo de evolución de las secuencias (al igual que la máxima parsimonia o los métodos de distancia). ML intenta dar una respuesta a la siguiente pregunta: ¿Cuál es la probabilidad de que observe estos datos (el alineamiento de secuencias múltiples), dado un modelo concreto de evolución (un árbol y un proceso)? ML emplea un ‘modelo’. Esto tiene una buena justificación, puesto que se puede demostrar que los datos de secuencias moleculares aparecen según un proceso estocástico.

¿Cuál es la probabilidad de observar un dato? 4.7. Filogenias moleculares Máxima verosimilitud ¿Cuál es la probabilidad de observar un dato? Si lanzamos al aire una moneda y nos sale cara y pensamos que la moneda no está trucada, entonces la probabilidad de observar esta cara es 0.5. Si pensamos que la moneda está trucada, de forma que salga cara el 80% de las veces, entonces la probabilidad de observar este dato (una cara) es 0.8. Por tanto: La probabilidad de hacer cierta observación depende completamente del modelo subyacente a nuestros supuestos. Lección: El dato no ha cambiado, pero nuestro modelo si. Por tanto, bajo el nuevo modelo la probabilidad de observar el dato ha variado. p = ?

Objetivo de la máxima verosimilitud 4.7. Filogenias moleculares Objetivo de la máxima verosimilitud Este método trata de contestar la siguiente cuestión: ¿Cuál es la probabilidad de que se observe una serie de datos (alineamiento de secuencias) dado un determinado modelo de evolución? Datos: un alineamiento de secuencias. Modelo: árbol filogenético + proceso evolutivo. - El mejor modelo (óptimo) será el que presenta una mayor probabilidad (verosimilitud). Probabilidad de dados A C G T A C G T j

¿Cómo calcular la verosimilitud de un árbol? 4.7. Filogenias moleculares ¿Cómo calcular la verosimilitud de un árbol? La verosimilitud de un sitio concreto es la suma de las probabilidades de cada reconstrucción posible de estados ancestrales dado cierto modelo de sustitución de unas bases por otras. Lij = Prob C A G + . . . T La verosimilitud del árbol completo es el producto de las verosimilitudes en cada sitio Lij = L(1) * L(2) * ... * L(N) =  L(j) N j=1

4.7. Filogenias moleculares Máxima verosimilitud Para calcular las probabilidades necesitamos de un modelo de evolución. En el caso de sustituciones nucleotídicas asumimos: Proceso Markoviano homogéneo: la historia anterior no afecta a la probabilidad posterior. Pueden darse diferentes tasas de sustitución nucleotídica según el nucleótido inicial y final (4 x 4). La tasa de sustitución entre posiciones del alineamiento puede ser constante o variable. Para nucleótidos, hay 16 posibles tasas de sustitución - una matriz de 4x4. Inicial = A C G T A C G T Final Para aminoácidos, la matriz es de 20 x 20, y para codones 61 x 61

4.7. Filogenias moleculares Máxima verosimilitud Los modelos que se utilizan son los mismos que en el caso de corrección de distancias nucleotídicas

Ventajas de la máxima verosimilitud 4.7. Filogenias moleculares Ventajas de la máxima verosimilitud No hace falta observar el cambio entre secuencias y luego corregir las mutaciones superpuestas. No hay necesidad de 'corregir' nada, porque los modelos tienen en cuenta las sustituciones superpuestas. Se obtienen estimas precisas de las longitudes de las ramas de los árboles. Cada lugar tiene una verosimilitud. Si el modelo es correcto, deberíamos recuperar el árbol correcto. Se puede usar un modelo que se ajuste a los datos. ML usa todos los datos (no se seleccionan sitios informativos; todos los lugares lo son). ML nos proporciona información no sólo de la filogenia de las secuencias, sino también del proceso evolutivo que ha conducido a observar las secuencias actuales Inconvenientes de la máxima verosimilitud Puede ser inconsistente si los modelos no son adecuados. Es posible que el modelo no sea bastante sofisticado. Es un método costoso en términos de cálculo computacional. Es posible que no se puedan examinar todos los modelos de evolución posibles (matrices de sustitución, topologías del árbol, etc.)

4.8.Dificultades y aplicaciones de la reconstrucción filogenética Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? Artiodáctilos Artiodáctilos Perisodáctilos Perisodáctilos

4.8.Dificultades y aplicaciones de la reconstrucción filogenética Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? Los artiodáctilos se caracterizan morfológicamente por las características del astrágalo que les permite una mayor rotación del tobillo y, por tanto, una zancada mayor. Problema: las ballenas tienen extremidades muy modificadas (delanteras) o ausentes (traseras). No podemos saber como es el astrágalo porque está ausente.

4.8.Dificultades y aplicaciones de la reconstrucción filogenética Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? ¿Y el registro fósil? El astrágalo de arqueocetos parece similar al de artiodáctilos. Alternativa: Datos moleculares

4.8.Dificultades y aplicaciones de la reconstrucción filogenética Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? Secuencias del gen de la beta caseína, una de las proteínas de la leche (Gatsey et al., 1999) Confirman el origen artiodáctilo!!

4.8.Dificultades y aplicaciones de la reconstrucción filogenética Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? El árbol Neighbor-Joining obtenido con distancias basadas en las secuencias del gen de la beta caseína también confirman el origen artiodáctilo los cetáceos. Distancias genéticas para el análisis de agrupamientos. Cada entrada en esta tabla es una distancia genética entre un par de taxones, calculada a partir de las secuencias de la figura anterior. La filogenia se obtuvo mediante el análisis de agrupaciones de estas distancias genéticas. Nótese que pares de taxones, como la vaca y el ciervo (azul), o las ballenas y los hipopótamos (rojo), con bajas distancias genéticas se agrupan en taxones hermanos. Las longitudes de las ramas son proporcionales a la proporción esperada de diferencias nucleotídicas entre grupos (también se muestran numéricamente para algunas ramas).

4.8.Dificultades y aplicaciones de la reconstrucción filogenética Ejemplo: Origen de los cetáceos: ¿son artiodáctilos o no? El origen artiodáctilo de los cetáceos se confirmó con los datos de presencia y ausencia de elementos transponibles LINE o SINE en 20 loci (Nakaido et al., 1999)