La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

ANÁLISIS FILOGENÉTICO

Presentaciones similares


Presentación del tema: "ANÁLISIS FILOGENÉTICO"— Transcripción de la presentación:

1 ANÁLISIS FILOGENÉTICO

2 Es el quagga mas parecido a una zebra o a un caballo?

3 Los primeros pasos en la elaboración de filogenias datan del siglo XIX
El árbol filogenético ilustra las relaciones de parentesco entre grupos de organismos que provienen evolutivamente de uno o varios ancestros comunes

4 Una muestra puede caracterizarse por diferencias morfológicas

5 Se agrupan las formas similares y se clasifican

6 Se establecen jerarquías en la clasificación

7 Y se procede a relacionarlas por parentesco

8 Cuestión reciente de filogenia: ¿son osos los pandas de Asia?

9

10 INTRODUCCION AL ANALISIS FILOGENETICO
El análisis filogenético fue inicialmente desarrollado para estudios genealógicos basados en caracteres morfológicos. Sin embargo, su lógica formal y su aplicación se ha extendido a distintos caracteres (cromosómicos, aloenzimáticos y moleculares).

11 Willie Hennig Entomólogo alemán quien fue el primero en proponer un sistema explícito de reconstrucción filogenética. Su libro “Grundzüge einer Theorie der phylogenetishen Systematik” (1950), sólo fue conocido en 1966, cuando se tradujo al Inglés. Su aporte produjo una verdadera revolución en la sistemática tanto a nivel metodológico (método cladista) como conceptual (teoría de clasificación).

12 Existen tres supuestos básicos en cladística:
1) Todo grupo de organismos esta relacionado por descendencia desde un ancestro común. 2) Hay un patrón bifurcante de cladogénesis. 3) El proceso de cambio de los caracteres ocurre en los linajes en el tiempo.

13 La proposición de Hennig (1950)
El método que agrupa organismos usando caracteres derivados compartidos se denomina Cladística o Sistemática filogenética. Sólo caracteres derivados compartidos (sinapomorfías) pueden darnos luces sobre las relaciones evolutivas (filogenia) de los taxa a estudiar. Los taxa que comparten mas caracteres derivados son agrupados mas cercanamente que los que no comparten estos caracteres. Las relaciones entre estos taxa son mostradas en un arbol jerárquico ramificado llamado Cladograma. El cladograma es construido de tal modo, que el número de eventos de cambio entre caracteres (de un estado al otro) es minimizado (PRINCIPIO DE PARSIMONIA)

14 Todo cladograma es una hipótesis
GRUPOS MONOFILÉTICOS

15 Nomenclatura asociada a los cladogramas
Árbol enraizado Árbol no enraizado

16 CONSECUENCIAS DE ENRAIZAR EL ARBOL
Arboles no enraizados Arboles enraizados # sequences # pairwise distances # trees # branches /tree # branches /tree 3 1 4 6 5 15 10 7 105 8 9 945 45 2,027,025 17 34,459,425 18 30 435 8.69  1036 57 4.95  1038 58 N N (N - 1) 2 (2N - 5)! 2N - 3 (N - 3)! 2N - 3 (2N - 3)! 2N - 2 (N - 2)! 2N - 2

17 El método del grupo externo (Outgroup)
HOMOLOGÍA ¿Cómo se determinan los estados primitivos y derivados? El método del grupo externo (Outgroup)

18 Concepto hennigniano de relación entre los taxa esta basado en la homología
Carácter: rasgo, parte observable en un organismo. Homología: dos caracteres en dos taxa son homólogos: a) cuando ellos están en el mismo estado en el ancestro o b) si estan en estado diferente, pero tiene una relación ancestro descendiente descrita como preexistente (taxón 1) o novedad (taxón 2).

19 Homología tiempo PRINCIPIO BASICO “descendencia con modificación”
1 = primitivo (plesiomorfico). 2 = derivado (apomorfico) 1 2 1 1 1 1 tiempo 1 1 1 1 0 = primitivo. 1 = derivado. PRINCIPIO BASICO “descendencia con modificación”

20 HOMOLOGÍA: CARACTERES MORFOLÓGICOS
“Un caracter en dos o más taxa es homólogo, cuando el carácter es encontrado en el ancestro común de ambos taxa o…dos caracteres son homólogos si uno es directamente (o secuencialmente) derivado de otro (E. O. Wiley)

21 HOMOPLASÍA: CARACTERES MORFOLÓGICOS
Euphorbiaceae (AFRICA) Cactaceae (NUEVO MUNDO)

22 CARACTERES MOLECULARES

23 HOMOLOGÍA: SECUENCIAS DE DNA

24 Fitch, W. TIG, May 2000, Vol. 16, N° 5

25 APOMORFÍAS HOMOLOGÍAS PLESIOMORFÍAS ORTOLOGÍA HOMOLOGÍAS NIVEL MOLECULAR PARALOGÍA XENOLOGÍA

26 FILOGENIA DE SECUENCIAS = FILOGENIA DE LOS TAXA
GENES ORTOLOGOS: Relación en que la divergencia de los genes ocurre después de un evento de especiación. FILOGENIA DE SECUENCIAS = FILOGENIA DE LOS TAXA

27 FILOGENIA DE SECUENCIAS FILOGENIA DE LOS TAXA
GENES PARALOGOS: Relación en que la divergencia de los genes ocurre después de un evento de duplicación. FILOGENIA DE SECUENCIAS FILOGENIA DE LOS TAXA GENES XENOLOGOS: Relación en que la historia de los genes involucra transferencia interespecífica de material genético. Synología: xenología originada por hibridización de dos especies

28 El problema de los genes duplicados
genes xenólogos genes ortólogos genes parálogos

29 Distintos tipos de hemoglobina
Hardison PNAS :

30 Origen reticulado

31 ClustalW, Malign, Pileup ALINEAMIENTO MULTIPLE ANALISIS FILOGENÉTICO
PROCEDIMIENTO PARA FILOGENIAS MOLECULARES SECUENCIAS PASO CRÍTICO ClustalW, Malign, Pileup ALINEAMIENTO MULTIPLE Phylip,PAUP,MacClade ANALISIS FILOGENÉTICO TreeDrawing ÁRBOL FILOGENÉTICO

32 Caracteres son posiciones en las secuencias.
DNA COMO CARACTER Caracteres son posiciones en las secuencias. Estados del caracter son los nucleótidos en las secuencias

33

34

35 ANALISIS FILOGENETICO
ROB DE SALLE LINNEO JOE FELSENSTEIN

36

37 Tipos de métodos computacionales:
Algoritmos de agrupamiento: Usan distancias. Son puramente algorítmicos, en los cuales el algoritmo define el criterio de selección del arbol. Tienden a ser muy rápidos para producir un arbol.. Cuidado: Encontrar un arbol singular no es necesariamente igual a encontrar el árbol “verdadero”. Optimización: Usa caracteres o distancias. Primero define un criterio de optimización (largo mínimo de las ramas, menor número de eventos , mayor probabilidad), y luego usa un algoritmo específico para encontrar arboles con el mejor valor para una función objetiva. Cuidado: Encontrar un arbol óptimo no necesariamente implica encontrar el arbol “verdadero”.

38 Métodos de reconstrucción filogenética molecular de árboles:
Son métodos matemáticos y estadísticos para inferir divergencia de los taxa, como también largo de las ramas que los conectan. Los métodos se pueden clasificar como sigue: METODO DE COMPUTACION Algoritmo de agrupamiento Criterio de Optimización TIPO DE DATO Caracteres Distancia PARSIMONIA MAXIMUM LIKELIHOOD UPGMA NEIGHBOR-JOINING MINIMUM EVOLUTION LEAST SQUARES

39 El principio de Parsimonia
En términos generales se puede definir como “ Un criterio científico para elegir entre hipótesis competentes que explican los datos del modo más simple y eficiente” (Kitching et al, 1998). En sistemática filogenética es análogo al principio auxiliar de Hennig “nunca asuma convergencia siempre asuma homología en ausencia de evidencia contraria”. Esto nos lleva a siempre elegir aquella hipótesis que involucre el menor número de pasos (“la más parsimoniosa”)

40 Métodos de Parsimonia :
Criterio de Optimización : El árbol más parsimoniosos requiere el menor número de pasos (o eventos evolutivos: ej. Sustituciones nucleotídicas) para explicar las secuencias. Ventajas: Son simples, intuitivos, y logicos (posibles por “lápiz y papel”). Pueden ser usados con datos morfológicos y moleculares. Separan tipos de similaridades (homologías y homoplasías). Pueden ser usados para inferir secuencias de ancestros hipotéticos. Desventajas: Son simples, intuitivos, y logicos (PERO no incorporan la estadística). Pueden llegar a ser equívocos sobre todo en la “Felsenstein Zone”: [Ver Swofford et al. (1996) para una discusión de métodos de parsimonia]

41 Primer paso en el análisis de Máxima Parsimonia:
Identificar todos los sitios informativos Invariantes: todas las OTU’s que posean el mismo estado del caracter Para el mismo sitio. Cualquier sitio invariante es no informativo

42 Dos tipos de sitios variables:
Informativos: Favorece un subset de arboles sobre los otros posibles. No informativos: un caracter que no contiene información relevante desde el punto de vista cladístico (ej. Autapomorfñias).

43 No Informativos: Cada uno implica 3 pasos

44 Análisis de Parsimonia segundo paso: Calcular el mínimo número de
sustituciones para cada sitio informativo 1 paso 2 pasos 2 pasos Informativo: favorece arbol 1 sobre los otros 2 .

45 Análisis de Parsimonia, el paso final: Sume el número de cambios sobre
todos los sitios informativos para cada árbol posible y elija aquel árbol con el menor número de cambios Sitio 3 Sitio 4 Sitio 5 Sitio 9 3 pasos 3 pasos 4 pasos

46 Métodos de distancia Todos estos métodos requieren tres pasos:
Comparación entre taxa son hechas a partir de todas las secuencias. El número de diferencias de nucleótidos observadas entre cada par es resumido en una matriz de distancias. Se estima una filogenia a partir de la matriz de distancia.

47 La estimación de distancias genéticas
La comparación de dos secuencias de DNA revela el número de diferencias entre ellas. Alternativas : Sobreestimación o subestimación de cambios en relación al ancestro. Utilizar modelos de sustitución de DNA (Cambio).

48 Métodos de distancias más usados
UPGMA (Unweighted pair group method with arithmetic averages). Taxa son agrupados de acuerdo a la menor distancia media entre los taxa involucrados. Cada OTU contribuye de igual modo a los cálculos. Supuesto: Igual tasa de evolución a lo largo de todo el dendograma (heterogeneidad pasa inadvertida).

49 MAS QUE UNA CUESTION DE GUSTOS!!

50 Fenetica vs Cladistica

51

52

53 Distancias ultraméricas y aditivas a) Distancias ultraméricas
B V3 V2 V4 C Propiedades aditivas dAB = V1+V2+V3 dAC = V1+ V2 + V4 dBC = V3 + V4 Propiedades ultraméricas V3 = V4 V1=V2+V3 = V2+V4

54 Mahatoshi Nei

55 METODO DE NEIGHBOR-JOINING (Satou & Nei, 1987) Y RELACIONADOS
x b d B B D C CRITERIO DE VECINDAD: Conección a través de un internodo (x) REMUEVE LA CONDICION DE DISTANCIAS ULTRAMÉRICAS.

56 Análisis para cuatro OTUs
x x = largo de rama interna b d D B - Si aditividad se cumple: dAC + dBD = dAD + dBC = a + b + c + d + 2x = dAB + dCD + 2x Condición de cuatro puntos (Buneman, 1971): 1) d AB + d CD < d AC + d BD 2) d AB + d CD < d AD + d BC

57 Su principio básico es encontrar vecinos que puedan minimizar el largo total del árbol.
3 4 1 1 8 2 7 Siguiente par de OTUs 3 X Y X 5 2 6 4 8 6 5 7 Criterio : minimizar el largo de rama de cada nodo (ej. Nodo X)

58 MATRIZ DE DISTANCIAS Espinacas Arroz Mosquito Mono Humano Espinaca 0.0
84.9 105.6 90.8 86.3 117.8 122.4 122.6 84.7 80.8 Mono 90.8 122.4 84.7 0.0 3.3 Humano 86.3 122.6 80.8

59 PRIMER PASO Mono-Humano Mosquito Espinaca Arroz Humano Mono
distancia 3.3 (Humano - Mono) es el mínimo. Entonces se unen y se vuelve a calcular las nuevas distancias Mono-Humano Mosquito Espinaca Arroz Humano Mono

60 CALCULANDO LAS NUEVAS DISTANCIAS
Se computan las distancias para cada nodo en este nuevo subarbol. Se hace esto calculando por ej. La distancia promedio: Dist[Espinaca, Mono_Humano] = (Dist[Espinaca, Mono] + Dist[Espinaca, Humano])/2 = ( )/2 = 88.55 Mon-Hum Espinaca Humano Mono

61 SIGUIENTE CICLO Mosq-(Mon-Hum) Mon-Hum Arroz Espinaca Mosquito Humano
Mono

62 PENULTIMO CYCLO Mos-(Mon-Hum) Esp-Arroz Mon-Hum Arroz Espinaca
Mosquito Humano Mono

63 ULTIMA UNION (Espin-Arroz)-(Mosq-(Mon-Hum)) Mos-(Mon-Hum) Esp-Arroz
Espinaca Mosquito Humano Mono

64 ARBOL DE NJ NO ENRAIZADO
Humano Espinaca Mono Mosquito Arroz

65 Métodos de distancia (UPGMA & N-J)
Criterio de Optimización : NINGUNO. El algoritmo construye el árbol. Ventajas: Pueden ser usados en medidas indirectas de distancia (datos immunologicos) .El Método MAS RAPIDO! (especialmente NJ). Pueden analizar grandes matrices en forma rápida. Desventajas: Similaridad y Interrelación no son necesariamente la misma cosa.

66 METODO DE MAXIMA VEROSIMILITUD (ML)
Primero desarrollado por Cavalli-Sforza & Edwards (1967). A menudo este método llega a estimados con menor varianza que los otros métodos. Tiende a ser robusto, aún cuando se violen ciertos supuestos.

67 p = ? ¿Cuál es la probabilidad de observar un dato?
Si tiramos una moneda y pensamos que la moneda es normal, entonces podríamos esperar una probabilidad de observar “cara” de 0.5. Si creemos que esta “arreglada” y esperamos obtener una “cara” el 80 % de la veces ….luego la probabilidad de observar los datos ( una “cara”) es 0.8. POR LO TANTO: La “likelihood” de hacer ciertas observaciones es enteramente dependiente de un modelo y de los supuestos que subyacen en éste. Moraleja: Los datos NO HAN CAMBIADO, nuestro modelo SI. Por lo tanto, bajo un nuevo modelo la probabilidad de observar los datos HA p = ?

68

69 Método de Maximum Likelihood :
La likelihood (L) de un árbol filogenético es la probabilidad de observar los datos (secuencia nucleotídica) bajo un árbol dado y un modelo especificado para los cambios en el caracter. La meta es encontrar un árbol (entre todos los posibles) con el valor más alto de L. Probabilidad de dado

70 Parámetros del Modelo de Máxima Probabilidad
TOPOLOGÍA + La proporción de sitios invariantes (). La tasa relativa de sustitución en la matriz (TRANS v/s TRANSVER). + Las frecuencias de las bases ().

71 Modelos de cambios nucleotídicos

72 Tipos de sustituciones
TRANSICIONES Sustituciones que intercambian una purina por otra purina son llamadas transiciones. TRANSVERSIONES TRANSVERSIONES A T G C Sustituciones que intercambian una purina por una pirimidina o vice-versa son llamadas transversiones TRANSICIONES

73 CODIGO GENETICO Sust. Sinónimas (Silentes) :CUU ----> CUC = Leucine -----> Leucine Sust. No Sinónimas :CUU ----> CCU = Leucine -----> Prolina

74 Mutaciones sinónimas son fijadas con mayor frecuencia
en la evolución Synonymous mutations Nonsynonymous mutations

75 Diferentes tipos de secuencias evolucionan a distintas tasas

76

77

78 Midiendo el cambio evolutivo
Medida simple: Contar el número de sitios diferentes . Estimador muy inexacto: Sitios pueden tener sustituciones repetidas. Divergencia de secuencias llega a ser menos exacta en su estimación Time since divergence (Myr) Base pair differences

79 Corrección de diferencias observadas en las secuencias
Tiempo Difer. en las sequencias Diferencia Esperada ‘Corrección’ Diferencia Observada

80 Matriz de Cambios Nucleotídicos
PAA PAC PAG PAT PCA PCC PCG PCT PGA PGC PGG PGT PTA PTG PTG PTT M =

81 Un marco general de Modelos de evolución de secuencias
Pii = pij ji Pt = pAA pCA pGA pTA pAC pCC pGC pTC pAG pCG pGG pTG pAT pCT pGT pTT f = [fA fC fG fT]

82 Modelo Jukes-Cantor (JC)
Asume que las cuatro bases tienen igual frecuencia y que las sustituciones son igualmente probables. Pt = - f = [¼ ¼ ¼ ¼]

83 Modelo de un parámetro de “Jukes and Cantor”
100 Transitions 80 60 Base pair differences 40 20 Transversions Time since divergence (Myr) Número de transiciones y transversiones entre pares de secuencias mitocondriales de mamiferos (684 pares de bases de COII gene) contra el tiempo de divergencia.

84 Modelo Kimura de 2 parámetros (K2P)
Toma en cuanta diferencias entre transiciones vs. transversiones Pt = - Transiciones () Transversiones () f = [¼ ¼ ¼ ¼]

85 Felsenstein (1981) (F81) Toma en cuenta diferencias en la composición de las bases. Porcentaje (G + C) puede variar entre 25% - 75%. F81 permite que la frecuencia de cada nucleotido sea diferente. No permite variación en las frecuencias entre genes y especies. Pt = - A C G T f = [A C G T]

86 Hasegawa, Kishino y Yano (1985) (HKY85)
Esencialmente mezcla modelos K2P and F81 , permitiendo la ocurrencia de transiciones y transversiones a distintas tasas y a su vez permitiendo que la frecuencia de bases varíe. Pt = - A A C C G G T T f = [A C G T]

87 modelo General reversible (REV)
Modelo más general – cada sustitución tiene su propia probabilidad. Pt = - Aa Ab Ac Ca Cd Ce Gb Gd Gf Tc Te Tf f = [A C G T]

88 Comparando los modelos
K2P A=C=G=T  Permite sesgos transición/transversión Permite que la frecuencia de bases varie JC A=C=G=T = HKY85 ACGT  REV ACGT a,b,c,d,e,f F81 ACGT = Permite que la frecuencia de bases varie Permite sesgos transición/transversión

89 Comparando los modelos
G T Observado A C G T K2P TR A C G T JC A C G T HKY85

90 Sitios variables Hay sitios en las secuencias libres de variar.
Intensidad de selección es raramente uniforme…deseable un modelo que varie sitio a sitio. Esto puede realizarse de dos modos: Variación sitio específico (posicion-codon) Usando una aproximaciñon discreta de distribución (gamma distribution). Nuevamente, estas variables son modeladas para todos los cambios posibles de largo de rama sobre todas las topologías posibles.

91 REGION CONTROL DNAmit variable menos variable variable

92 Efecto de la tasa de variación entre sitios en la estimación de la divergencia
(A) Tasa de sustitución de 0.5 % / M.a. and 80 % de sitios libres de variar. (B) Tasa de sustitución de 2 % / M.a. and 50 % de sitios libres de variar. (Page and Holmes, 1998)

93 DISTRIBUCIÓN GAMA

94 VOLVAMOS AL ANALISIS DE MAXIMA VEROSIMILITUD

95 Método de Maximum Likelihood :
La likelihood (L) de un árbol filogenético es la probabilidad de observar los datos (secuencia nucleotídica) bajo un árbol dado y un modelo especificado para los cambios en el caracter. La meta es encontrar un árbol (entre todos los posibles) con el valor más alto de L. Probabilidad de dado

96 Calcule la probabilidad para cada sitio.
2. Sume los valores de L para todos los sitios en el árbol. Compare los valores de L para todos los arboles posibles. Elija el arbol con el valor mas alto de L.

97

98 Comparando hipótesis filogenéticas
Relaciones filogenéticas estimadas a partir de datos de mtDNA

99

100 Métodos de Maximum likelihood (ML)
Criterio de Optimización : ML evalúan hipótesis filogenéticas en términos de probabilidad que un modelo de propuesto de un proceso evolutivo y un arbol no enraizado para los datos observados. El árbol encontrado que tenga el valor más alto de ML será el seleccionado. Ventajas: Están basados en modelos estadísticos y evolutivos. Generalmente es el método más consistente. Pueden ser usados para caracteres (pueden inferir sustituciones exactas) y analizar las tasas. Pueden usarse para inferir secuencias de ancestros (hipotéticos). Pueden considerar el largo de las ramas en arboles no balanceados. Desventajas: No son simples ni intuitivos. Son computacionalmente activos (limita el numero de taxa y largo de secuencias). Violaciones al modelo asumido puede llevar a arboles incorrectos.

101 ¿Cómo comparar diferentes métodos de construcción de arboles?
Eficiencia: Que tan rápido es el método. Poder: Que cantidad de datos requiere el método para producir un resultado razonable. Consistencia: Si converge a la respuesta correcta teniendo suficientes datos. Robustez: Si violaciones menores de sus supuestos conducen a pobres estimados de la filogenia. (Criterios de David Penny)

102 DESEMPEÑO DE LOS DISTINTOS MÉTODOS DE RECONSTRUCCIÓN FILOGENÉTICA.
Huelsenbeck et al, 1996

103 DESEMPEÑO DE LOS DISTINTOS MÉTODOS DE RECONSTRUCCIÓN FILOGENÉTICA.
Huelsenbeck et al, 1996

104 Voelker et al; 1998

105


Descargar ppt "ANÁLISIS FILOGENÉTICO"

Presentaciones similares


Anuncios Google