Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porPili Escalante Modificado hace 10 años
2
ROB DE SALLE JOE FELSENSTEIN LINNEO
3
Métodos “numéricos” son usados frecuentemente por que la mayoría de los datos (caracteres) incluyen evidencia que no implica verdaderas relaciones. Métodos “numéricos” son usados frecuentemente por que la mayoría de los datos (caracteres) incluyen evidencia que no implica verdaderas relaciones. NO deberíamos estar satisfechos con establecer hipótesis filogenéticas, sino que deberíamos establecer la “confianza” en nuestra hipótesis. NO deberíamos estar satisfechos con establecer hipótesis filogenéticas, sino que deberíamos establecer la “confianza” en nuestra hipótesis.
4
Compara algunas medidas en los datos calidad- estructura jerárquica para los datos reales y varias permutaciones de los datos. Compara algunas medidas en los datos calidad- estructura jerárquica para los datos reales y varias permutaciones de los datos. Esto permite definir un test estadístico con la hipótesis nula de que los datos reales y los permutados (no informativos filogenéticamente) no se diferencian. Esto permite definir un test estadístico con la hipótesis nula de que los datos reales y los permutados (no informativos filogenéticamente) no se diferencian.
5
Se espera que nuestros datos estarán estructurados de modo de tener fuertes signos filogenéticos. Se espera que nuestros datos estarán estructurados de modo de tener fuertes signos filogenéticos. Esto se puede evaluar usando pruebas de Aleatorización. Esto se puede evaluar usando pruebas de Aleatorización. La conducta de nuestros datos son contrastados con datos comparables pero no informativos desde el punto de vista filogenético. Esto es determinado por Aleatorización. La conducta de nuestros datos son contrastados con datos comparables pero no informativos desde el punto de vista filogenético. Esto es determinado por Aleatorización.
6
Hillis (1991) propuso que si los caracteres son considerados como generados independientemente y al azar todos los estados tendrían la misma frecuencia. Hillis (1991) propuso que si los caracteres son considerados como generados independientemente y al azar todos los estados tendrían la misma frecuencia. Por tanto, si los datos tiene una estructura cladística (signos) y son altamente congruentes, deberían mostrar un fuerte sesgo estadístico (g1), una distribución hacia la izquierda de la curva. Por tanto, si los datos tiene una estructura cladística (signos) y son altamente congruentes, deberían mostrar un fuerte sesgo estadístico (g1), una distribución hacia la izquierda de la curva.
7
Frecuencia de largos de arbol DATOS PERMUTADOS g1=-0.100478 DATOS REALES Ciliate SSUrDNA g1=-0.951947 Frecuencia de largos de arbol Es medido con G1 en PAUP. Solo hasta 8 taxa. ############# (798) 818 |############################# (848) 819 |############################# (847) 820 |############################## (879) 821 |############################ (828) 822 |########################### (784) 823 |########################## (757) 824 |########################## (770) 825 |############################ (812) 826 |############################ (819) 827 |############################# (850) 828 |############################## (863) 829 |################################ (934) 830 |################################ (919) 831 |################################# (963) 832 |################################### (1021) 833 |###################################### (1113) 834 |####################################### (1143) 835 |######################################## (1162) 836 |########################################## (1223) 837 |############################################ (1270) 838 |############################################### (1356) 839 |################################################ (1399) 840 |############################################### (1356) 841 |################################################# (1424) 842 |################################################### (1492) 843 |#################################################### (1499) 844 |######################################################## (1630) 845 |####################################################### (1594) 846 |######################################################## (1619) 847 |########################################################### (1718) 848 |############################################################# (1765) 849 |############################################################## (1793) 850 |################################################################ (1853) 851 |############################################################## (1800) 852 |############################################################# (1773) 853 |################################################################ (1861) 854 |################################################################ (1853) 855 |############################################################## (1805) 856 |########################################################### (1722) 857 |######################################################### (1651) 858 |####################################################### (1613) 859 |###################################################### (1559) 860 |################################################### (1482) 861 |################################################### (1479) 862 |################################################ (1409) 863 |############################################## (1349) 864 |################################################ (1407) 865 |################################################### (1487) 866 |################################################## (1445) 867 |##################################################### (1550) 868 |################################################### (1482) 869 |###################################################### (1573) 870 |####################################################### (1587) 871 |#################################################### (1525) 872 |###################################################### (1576) 873 |###################################################### (1572) 874 |#################################################### (1499) 875 |################################################### (1480) 876 |############################################### (1370) 877 |############################################ (1289) 878 |########################################## (1228) 879 |######################################## (1165) 880 |################################### (1006) 881 |################################## (992) 882 |############################### (890) 883 |########################### (792) 884 |######################## (693) 885 |###################### (650) 886 |##################### (606) 887 |################ (469) 888 |############## (415) 889 |########### (314) 890 |######## (232) 891 |####### (213) 892 |##### (133) 893 |#### (114) 894 |### (75) 895 |## (60) 896 |## (52) 897 |# (17) 898 |# (16) 899 | (6) 900 | (4)
8
Estudios con aleatorización ( y datos filogenéticamente no informativos) muestran que los datos tienden a ser normales. En contraste, datos filogenéticamente informativos se espera que tengan una distribución fuertemente sesgada hacia arboles cortos y con pocos arboles cerca del más corto. NUMERO DE ARBOLES Arbol mas corto LARGO DEL ARBOL NUMERO DE ARBOLES LARGO DEL ARBOL Arbol mas corto
9
El test Permutation Tail Probability (PTP) corresponde a la proporción de los datos aleatorios (permutado más original) que llega a cladogramas igual o más cortos que los producidos por los datos originales. El test Permutation Tail Probability (PTP) corresponde a la proporción de los datos aleatorios (permutado más original) que llega a cladogramas igual o más cortos que los producidos por los datos originales.
10
Random permutation destruye cualquier correlación entre caracteres. Random permutation destruye cualquier correlación entre caracteres. Se mantiene el número de taxa, caracteres y estados del caracter para cada caracter. Se mantiene el número de taxa, caracteres y estados del caracter para cada caracter. Datos originales con Estructuración filogenética ‘TAXA’ 12345678 R-PNUDERTOU A-EREAPLEAD N-RMRMMADNP D-MLTREYMDR O-UDEYUDEYM M-TOMOTOULT L-EYDNDMPME Y-DAPLRNRRE Datos permutados aleatoriamente… correlación entre caracteres Debida al azar. Estados del caracter son permutados y ubicados en el ingroup de modo que la proporción de estados se mantiene (1:3) ‘TAXA’ CARACTERES 12345678 R-PRPRPRPRP A-EAEAEAEAE N-RNRNRNRNR D-MDMDMDMDM O-UOUOUOUOU M-TMTMTMTMT L-ELELELELE Y-DYDYDYDYD
11
Se objeta la hipótesis nula si, por ej., más del 5% de las permutaciones al azar son mejores que los datos reales. Se objeta la hipótesis nula si, por ej., más del 5% de las permutaciones al azar son mejores que los datos reales. Medida de calidad de los datos (ej. largo del arbol) 95% cutoff BUENOMALO Frecuencia PASA TEST OBJETA H. NULA FALLA TEST
12
Medidas de calidad de los datos incluyen: Medidas de calidad de los datos incluyen: 1. Largo del Arbol más parsimonioso (PAUP*) 1. Largo del Arbol más parsimonioso (PAUP*) 2. Sesgo de la distribución del largo de los árboles. (PAUP*) 2. Sesgo de la distribución del largo de los árboles. (PAUP*)
13
Datos reales Datos permutados Ciliados SSUrDNA Consenso Estricto 1 AMP L = 618 CI = 0.696 RI = 0.714 PTP = 0.01 convención PC-PTP = 0.001 Significativamente distinto al azar 3 AMPs L = 792 CI = 0.543 RI = 0.272 PTP = 0.68 PC-PTP = 0.737 No distinto del azar Min = 430 Max = 927
14
Problema relacionado con los tipos de búsquedas difícilmente pueden ser exhaustivas para set de datos grandes (muchas OTUs y/o caracteres). Problema relacionado con los tipos de búsquedas difícilmente pueden ser exhaustivas para set de datos grandes (muchas OTUs y/o caracteres). CONSUMO ELEVADO TIEMPO COMPUTACIONAL Búsqueda heurística
15
Bryant (1992) argumenta que este test es problemático pues se sustenta en una premisa falsa…covariación al azar es contrario a los principios cladísticos….caracteres covarían de modo jerárquico. Bryant (1992) argumenta que este test es problemático pues se sustenta en una premisa falsa…covariación al azar es contrario a los principios cladísticos….caracteres covarían de modo jerárquico.
16
JOE FELSENSTEIN
17
Bootstrapping es una técnica estadística y un método intensivo computacionalmente que usa un muestreo aleatorio. Bootstrapping es una técnica estadística y un método intensivo computacionalmente que usa un muestreo aleatorio.
19
Caracteres son remuestreados con reemplazo creando muchas réplicas del set de datos (pseudoréplicas). Caracteres son remuestreados con reemplazo creando muchas réplicas del set de datos (pseudoréplicas). Cada pseudoreplica es analizada (e.g. com MP, NJ, ML) Cada pseudoreplica es analizada (e.g. com MP, NJ, ML) Acuerdo entre los arboles resultantes es resumido en un arbol de consenso de mayoría. Acuerdo entre los arboles resultantes es resumido en un arbol de consenso de mayoría. Frecuencia en cada grupo es una medida de soporte. Frecuencia en cada grupo es una medida de soporte.
21
Bootstrapping
22
Ciliados SSUrDNA - parsimonia bootstrap 123456789 Freq -----------------.**...... 100.00...**.... 100.00.....**.. 100.00...****.. 100.00...****** 95.50.......** 84.33...****.* 11.83...*****. 3.83.*******. 2.50.**....*. 1.00.**.....* 1.00 Consenso de Mayoría Tabla de Partición Ochromonas (1) Symbiodinium (2) Prorocentrum (3) Euplotes (8) Tetrahymena (9) Loxodes (4) Tracheloraphis (5) Spirostomum (6) Gruberia (7) 100 96 84 100
23
Tabla de Partición 123456789 Freq -----------------.*****.** 71.17..**..... 58.87....*..*. 26.43.*......* 25.67.***.*.** 23.83...*...*. 21.00.*..**.** 18.50.....*..* 16.00.*...*..* 15.67.***....* 13.17....**.** 12.67....**.*. 12.00..*...*.. 12.00.**..*..* 11.00.*...*... 10.80.....*.** 10.50.***..... 10.00 Consenso de Mayoría CRITERIO: 85% VALORES BAJOS : QUE SIGNIFICAN? Jackkniffe : resultados similares
24
BIRGITTA BREMER
25
Análisis de Parsimonia : Una manera de establecer soporte para un grupo específico, mirando en arboles levemente menos parsimoniosos. Análisis de Parsimonia : Una manera de establecer soporte para un grupo específico, mirando en arboles levemente menos parsimoniosos. La diferencia en el largo entre el arbol más corto que incluye el grupo y el más corto que excluye este grupo (los pasos extras requeridos que el grupo desaparezca) es el decay index o Bremer support La diferencia en el largo entre el arbol más corto que incluye el grupo y el más corto que excluye este grupo (los pasos extras requeridos que el grupo desaparezca) es el decay index o Bremer support
26
Para calcular BS Para calcular BS a) Largo del arbol más parsimonioso (AMP) de los datos combinados es medido ( L comb A+B ) b) Arboles restringidos ( constrainst trees ) son producidos con sólo el nodo de interés presente (ej. nodo X ). c) Una búsqueda usando constraints trees es realizada búscando el AMP…pero sin nodo X, es realizada para los datos combinados.
27
d) El largo del AMP es medido ( L nodoX A+B ). e) El soporte para el nodo X a partir de los datos combinados es: BS nodoX A+B = L nodoX A+B - L comb A+B BS nodoX A+B = L nodoX A+B - L comb A+B Bremer Support (BS)
28
Ochromonas Symbiodinium Prorocentrum Loxodes Tracheloraphis Spirostomum Gruberia Euplotes Tetrahymena Ochromonas Symbiodinium Prorocentrum Loxodes Tetrahymena Tracheloraphis Spirostomum Euplotes Gruberia Ciliados SSUrDNA Datos permutados +27 +15 +8 +3 +1 +45 +7 +1 0 Problema: dato no escalable pues depende de la matriz de datos ( no va de 0-100)..valores pueden variar. Autodecay
29
Baker & DeSalle (1997) publican una variación a este procedimiento : PBS (Partionated Bremer Support): forzar a la búsqueda al AMP y el mejor “ constraint tree ”….Pero separando cada partición (primero se hace en A y luego en B) Valores : positivos partición soporta el nodo en los datos combinados sobre el AMP sin el nodo. negativos partición soporta un arbol que carece del nodo en cuestión en los datos combinados. BS nodo X A+B = PBS nodoX A - PBS nodo X B
30
BS PBS (morf) PBS (mol)
31
Problema no resuelto…..
33
B. chilensis B. spinulosus B. atacamensis B.rubropunctatus B. papillosus A) B) DATOS MOLECULARES DATOS MORFOLOGICOS COMBINACION
34
Análisis simultáneo: sistemáticos argumentan que todos los caracteres deben ser analizados en una sola matriz de datos (Kluge, 1989). Análisis simultáneo: sistemáticos argumentan que todos los caracteres deben ser analizados en una sola matriz de datos (Kluge, 1989). Congruencia taxonómica: Prefieren analizar los datos separadamente y luego mediante el método de consenso combinar los cladogramas resultantes (Miyamoto & Fitch, 1995). Congruencia taxonómica: Prefieren analizar los datos separadamente y luego mediante el método de consenso combinar los cladogramas resultantes (Miyamoto & Fitch, 1995).
35
El sentido de la cladística es maximizar el poder explicativo. El sentido de la cladística es maximizar el poder explicativo. Su objetivo es obtener un cladograma que presente máxima informatividad. Su objetivo es obtener un cladograma que presente máxima informatividad. Deben usarse todos los caracteres en un solo análisis (pero: heterogeneidad de caracteres y tasas de evolución (signos filogenéticos); caracteres aportan con distinto número (moleculares son un orden de magnitud mayor que los morfológicos). Deben usarse todos los caracteres en un solo análisis (pero: heterogeneidad de caracteres y tasas de evolución (signos filogenéticos); caracteres aportan con distinto número (moleculares son un orden de magnitud mayor que los morfológicos). Arnold Kluge
36
Existen diferentes tipos de datos,éstos que reflejan procesos evolutivos distintos ( particiones ). Existen diferentes tipos de datos,éstos que reflejan procesos evolutivos distintos ( particiones ). Ejemplos: DNA nuclear y mitocondrial (herencia biparental versus materna; morfología larval y de adultos). Ejemplos: DNA nuclear y mitocondrial (herencia biparental versus materna; morfología larval y de adultos). Fitch W.
37
Asegurese al trabajar con ADN que los genes a usar: a) no estén genéticamente ligados. b) en sus productos génicos no hayan interacciones ni que regulen la expresión de un gen en otro proceso. c) no especifican la misma función. d) no interactúan en la misma ruta fisiológica.
38
Algunos autores se benefician de la existencia de ambas aproximaciones para analizar sus datos.(DEPENDE DEL SET DE DATOS). Algunos autores se benefician de la existencia de ambas aproximaciones para analizar sus datos.(DEPENDE DEL SET DE DATOS). ¿Cual es el criterio para elegir si combinar todos los datos en una sola matriz o analizarlos separadamente? ¿Cual es el criterio para elegir si combinar todos los datos en una sola matriz o analizarlos separadamente? CRITERIO ESTADISTICO?
39
Si se tienen distintos arboles para distintas particiones se puede deber a: Si se tienen distintos arboles para distintas particiones se puede deber a: a) Las particiones son distintas entre sí, luego no son compatibles una con otra. a) Las particiones son distintas entre sí, luego no son compatibles una con otra. b) Las particiones son homogéneas pero dan distinta topologías por efecto de azar. b) Las particiones son homogéneas pero dan distinta topologías por efecto de azar.
40
B. chilensis B. spinulosus B. atacamensis B.rubropunctatus B. papillosus A) B) PARTICIÓN 1PARTICIÓN 2 COMBINACIONLargo: 350 pasos Largo: 35 pasos Largo: 450 L Comb >> Lsolos Generalizando
41
Para evaluar estas posibilidades : 1) Se hacen nuevas particiones al azar dentro de cada partición. 2) Se realiza una búsqueda por el mejor árbol en cada una de las nuevas particiones y se suma el largo de los arboles resultantes en cada árbol (se repite muchas veces). 3) Con esto obtenemos la distribución del largo de todos los arboles de las repeticiones y luego se ve la distribución de las particiones que debería ser homogénea.
42
Se centra en la medición de la heterogeneidad entre las distintas matrices de datos. Se centra en la medición de la heterogeneidad entre las distintas matrices de datos. Aplica criterios estadísticos para decidir entre combinar o no las particiones. Aplica criterios estadísticos para decidir entre combinar o no las particiones. J. Huelsenbeck
44
Proponen una prueba de máxima verosimilitud (the likelihood heterogeneity test). Proponen una prueba de máxima verosimilitud (the likelihood heterogeneity test). Compara las probabilidades obtenidas bajo el supuesto de que la misma filogenia subyace a todos las matrices de datos con la probabilidad obtenida cuando este supuesto es relajado. Compara las probabilidades obtenidas bajo el supuesto de que la misma filogenia subyace a todos las matrices de datos con la probabilidad obtenida cuando este supuesto es relajado. La probabilidad , es calculada 2(lnL 1 -lnL 0 ), donde L 0 corresponde a asumir que el mismo arbol subyace a las mismas particiones y L 1 es la probabilidad cuando distintos arboles subyacen en cada partición. La distribución de es obtenida usando simulaciones. Nuevas particiones del mismo tamaño a las originales son simuladas bajo la hipótesis nula. La probabilidad , es calculada 2(lnL 1 -lnL 0 ), donde L 0 corresponde a asumir que el mismo arbol subyace a las mismas particiones y L 1 es la probabilidad cuando distintos arboles subyacen en cada partición. La distribución de es obtenida usando simulaciones. Nuevas particiones del mismo tamaño a las originales son simuladas bajo la hipótesis nula.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.