CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN

CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN
ANTROPOGENÉTICA La ley de equilibrio Hardy-Weinberg. La similaridad genética. El análisis estadístico de la similaridad: AFC, MDS, Dendrogramas. Bootstrap. Geografía y genes: Clinas, Mapas sintéticos, Autocorrelación espacial, Test de Mantel, AMOVA. Otros: Método del centroide, Mestizaje, Redes filogenéticas, Desequilibrio de ligamiento, Genética Forense, Minería de datos. Programas de interés en Antropogenética.

Bibliografía complementaria
Alfonso-Sánchez MA, Martínez-Bouzas C, Castro A, Peña JA, Fernández-Fernández I, Herrera RJ, de Pancorbo MM. (2006) Sequence polymorphisms of the mtDNA control region in a human isolate: the Georgians from Swanetia. J Hum Genet. 51(5): Beja-Pereira A, Luikart G, England PR, Bradley DG, Jann OC, Bertorelle G, Chamberlain AT, Nunes TP, Metodiev S, Ferrand N, Erhardt G. (2003) Gene-culture coevolution between cattle milk protein genes and human lactase genes. Nat Genet. 35(4):311-3. Biondi G, Vienna A, Peña Garcia JA, Mascie-Taylor CG. (2005) Isonymy and the structure of the Provençal-Italian ethnic minority. J Biosoc Sci. 37(2): Cardoso S, M.A. Alfonso-Sanchez, F. Gonzalez-Andrade, L. Valverde, A. Odriozola, A.M. Perez-Miranda, J.A. Peña, B. Martınez-Jarreta, M.M. de Pancorbo (2008) Mitochondrial DNA in Huaorani (Ecuadorian amerindians): A new variant in haplogroup A2 Forensic Science International: Genetics Supplement Series 1 (2008) 269–270 Cardoso S, Alfonso-Sánchez MA, Valverde L, Odriozola A, Pérez-Miranda AM, Peña JA, de Pancorbo MM. (2011) The maternal legacy of Basques in northern navarre: New insights into the mitochondrial DNA diversity of the Franco-Cantabrian area. Am J Phys Anthropol. 145(3):480-8. García-Obregón S, Alfonso-Sánchez MA, Pérez-Miranda AM, Gómez-Pérez L, de Pancorbo MM, Peña JA. (2010) Genetic variability in autochthonous Basques from Guipuzcoa: a view from MHC microsatellites. Int J Immunogenet. 37(4): García-Obregón S, Alfonso-Sánchez MA, Pérez-Miranda AM, Gómez-Pérez L, de Parcorbo MM, Peña JA. (2012) Ancestry markers from the human chromosome 6: Alu repeats from the MHC in autochthonous Basques. Hum Immunol. 73(7):720-5 Gómez-Pérez L, Alfonso-Sánchez MA, Pérez-Miranda AM, García-Obregón S, Builes JJ, Bravo ML, De Pancorbo MM, Peña JA. (2010) Genetic admixture estimates by Alu elements in Afro-Colombian and Mestizo populations from Antioquia, Colombia. Ann Hum Biol. 37(4): Gómez-Pérez L, Alfonso-Sánchez MA, Dipierri JE, Alfaro E, García-Obregón S, De Pancorbo MM, Bailliet G, Peña JA. (2011) Microevolutionary processes due to landscape features in the province of Jujuy (Argentina). Am J Hum Biol Mar-Apr;23(2): Gómez-Pérez L, Alfonso-Sánchez MA, Sánchez D, García-Obregón S, Espinosa I, Martínez-Jarreta B, De Pancorbo MM, Peña JA. (2011) Alu polymorphisms in the Waorani tribe from the Ecuadorian Amazon reflect the effects of isolation and genetic drift. Am J Hum Biol. 23(6):790-5.

Bibliografía complementaria
Peña, J. A., Alfonso-Sánchez, M. A., García-Obregón, S., Pérez-Miranda, A., 2002, Persistencia de actividad lactasa en población residente en el País Vasco. Antropo, 3, Peña et al 2002 Microsatellite DNA markers from HLA region (D6S105, D6S265 and TNFa) in autochthonous Basques from Northern Navarre (Spain) Annals of Human Biology 29: Peña JA, Garcia-Obregon S, Perez-Miranda AM, De Pancorbo MM, Alfonso-Sanchez MA. (2006) Gene flow in the Iberian Peninsula determined from Y-chromosome STR loci. Am J Hum Biol. 18(4):532-9. Pérez-Miranda AM, Alfonso-Sánchez MA, Kalantar A, Peña JA, Pancorbo MM, Herrera RJ. (2005) Allelic frequencies of 13 STR loci in autochthonous Basques from the province of Vizcaya (Spain). Forensic Sci Int. 152(2-3): Rosenberg et al 2002 Genetic Structure of Human Populations Science 298: (JAP1020) Tishkof et al. (2009) The Genetic Structure and History of Africans and African Americans. Science 324:

La ley de equilibrio Hardy-Weinberg
Generalmente, antes de hacer cualquier otro cálculo, es preciso conocer si nuestra población se encuentra en equilibrio de Hardy-Weinberg. La ley de equilibrio de Hardy y Weinberg es un modelo que predice la relación que debe existir entre frecuencias alélicas y frecuencias genotípicas en una población de características ideales, que debiera cumplir unos determinados supuestos: a. La población debe ser grande y estable, preferiblemente de tamaño infinito. b. No hay una marcada acción de la selección. c. La población debe ser panmíctica, lo cual significa que el apareamiento de los individuos dentro de la población ocurre al azar (la probabilidad de cruzamiento con cualquier pareja potencial debe ser idéntica). d. No debe existir mutación.

En estas circunstancias, para un locus dialélico, con dos alelos A y a, que en una población y una generación dadas muestran unas frecuencias génicas de p para el alelo A y de q para el alelo a y donde p + q = 1, los gametos que se produzcan en ambos sexos portarán estos alelos con las mismas frecuencias y formarán cigotos con los diferentes genotipos con las siguientes frecuencias: Genotipo Frecuencia AA p2 Aa 2pq aa q2 Total 1 Los genotipos resultantes aparecerán por tanto en la nueva generación con las proporciones siguientes: El método más sencillo para comprobar la existencia de equilibrio Hardy-Weinberg se basa en el test: donde Oi son los individuos observados y Ei son los individuos esperados que portan el fenotipo i. El número de grados de libertad casi siempre se calcula como el número de fenotipos menos el número de alelos.

Ejercicio Comprobar el equilibrio de H-W en una muestra de 200 individuos en la que las frecuencias genotípicas observadas han sido: Genotipo Observados AA 30 Aa 100 aa 70 Total 200 (p 0,05 1gl = 3,84) Genotipo Frecuencia AA p2 Aa 2pq aa q2 Total 1

Respuesta Genotipo Observados Esperados Diferencia Chi-2 AA (0,42x200) -2 0,125 Aa (2x0,4x0,6x200) 4 0,167 aa (0,62x200) -2 0,056 Total ,348 A 160 (30x2+100) a 240 (70x2+100) (p 0,05 1gl = 3,84) A 0,4 (160/400) No hay desequilibrio a 0,6 (240/400) Genotipo Frecuencia AA p2 Aa 2pq aa q2 Total 1

No obstante, es más fiable el test de la probabilidad exacta de Fisher Cuando se analiza una serie de polimorfismos en una población, es preciso comprobar si se cumplen estas proporciones. En caso contrario, probablemente no se esté dando alguno de los presupuestos de partida. Entre estos presupuestos, el tamaño de la población, la mutación o la selección, dificilmente provocarán un alejamiento estadísticamente significativo de las frecuencias genotípicas esperadas. Por ello, es muy probable que cuando la ley de equilibrio Hardy-Weinberg no se cumple en una población, haya algún tipo de emparejamiento no aleatorio, es decir, de cruzamientos preferenciales entre los individuos. A veces esto ocurre como efecto de un gran aislamiento y un alto grado de endogamia, pero también puede implicar que hay algún tipo de mezcla en la muestra entre dos o más grupos heterogéneos, por ejemplo dos subpoblaciones de diferente origen geográfico o étnico. Lo más probable en definitiva es que el muestreo no sea representativo de una población, de modo que los resultados que puedan obtenerse en forma de frecuencias génicas resulten escasamente útiles Gómez-Pérez et al, 2011

La similaridad genética
Una población subdividida p3 p1 p0 p - p4 p2 Asumiendo que las similitudes genéticas entre los individuos y entre las poblaciones son originadas por un antepasado común, cuanto más similares sean dos poblaciones, mayor será el parentesco genético entre ellas. Esto significa que si son muy similares, se habrán separado recientemente de su población antecesora común y si son muy diferentes, sus líneas evolutivas se habrán separado hace mucho tiempo. Por tanto, a partir de las diferencias en el patrimonio genético de varias poblaciones podrá estimarse su historia evolutiva con una cierta fiabilidad. Supongamos una población que se ha subdividido en k subpoblaciones,

Al cabo del tiempo se irán acumulando diferencias entre las subdivisiones, de modo que encontraremos diferentes frecuencias génicas. La frecuencia génica promedio para un alelo de un locus dialélico será Media de las frecuencias alélicas y la varianza para ese mismo alelo será Varianza de las frecuencias alélicas Dividiendo la varianza por su valor máximo obtenemos la varianza estandarizada, varianza de Wahlund o FST, que es una medida directa del grado de divergencia de las poblaciones y es una función del tiempo

Un método de cálculo del parentesco entre dos poblaciones i y j, se basa en la matriz de coeficientes de parentesco (matriz R), que es en la práctica un coeficiente de varianza y covarianza Coeficiente de parentesco donde pik es la frecuencia del alelo k en la población i y pk es la frecuencia génica media del alelo k. A partir de la matriz de coeficientes de parentesco también puede obtenerse una matriz de coeficientes de distancia, mediante la transformación Coeficiente R

Muy similar a la anterior es la distancia FST de Reynolds donde pij y p'ij son las frecuencias del alelo j en el locus i en dos poblaciones diferentes. FST de Reynolds et al Estas distancias son a su vez similares a la distancia de Sanghvi donde pij y p'ij son las frecuencias del alelo j en el locus i en dos poblaciones diferentes. G2 de Sanghvi

La distancia DN de Nei, se basa en el concepto de identidad genética. La probabilidad de identidad de los genes entre las poblaciones X e Y en el locus J será D de Nei donde Jxx=1-hx Jyy=1-hy y hx y hy son la fracción de heterozigotos de ambas poblaciones. Estos son algunos de los coeficientes de distancia genética más usados para frecuencias génicas y haplotípicas, Existen además algunas distancias específicas para secuencias y en general para todo tipo de datos.

El análisis estadístico de la similaridad
Las matrices de distancia genética pueden ser representadas en un espacio euclídeo mediante diferentes métodos, con el objetivo de obtener una más facil interpretación de los resultados. Entre los métodos más habituales se encuentran los métodos topológicos y los dendrogramas. En el primer caso, se obtiene una representación de las diferentes subpoblaciones en forma de puntos respecto a dos o más ejes. En el segundo, se representan las subpoblaciones en los extremos de las ramas de un árbol, cuyas longitudes son proporcionales a las distancias genéticas que las separan. A continuación se introduce muy brevemente algún concepto relativo a dos métodos de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial de Correspondencias y a algunos métodos de elaboración de dendrogramas. Métodos de representación topológica Análisis de Escalamiento Multidimensional Análisis Factorial de Correspondencias Métodos de elaboración de dendrogramas Mínimo Máximo Media Centroide UPGMA Neighbour joining (Vecino más próximo)

D El análisis estadístico de la similaridad 1 2 3 4 1 0 0,4 0,6 0,3
Análisis de Escalamiento Multidimensional (MDS) Con el fin de ajustar la matriz de distancias genéticas D obtenida entre k muestras, a una representación euclídea en s dimensiones ( s ≤ k - 1 ), se asocia a una nueva matriz de distancias D*, de modo que dadas dos distancias genéticas tal que dij < di'j' debe cumplirse, siempre que sea posible que las distancias representadas sean d*ij < d*i'j' De este modo, situando los elementos de la matriz D en orden creciente sus distancias asociadas deben quedar ordenadas de la misma forma 1 0 0,4 0,6 0,3 2 0 0,2 0,2 ,3 4 0 D

Esto puede comprobarse gráficamente representando las distancias genéticas frente a las distancias del gráfico en el denominado diagrama de Sephard. Cuanto más lineal resulte, mejor será la representación.

Puede valorarse la fiabilidad de la representación mediante el coeficiente de estrés La configuración final, conseguida después de una serie de iteraciones, será aquella que minimice el coeficiente de estrés. Los valores de estrés obtenidos dependerán del tamaño de la matriz, entre otros factores, pero pueden considerarse orientativos los siguientes rangos: 0,20 - mala 0,10 – regular 0,05 – buena 0,03 - excelente

García-Obregón et al, 2010 Una vez obtenida la solución final, se interpreta la posición de cada población en función de la proximidad o lejanía al resto de poblaciones implicadas. En la figura se muestra un Análisis de Escalamiento Multidimensional a partir de STRs del cromosoma 6 en poblaciones europeas

Ejercicio Se trata de representar la siguiente matriz de distancias mediante un Análisis de Escalamiento Multidimensional 1 0 0,4 0,6 0,3 2 0 0,2 0,2 ,3 4 0 4 0,1 0,2 0,3 Escala 1 2 3

Análisis Factorial de Correspondencias (AFC) La solución final es una representación en 2 o más ejes, de forma similar al análisis de componentes principales (ACP) y al Análisis de Escalamiento Multidimensional (MDS), con algunas diferencias: - En el AFC los datos se escalan de modo que poblaciones y alelos se tratan de modo equivalente, por lo que pueden representarse simultaneamente. En el ACP generalmente sólo se representan las variables y en el MDS sólo se representan las poblaciones. - El AFC utiliza exclusivamente la distancia chi-cuadrado para analizar los datos, en lugar del coeficiente de correlación o de covarianza del ACP. El MDS puede utilizar cualquier coeficente de similaridad o disimilaridad. - La interpretación de los resultados es ligeramente diferente. En el AFC se considera la influencia de los alelos sobre la posición de las poblaciones. En el ACP se interpretan los ejes obtenidos. En el MDS se considera exclusivamente la posición relativa de las poblaciones. - AFC y MDS son adecuados para frecuencias génicas. ACP no.

Cardoso et al, 2011 En la figura se muestra un ejemplo de AFC. Se han utilizado las frecuencias de haplogrupos de ADNmt en un grupo de poblaciones europeas

Dendrogramas Mediante un algoritmo de clasificación se transforma la matriz de coeficientes de distancia en un dendrograma. El proceso basicamente puede ser así: se elige el menor coeficiente de la matriz; este coeficiente relaciona dos individuos o clases (hi y hj), que quedarán unidos en el dendrograma. En las sucesivas matrices, ambos conformarán una única clase; sus coeficientes de distancia respecto a las otras clases podrán ser los coeficientes que presentaba hi, los que presentaba hj, el promedio, etc. Los principales algoritmos de clasificación son los siguientes: - Método del mínimo: La distancia entre el binomio hi+hj y otra clase (hk) será el valor mínimo de ambas distancias. - Método del máximo: La distancia entre el binomio hi+hj y otra clase (hk) será el valor máximo de ambas distancias.

- Método de la media: La distancia entre el binomio hi+hj y otra clase (hk) será la media de ambas distancias. - Método del centroide: Es similar al anterior, pero haciendo intervenir el número de individuos ni de hi y nj de hj.

- Método UPGMA (Unweighted Pair Group Method with Arithmetic mean): Es similar al anterior, pero ponderando respecto a ni y nj. - Método Neighbour Joining: Es un método iterativo en el que se buscan los nodos que unen las poblaciones más próximas. Mediante sucesivas iteraciones se alcanzará un dendrograma consenso.

Pérez-Miranda et al, 2005 En la figura se observa un dendrograma NJ obtenido a partir de 13 STRs autosómicos en poblaciones de España y Portugal.

Ejercicio: A continuación se buscará el siguiente nodo que asocie las poblaciones con el siguiente coeficiente más bajo y así sucesivamente. Se utilizará el método de la media. 1 0 0, La menor distancia es 0.5, que relaciona 1 con 2. Así pues, 1 y 2 pasan a ser una sola clase (1,2). La distancia de (1,2) respecto a 3 será la media de la distancia entre 1 y 3 (1) y la distancia entre 2 y 3 (2), es decir, 1/ 1/2 0 1,5 2,5 4,5 5 0 1/2/3 4 5 1/2/3 0 4,75 6,25 4 0 6 5 0

Evaluación de un dendrograma mediante remuestreo (bootstrap) Los métodos de taxonomía numérica no han contado tradicionalmente con métodos para su evaluación, al contrario que los métodos topológicos (varianza explicada, estrés, etc.). Por ello en los últimos años se han introducido los métodos de remuestreo, muy útiles cuando se desconoce el tipo de distribución de los datos que se manejan. En esencia, se basa en el intercambio arbitrario de una pequeña parte de la matriz de datos, tantas veces como se desee. De este modo, se obtendrán una serie de matrices de distancia, todas ellas diferentes y sólo una correcta, que permitirá evaluar la robustez de la representación. Así, si tras este tratamiento ligeramente distorsionador, se observa que se mantiene un determinado nodo del dendrograma original, puede decirse que presenta una cierta robustez. Los resultados se representan como unos valores, generalmente en tanto por ciento que se sitúan en los diferentes nodos del dendrograma. 1 0 0, 1 0 0, ,5 Matriz original Matriz con remuestreo Matriz con remuestreo

Alfonso-Sánchez et al, 2006 En la figura se observa un dendrograma NJ con Bootstrap obtenido a partir de haplogrupos de ADNmt

CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN

Presentaciones similares

Presentación del tema: "CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN

Presentaciones similares

Presentación del tema: "CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback