CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN

CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN
ANTROPOGENÉTICA La ley de equilibrio Hardy-Weinberg. La similaridad genética. El análisis estadístico de la similaridad: AFC, MDS, Dendrogramas. Bootstrap. Geografía y genes: Clinas, Mapas sintéticos, Autocorrelación espacial, Test de Mantel, AMOVA. Otros: Método del centroide, Mestizaje, Redes filogenéticas, Desequilibrio de ligamiento, Genética Forense, Minería de datos. Programas de interés en Antropogenética.

Geografía y genes: clinas
Peña et al, 2006 DYS19*17 r2 = P < 0.001 DYS393*13 r2 = P < 0.01 DYS389 I*14 r2 = P < 0.01 DYS391*10 r2 = P < 0.01 DYS392*11 r2 = P < 0.01 DYS393*12 r2 = P < 0.01 Las tendencias de variación gradual de un carácter, frecuencia alélica, haplotípica, etc en un sentido determinado del espacio se denominan gradientes clinales o clinas. Cuando se pretende detectar la presencia de una clina, debe realizarse un análisis de correlación de las frecuencias respecto a las coordenadas geográficas. La existencia de una significación en la asociación entre frecuencias génicas y un determinado eje de coordenadas estará revelando la presencia de un gradiente clinal. Figura: Clinas observadas en España para algunos alelos de Y-STRs La longitud de la flecha es proporcional a la frecuencia promedio del alelo

Geografía y genes: clinas
Gómez-Pérez et al, 2011 Los gradientes pueden tener una orientación longitudinal, latitudinal e incluso en relación con la altura, como en el caso de Jujuy (Argentina). Figura: Clinas determinadas por la altura en Jujuy para varias inserciones Alu. Las comarcas más altas son las que tienen un color más claro en el mapa.

Geografía y genes: mapas sintéticos
Beja-Pereira et al, 2003 Son mapas geográficos que muestran el área estudiada, sobre la que se representan las variaciones locales de una variable mediante diferencias en altura, diferentes tramas o un gradiente de color. Cada muestra se asigna a un punto en el mapa. A partir de los valores de los diferentes puntos, se realiza una extrapolación para todos los puntos intermedios. Este tipo de representación puede realizarse para las frecuencias de un alelo, los valores propios de un eje en un análisis de escalamiento multidimensional, o cualquier otra variable. En la figura se representan los valores de persistencia de actividad lactasa en Europa.

Geografía y genes: autocorrelación espacial
Peña et al, 2002 Es la correlación de una variable consigo misma, cuando las observaciones son realizadas en diferentes puntos del espacio. Si la presencia de una cualidad en una parte de un territorio convierte su presencia en las zonas vecinas en más o menos probable, existe un efecto de contigüidad en la estructura espacial y en tal caso el fenómeno muestra una autocorrelación espacial. Entre los diferentes índices que se han desarrollado para estimar el grado de autocorrelación, el más utilizado es el de Moran. Los valores del índice de Moran pueden representarse frente a la distancia dando lugar a una figura denominada correlograma. El patrón esperado de acuerdo al modelo de aislamiento por la distancia es el de una progresiva disminución del índice de Moran en las sucesivas clases de distancia. Puede además estimarse la significación de los valores de autocorrelación, de modo que aunque no es una condición decisiva, el gráfico será más fiable si muestra significación en la mayor parte de sus valores. Figura: Autocorrelación espacial para la persistencia de actividad lactasa en Europa. Los puntos verdes indican significación.

Geografía y genes: test de Mantel
Límite de la minoría provenzal Biondi et al, 2005 Es un método utilizado para la comparación de matrices. Se trata de un coeficiente de correlación específico para datos interdependientes, ya que los valores de una matriz lo son. Puesto que no se conoce su distribución nula, es preciso construir una distribución esperada mediante un proceso de remuestreo. En este ejemplo, se realizó un test de Mantel para la matriz de distancias geograficas y una matriz de distancias basadas en listas de apellidos en la provincia de Cuneo (Italia). La asociación resultó significativa, de modo que la posición geográfica de las localidades condiciona su patrimonio onomástico y presumiblemente genético, más que su origen étnico, italiano o provenzal. R2 = 0,243; p < 0,0001

Geografía y genes: AMOVA
García-Obregón et al, 2012 Análisis molecular de la varianza (AMOVA) Es un método que analiza la heterogeneidad entre varios grupos de poblaciones, descomponiendo la varianza en 3 niveles: individuos dentro de las poblaciones, entre poblaciones dentro de los grupos poblacionales y entre grupos, permitiendo obtener una significación estadística. En la tabla: AMOVA para una serie de poblaciones de Europa, Africa y Asia, a partir de varias inserciones Alu del cromosoma 6.

Otros métodos: método del centroide
Waorani Gómez-Pérez et al, 2011 Se representa la heterocigosidad observada en cada población frente a la varianza introducida por dicha población al conjunto de poblaciones (ri). Refleja el grado de flujo génico que han experimentado. Las poblaciones que quedan por debajo de la línea han mostrado un flujo génico con otras poblaciones menor de lo esperado. Se deduce porque muestran una menor heterocigosidad para la misma cantidad de variabilidad Figura: Método del centroide para frecuencias alélicas de inserciones Alu en poblaciones amerindias. Los Waorani muestran un intenso aislamiento.

Otros métodos: estima del grado de mestizaje
Mediante el método del centroide es posible conocer la existencia de un flujo génico más o menos intenso. Además, puede estimarse el grado de mestizaje originado por este flujo. Para ello, se debe resolver una ecuación con 2 o 3 incógnitas, en función del número de poblaciones de referencia, mediante métodos iterativos. En la tabla se observan las proporciones estimadas mediante 2 métodos de los componentes europeo, africano y amerindio en 2 grupos de colombianos. Los afrocolombianos, descendientes de esclavos huídos, eran refractarios al mestizaje con europeos. Los mestizos mostraron los 3 componentes. Además, hay métodos para visualizar el mestizaje. En la figura, el triángulo muestra las proporcionesde los 3 componentes. Gómez-Pérez et al, 2010

Otros métodos: estima del grado de mestizaje
Tishkof et al. (2009) El gráfico del programa Structure muestra, para cada individuo, la probabilidad de origen de sus genes, para un número de poblaciones originales preestablecido. En la figura, el número de poblaciones se establece entre 2 y 14. El análisis está basado en 1327 marcadores y 3945 individuos.

Otros métodos: redes filogenéticas (Phylogenetic networks)
Cardoso et al, 2008 Waorani Es un tipo de gráfico en forma de red que muestra relaciones filogenéticas entre secuencias nucleotídicas, genes, cromosomas o genomas. Generalmente se muestran todos los pasos mutacionales y las frecuencias se representan mediante el diámetro de los círculos. En la figura se muestra un haplogrupo característico de los Waorani (A2-Huao) junto a otros de poblaciones amerindias.

Otros métodos: desequilibrio de ligamiento
Peña et al, 2002 Cuando dos marcadores se encuentran muy próximos en un cromosoma pueden encontrarse ligados, de modo que los alelos segregarán conjuntamente en forma de haplotipos. Puede entonces analizarse si los diferentes haplotipos se distribuyen al azar o existe un cierto desequilibrio, de modo que algunos sean más frecuentes de lo que cabría esperar en función de sus frecuencias alélicas. Esto habitualmente será un indicativo de procesos de flujo génico ocurridos en el pasado. No pueden calcularse las frecuencias haplotípicas por conteo, excepto para marcadores del cromosoma Y o el ADNmt ya que no se conocen las combinaciones alélicas específicas de cada individuo. Por ello hay que recurrir a métodos iterativos. Se calcula la frecuencia del haplotipo, su desequilibrio de ligamiento y su significación. En la tabla se muestran los valores del desequilibrio de ligamiento para algunos haplotipos de 3 STRs del cromosoma 6

Otros métodos: Genética Forense
Probabilidad de coincidencia (pM, Matching probability) Es la probabilidad de que dos individuos tomados al azar tengan el mismo genotipo. Para un locus, la probabilidad es: donde i y j son todos los posibles alelos y Pij es la frecuencia de cada genotipo (que puede ser 2pq o q2) y se eleva al cuadrado porque ha de ocurrir en uno y otro individuo. La probabilidad combinada para varios loci es el producto de las probabilidades individuales, asumiendo que no hay ligamiento (pML). La capacidad de discriminación (Pd, Power of discrimination) es

Capacidad de exclusión (PE, Power of exclusion) Se define como la fracción de individuos que que tienen un perfil de ADN que es diferente del portado por un individuo tomado al azar de la población. Para un locus dado será: donde h es la proporción de heterocigotos y H de homocigotos y para varios loci (PEt):

Indice de paternidad (Paternity Index, PI) Se calcula para un locus dado como la proporción de verosimilitud X/Y. X es la probabilidad de que el padre alegado haya podido transmitir el alelo paterno. Y es la probabilidad de que algún otro hombre proveniente del mismo grupo continental y residente en el mismo país pueda transmitir el mismo alelo. Para conocer Y es preciso disponer de datos poblacionales del grupo implicado, es decir, de las frecuencias de la región de origen de los individuos implicados. El cálculo del índice de paternidad puede hacerse a partir de la tabla. Indice de Paternidad Combinado (Combined Paternity Index, CPI) Es el producto de los valores de PI obtenidos para todos los loci analizados. Finalmente, la probabilidad de Paternidad (Probability of Paternity, POP), se calcula, de acuerdo al teorema de Bayes, como

Otros métodos: Minería de datos
Imagen con 560 x 315 SNPs analizados en una placa Resultado de un programa de análisis estadístico de minería de datos A partir del desarrollo de técnicas de laboratorio de alto rendimiento (high-throughput), la cantidad de datos que pueden obtenerse en un análisis ha crecido espectacularmente. Aunque los métodos estadísticos para su análisis no son radicalmente diferentes, ha sido preciso adaptarlos a un enorme flujo de datos. Es lo que se conoce como minería de datos. Entre los nuevos conceptos destacan la tasa de descubrimientos falsos, es decir, falsos positivos por la mera acumulación de resultados. Por lo demás, se han adaptado métodos clásicos, como los test de la T de Student, ANOVA, regresión, cluster, etc.

Programas de interés en Antropogenética
Past (Windows) ( Programa estadístico que, entre otras opciones incluye MDS, Factorial de correspondencias, test de Mantel cluster ...

PHYLIP ( Coeficientes de distancia, Neighbour joining, bootstrap ...

Arlequin (Windows) ( Test H-W, AMOVA, Frecuencias haplotípicas y desequilibrio de ligamiento, coeficientes de distancia, Tests de diferenciación interpoblacional

Network (Windows) ( Redes

Structure (Linux, Solaris, Mac OSX, Windows) ( Evaluación gráfica del grado de mestizaje

Quantum GIS (Linux, Mac OSX, Windows) ( Mapas sintéticos

CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN

Presentaciones similares

Presentación del tema: "CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN

Presentaciones similares

Presentación del tema: "CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback