CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ANOVA DE UN FACTOR.
UNA VISIÓN GLOBAL DEL HAPMAP PROJECT
U UNIVERSIDAD DE QUINTANA ROO
GRAFICOS ESTADISTICOS
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Master en Recursos Humanos
ANÁLISIS EXPLORATORIO DE DATOS
UNIVERSIDAD TECNICA DE AMBATO
KRIGING.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
GÉNETICA POBLACIONAL Dra. María Teresa Lemus Valdés
Tests de permutaciones y tests de aleatorización
Regresión y correlación
HERRAMIENTAS PARA EL CONTROL ESTADÍSTICO DE CALIDAD.
GENETICA MENDELIANA.
La distribución Multinomial en genética
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
9 Regresión Lineal Simple
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Flujo génico en poblaciones estructuradas
Clases 4 Pruebas de Hipótesis
Población y Muestra.
Estadística aplicada al análisis financiero
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
CAPÍTULO 9. VARIABILIDAD GENÉTICA Y VARIABILIDAD CULTURAL
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
GENETICA MENDELIANA.
Distribuciones derivadas del muestreo
Universidad de Panamá Escuela de Biología Departamento de genética Genética de Poblaciones Integrantes: Castellanos, Rebeca Robinson, Anine Robles, Jazmin.
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
CAPÍTULO 22. EL FLUJO GÉNICO - El flujo génico - Estima del mestizaje - Interacción entre flujo génico y deriva.
Unidad V: Estimación de
Datos: Estadística.
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Estadística La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos,
Métodos de calibración: regresión y correlación
3. Análisis de Correspondencias Simples
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Capacidad de Proceso.
Herramientas básicas.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Herramientas avanzadas. Lo primero: abrir el modelo.
Estimación y contraste de hipótesis
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
Método de mínimos cuadrados
Genética Forense.
RIESGO, RENDIMIENTO Y VALOR
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Distribuciones de Probabilidad
Unidad 4 Análisis de los Datos.
Muestreo Probabilístico
INFERENCIA ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA
REGRESIÓN LINEAL SIMPLE
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Diseño experimental I.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Dra. María Isabel Fonseca Qué es una población? “Es la comunidad de individuos que pueden potencialmente aparearse, en una determinada localidad”
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Consaguinidad y Heterosis
ANALISIS DE VARIANZA.
Transcripción de la presentación:

CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ANTROPOGENÉTICA La ley de equilibrio Hardy-Weinberg. La similaridad genética. El análisis estadístico de la similaridad: AFC, MDS, Dendrogramas. Bootstrap. Geografía y genes: Clinas, Mapas sintéticos, Autocorrelación espacial, Test de Mantel, AMOVA. Otros: Método del centroide, Mestizaje, Redes filogenéticas, Desequilibrio de ligamiento, Genética Forense, Minería de datos. Programas de interés en Antropogenética.

Geografía y genes: clinas Peña et al, 2006 DYS19*17 r2 =0.785 P < 0.001 DYS393*13 r2 =0.756 P < 0.01 DYS389 I*14 r2 =0.689 P < 0.01 DYS391*10 r2 =0.663 P < 0.01 DYS392*11 r2 =0.667 P < 0.01 DYS393*12 r2 =0.700 P < 0.01 Las tendencias de variación gradual de un carácter, frecuencia alélica, haplotípica, etc en un sentido determinado del espacio se denominan gradientes clinales o clinas. Cuando se pretende detectar la presencia de una clina, debe realizarse un análisis de correlación de las frecuencias respecto a las coordenadas geográficas. La existencia de una significación en la asociación entre frecuencias génicas y un determinado eje de coordenadas estará revelando la presencia de un gradiente clinal. Figura: Clinas observadas en España para algunos alelos de Y-STRs La longitud de la flecha es proporcional a la frecuencia promedio del alelo

Geografía y genes: clinas Gómez-Pérez et al, 2011 Los gradientes pueden tener una orientación longitudinal, latitudinal e incluso en relación con la altura, como en el caso de Jujuy (Argentina). Figura: Clinas determinadas por la altura en Jujuy para varias inserciones Alu. Las comarcas más altas son las que tienen un color más claro en el mapa.

Geografía y genes: mapas sintéticos Beja-Pereira et al, 2003 Son mapas geográficos que muestran el área estudiada, sobre la que se representan las variaciones locales de una variable mediante diferencias en altura, diferentes tramas o un gradiente de color. Cada muestra se asigna a un punto en el mapa. A partir de los valores de los diferentes puntos, se realiza una extrapolación para todos los puntos intermedios. Este tipo de representación puede realizarse para las frecuencias de un alelo, los valores propios de un eje en un análisis de escalamiento multidimensional, o cualquier otra variable. En la figura se representan los valores de persistencia de actividad lactasa en Europa.

Geografía y genes: autocorrelación espacial Peña et al, 2002 Es la correlación de una variable consigo misma, cuando las observaciones son realizadas en diferentes puntos del espacio. Si la presencia de una cualidad en una parte de un territorio convierte su presencia en las zonas vecinas en más o menos probable, existe un efecto de contigüidad en la estructura espacial y en tal caso el fenómeno muestra una autocorrelación espacial. Entre los diferentes índices que se han desarrollado para estimar el grado de autocorrelación, el más utilizado es el de Moran. Los valores del índice de Moran pueden representarse frente a la distancia dando lugar a una figura denominada correlograma. El patrón esperado de acuerdo al modelo de aislamiento por la distancia es el de una progresiva disminución del índice de Moran en las sucesivas clases de distancia. Puede además estimarse la significación de los valores de autocorrelación, de modo que aunque no es una condición decisiva, el gráfico será más fiable si muestra significación en la mayor parte de sus valores. Figura: Autocorrelación espacial para la persistencia de actividad lactasa en Europa. Los puntos verdes indican significación.

Geografía y genes: test de Mantel Límite de la minoría provenzal Biondi et al, 2005 Es un método utilizado para la comparación de matrices. Se trata de un coeficiente de correlación específico para datos interdependientes, ya que los valores de una matriz lo son. Puesto que no se conoce su distribución nula, es preciso construir una distribución esperada mediante un proceso de remuestreo. En este ejemplo, se realizó un test de Mantel para la matriz de distancias geograficas y una matriz de distancias basadas en listas de apellidos en la provincia de Cuneo (Italia). La asociación resultó significativa, de modo que la posición geográfica de las localidades condiciona su patrimonio onomástico y presumiblemente genético, más que su origen étnico, italiano o provenzal. R2 = 0,243; p < 0,0001

Geografía y genes: AMOVA García-Obregón et al, 2012 Análisis molecular de la varianza (AMOVA) Es un método que analiza la heterogeneidad entre varios grupos de poblaciones, descomponiendo la varianza en 3 niveles: individuos dentro de las poblaciones, entre poblaciones dentro de los grupos poblacionales y entre grupos, permitiendo obtener una significación estadística. En la tabla: AMOVA para una serie de poblaciones de Europa, Africa y Asia, a partir de varias inserciones Alu del cromosoma 6.

Otros métodos: método del centroide Waorani Gómez-Pérez et al, 2011 Se representa la heterocigosidad observada en cada población frente a la varianza introducida por dicha población al conjunto de poblaciones (ri). Refleja el grado de flujo génico que han experimentado. Las poblaciones que quedan por debajo de la línea han mostrado un flujo génico con otras poblaciones menor de lo esperado. Se deduce porque muestran una menor heterocigosidad para la misma cantidad de variabilidad Figura: Método del centroide para frecuencias alélicas de inserciones Alu en poblaciones amerindias. Los Waorani muestran un intenso aislamiento.

Otros métodos: estima del grado de mestizaje Mediante el método del centroide es posible conocer la existencia de un flujo génico más o menos intenso. Además, puede estimarse el grado de mestizaje originado por este flujo. Para ello, se debe resolver una ecuación con 2 o 3 incógnitas, en función del número de poblaciones de referencia, mediante métodos iterativos. En la tabla se observan las proporciones estimadas mediante 2 métodos de los componentes europeo, africano y amerindio en 2 grupos de colombianos. Los afrocolombianos, descendientes de esclavos huídos, eran refractarios al mestizaje con europeos. Los mestizos mostraron los 3 componentes. Además, hay métodos para visualizar el mestizaje. En la figura, el triángulo muestra las proporcionesde los 3 componentes. Gómez-Pérez et al, 2010

Otros métodos: estima del grado de mestizaje Tishkof et al. (2009) El gráfico del programa Structure muestra, para cada individuo, la probabilidad de origen de sus genes, para un número de poblaciones originales preestablecido. En la figura, el número de poblaciones se establece entre 2 y 14. El análisis está basado en 1327 marcadores y 3945 individuos.

Otros métodos: redes filogenéticas (Phylogenetic networks) Cardoso et al, 2008 Waorani Es un tipo de gráfico en forma de red que muestra relaciones filogenéticas entre secuencias nucleotídicas, genes, cromosomas o genomas. Generalmente se muestran todos los pasos mutacionales y las frecuencias se representan mediante el diámetro de los círculos. En la figura se muestra un haplogrupo característico de los Waorani (A2-Huao) junto a otros de poblaciones amerindias.

Otros métodos: desequilibrio de ligamiento Peña et al, 2002 Cuando dos marcadores se encuentran muy próximos en un cromosoma pueden encontrarse ligados, de modo que los alelos segregarán conjuntamente en forma de haplotipos. Puede entonces analizarse si los diferentes haplotipos se distribuyen al azar o existe un cierto desequilibrio, de modo que algunos sean más frecuentes de lo que cabría esperar en función de sus frecuencias alélicas. Esto habitualmente será un indicativo de procesos de flujo génico ocurridos en el pasado. No pueden calcularse las frecuencias haplotípicas por conteo, excepto para marcadores del cromosoma Y o el ADNmt ya que no se conocen las combinaciones alélicas específicas de cada individuo. Por ello hay que recurrir a métodos iterativos. Se calcula la frecuencia del haplotipo, su desequilibrio de ligamiento y su significación. En la tabla se muestran los valores del desequilibrio de ligamiento para algunos haplotipos de 3 STRs del cromosoma 6

Otros métodos: Genética Forense Probabilidad de coincidencia (pM, Matching probability) Es la probabilidad de que dos individuos tomados al azar tengan el mismo genotipo. Para un locus, la probabilidad es: donde i y j son todos los posibles alelos y Pij es la frecuencia de cada genotipo (que puede ser 2pq o q2) y se eleva al cuadrado porque ha de ocurrir en uno y otro individuo. La probabilidad combinada para varios loci es el producto de las probabilidades individuales, asumiendo que no hay ligamiento (pML). La capacidad de discriminación (Pd, Power of discrimination) es

Otros métodos: Genética Forense Capacidad de exclusión (PE, Power of exclusion) Se define como la fracción de individuos que que tienen un perfil de ADN que es diferente del portado por un individuo tomado al azar de la población. Para un locus dado será: donde h es la proporción de heterocigotos y H de homocigotos y para varios loci (PEt):

Otros métodos: Genética Forense Indice de paternidad (Paternity Index, PI) Se calcula para un locus dado como la proporción de verosimilitud X/Y. X es la probabilidad de que el padre alegado haya podido transmitir el alelo paterno. Y es la probabilidad de que algún otro hombre proveniente del mismo grupo continental y residente en el mismo país pueda transmitir el mismo alelo. Para conocer Y es preciso disponer de datos poblacionales del grupo implicado, es decir, de las frecuencias de la región de origen de los individuos implicados. El cálculo del índice de paternidad puede hacerse a partir de la tabla. Indice de Paternidad Combinado (Combined Paternity Index, CPI) Es el producto de los valores de PI obtenidos para todos los loci analizados. Finalmente, la probabilidad de Paternidad (Probability of Paternity, POP), se calcula, de acuerdo al teorema de Bayes, como

Otros métodos: Minería de datos Imagen con 560 x 315 SNPs analizados en una placa Resultado de un programa de análisis estadístico de minería de datos A partir del desarrollo de técnicas de laboratorio de alto rendimiento (high-throughput), la cantidad de datos que pueden obtenerse en un análisis ha crecido espectacularmente. Aunque los métodos estadísticos para su análisis no son radicalmente diferentes, ha sido preciso adaptarlos a un enorme flujo de datos. Es lo que se conoce como minería de datos. Entre los nuevos conceptos destacan la tasa de descubrimientos falsos, es decir, falsos positivos por la mera acumulación de resultados. Por lo demás, se han adaptado métodos clásicos, como los test de la T de Student, ANOVA, regresión, cluster, etc.

Programas de interés en Antropogenética Past (Windows) (http://folk.uio.no/ohammer/past/) Programa estadístico que, entre otras opciones incluye MDS, Factorial de correspondencias, test de Mantel cluster ...

Programas de interés en Antropogenética PHYLIP (http://evolution.genetics.washington.edu/phylip.html) Coeficientes de distancia, Neighbour joining, bootstrap ...

Programas de interés en Antropogenética Arlequin (Windows) (http://cmpg.unibe.ch/software/arlequin3/) Test H-W, AMOVA, Frecuencias haplotípicas y desequilibrio de ligamiento, coeficientes de distancia, Tests de diferenciación interpoblacional

Programas de interés en Antropogenética Network (Windows) (http://www.fluxus-engineering.com/sharenet.htm) Redes

Programas de interés en Antropogenética Structure (Linux, Solaris, Mac OSX, Windows) (http://pritch.bsd.uchicago.edu/software/structure2_2.html) Evaluación gráfica del grado de mestizaje

Programas de interés en Antropogenética Quantum GIS (Linux, Mac OSX, Windows) (http://www.qgis.org/) Mapas sintéticos