Análisis de datos de microarrays

Slides:



Advertisements
Presentaciones similares
DISEÑOS DE ESTUDIO EN EPIDEMIOLOGIA
Advertisements

ANOVA DE UN FACTOR.
BUENAS TARDES.
Una breve introducción a la epidemiología - XI (Diseño de estudios epidemiológicos: estudios experimentales/intervencionales) ¿Quién es Betty C Jung? Revise.
Estudios de Cohorte Dra. Pilar Jiménez M..
DISEÑO DE EXPERIMENTOS
DISEÑO DE EXPERIMENTOS
UNIVERSIDAD DE QUINTANA ROO
Metodología de la Investigación
Aplicaciones de Data Mining en ciencia y tecnología Bioinformática
TEMA 6 INVESTIGACIÓN CUASI EXPERIMENTAL
Introducción al análisis de la varianza
Master en Recursos Humanos
Elementos del Diseño de Experimentos y Análisis de la Varianza
TIPOS DE ESTUDIOS CLINICO EPIDEMIOLOGICOS
¿QUÉ VAMOS A VER? Descripción, haciendo fotografías con números
Bloques aleatorizados, cuadrados latinos y diseños relacionados
Metodología – Procesos Psicológicos Básicos Prof: Julio Santiago
Diseño de Experimentos
Diseño de investigación exploratoria. Investigación cualitativa
DISEÑO DE LA MUESTRA ¿Para qué necesitamos recolectar datos?
Tests de permutaciones y tests de aleatorización
TEMA III.
Estimación por Intervalos de confianza
Diseño de experimentos
9 Regresión Lineal Simple
INTRODUCCIÓN GENERAL Causalidad e inferencia causal
(niveles o categorías)
Población y Muestra.
Medidas de expresión para microarrays de Affimetrix.
Diseño en bloques completamente aleatorizados
ANOVA (Analysis of Variation)
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Principios del diseño experimental Maestría Ingeniería Industrial
Este procedimiento mide la relación entre la intensidad de un estímulo y la proporción de casos que presentan una cierta respuesta a dicho estímulo. Es.
Combinación de Clasificadores
Investigación Experimental
Bioestadística Demográfica
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Enfoque cuantitativo y Enfoque cualitativo
Planeación de un diseño
Análisis de la Varianza
Concepto Según la estrategia de medidas repetidas, las unidades son observadas a lo largo de una serie reducida de intervalos de tiempo u ocasiones.
Contrastes planeados y pruebas post hoc
BioInformática Una nueva ciencia Interdisciplinar Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos.
Bioinformática Introducción. Bioinformática Definición intuitiva Conjunto de herramientas informáticas que sugieren soluciones a problemas biológicos.
La Gestión y el Control de Procesos
PRUEBAS ESTADISTICAS NO PARAMETRICAS
INTRODUCCIÓN A LOS MÉTODOS DE MUESTREO
U.D. 3. Investigación Comercial
1 Introducción al tratamiento de datos © José Luís Contreras.
Diseños Generales. 2 Propósito implícito del diseño experimental El propósito implícito de todo diseño experimental consiste en imponer restricciones.
El plan de investigación
Tomando decisiones sobre las unidades de análisis
Septiembre  Responde a quienes y cuantas personas se aplicará el instrumento de recolección de datos.
Ingeniería Industrial. Estadística III Henry Lamos Díaz
CUADRADOS LATINOS HENRY LAMOS
Inferencia estadística: Muestreo aleatorio simple
TEMA 5 MÉTODO Y DISEÑOS EXPERIMENTALES
La naturaleza del control
Clase N°11 Métodos de reducción de varianza
INFERENCIA ESTADÍSTICA
TEMA 8 INVESTIGACIONES EX POST FACTO
1 Tema 8. Diseños evaluativos de alta intervención TALLER: DISEÑO Y EVALUACIÓN DE PROGRAMAS XIV CONGRESO DE METODOLOGÍA DE LAS CIENCIAS SOCIALES Y DE LA.
Taller de investigación 1
DISEÑOS POR BLOQUES ALEATORIZADOS
(niveles o categorías)
Diseño experimental I.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

Análisis de datos de microarrays Conceptos, Problemas, Métodos

Objetivos generales Panorámica general Familiarizarse con el proceso Tipos de estudios El “pipe-line” básico, Familiarizarse con el proceso Input/Output a cada paso, Dificultades y opciones para resolverlas, Interpretación de los resultados. Basado en ejemplos.

Tipos de estudios (1): Class comparison

Tipos de estudios (2): Class discovery

Tipos de estudios (3): Class prediction

Y muchos más tipos … Time Course Pathway Analysis-(Systems Biology) Perfiles de expresión a lo largo del tiempo Pathway Analysis-(Systems Biology) Reconstrucción de redes metabólicas a partir de datos de expressión Whole Genome, CGH, Alternative Splicing Estudios con datos de distintos tipos Integración.

Workflow for a typical microarray experiment

Ejemplos

Efecto de la estimulación mediante LPS Journal of Leukocyte Biology (2006;79:1314-1327). Objetivo: Comprender las bases moleculares de los procesos regulados por la citokina en ratones. Comparan RNA de Ratones estimulados mediante LPS y sin estimular Se sabe que la edad influye en la regulación Ratones de dos grupos de edad (jovenes y viejos) No se dispone de información sobre Cómo se asignaron tratamientos a individuos, Cómo se llevaron a cabo los arrays (día, lote, técnico…)

Diferentes perfiles de expresión en AML con trisomía 8 o citogenética normal PNAS, January 30, 2001 vol. 98 (3) Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos. Estudio antiguo Datos de peor calidad y posibles lotes relacionados con procesado

El Diseño Experimental (DE) Start here

Origen de la variabilidad Biological Heterogeneity in Population Specimen Collection/ Handling Effects Tumor: surgical bx, FNA Cell Line: culture condition, confluence level Biological Heterogeneity in Specimen RNA extraction RNA amplification Fluor labeling Hybridization Scanning – PMT voltage – laser power (Geschwind, Nature Reviews Neuroscience, 2001)

Tratamiento de la variabilidad Distintos tipos de variabilidad Sistemática / Aleatoria Distintas formas de controlarla/considerarla Sistemática Estimar la correccion a partir de los datos: Calibración, Normalización Aleatoria Diseño Experimental: controlar su influencia Estudios de potencia: cuantificar su efecto Analisis de significacion: inferencia.

Objetivo del diseño experimental Facilitar análisis-interpretación de los datos Lo mas simple y potente posible, Teniendo en cuenta El objetivo del experimento, Las restricciones en material, tiempo y coste.

Implementación Definir objetivos principales y secundarios. Definir con que datos se trabajará ¿Técnica más adecuada para generarlos? Tipo de arrays, secuencias, controles… Definir como se recogen las muestras ¿Cómo asignamos tratamientos a los individuos? ¿Qué tipo de réplicas deben hacerse? ¿Debemos/Podemos/Necesitamos hacer pools? ¿Existen limitaciones en tiempo, $, material? Seguir los principios básicos del DE de Replicación, Control Local y Aleatorización Objetivos: to identify differentially expressed genes to search for specific gene-expression patterns to identify phenotypic subclasses

Principios del DE: Replicación Aumenta Precisión y Potencia No confundir fuentes de variación Replicar más lo que varie más

Principios del DE: Bloqueo Si hay variabilidad por heterogeneidad de muestras se puede confundir el efecto de los tratamientos con otras fuentes. Definir grupos homogeneos o “bloques” Asignar tratamientos a bloques de forma Aleatoria y Balanceada Block what you can. Randomize what you cannot.

“To pool or not to pool” Combinar el RNA de varias muestras en un “pool” Hay diversas razones. Algunas correctas, otras no tanto Alcanzar la mínima cantidad de RNA para hacer arrays  Reducir la variabilidad  Reducir el coste. En todo caso debe hacerse correctamente No sustituir varias muestras por un único pool. No usarlo cuando interesa la variabilidad individual Diseños apareados Estudios predictivos mRNA from different samples combined to formed a pool. Why? If each sample doesn’t yield enough mRNA But… one can also amplify To compensate an excess of variability But we can’t estimate it when pooling Pooling should in general be avoided but… If goal of study is test for differential expression Under certain restrictions may still be used If goal of study requires individual’s information Can’t be used No

Ejemplo de “pooling” Estudio con 12 individuos  12 arrays  Caro!!! Opción 1: Grupo A: 6 individuos  1 pool de 6  1 array Grupo B: 6 individuos  1 pool de 6  1 array Opción 2: Grupo A: 12 individuos  4 pools de 3  4 arrays Grupo B: 12 individuos  4 pools de 3  4 arrays La opción dos puede ser más económica y de precisión similar al uso de 12 arrays, pero no es posible saberlo antes de hacer el experimento  8 arrays 8 arrays

Del diseño al análisis Una vez identificados la variable –respuesta- de interés, los factores que afectan a su variación, y la relación entre éstos, las fuentes de heterogeneidad del proceso que se controlan mediante bloqueo. Podemos plantear un modelo lineal que … Relacione respuestas y fuentes de variabilidad. Sirva de base para el análisis de datos (ANOVA) que generará las listas de genes que buscamos.

Ejemplo de modelos Estimulación por LPS Perfiles de expresión en AML+/AML

Todo el estudio pivota entorno al DE Resumiendo … Todo el estudio pivota entorno al DE El objetivo induce el diseño. El DE permite identificar las causas de variabilidad y determina Qué tipo de datos utilizar, Cómo recoger las muestras, Cómo procesarlas y Cómo deben ser analizadas

to ask him to conduct a post mortem examination. Y como dijo el maestro… To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of. Sir Ronald A. Fisher Father of modern Mathematical Statistics and Developer of Experimental Design and ANOVA

Preprocesado de los datos

Etapas del preprocesado Desde las imágenes hasta los datos para el análisis Exploración visual. Control de calidad. Normalización y filtrado.

Exploración. Ej 1: LPS

Exploración. Ej. 2: AML+8/AML

Control de calidad. Ej. 1: LPS

Control de calidad. Ej. 2: AML+8

Normalización Preferred analysis methods for Affymetrix GeneChips …. Genome Biology 2005, 6:R16

Análisis de datos

El proceso de análisis estadístico A partir de los datos normalizados y filtrados, Basándose en el modelo definido en el diseño experimental, Un Análisis de la Varianza (AOV) permite seleccionar los genes asociados con cada una, se manera separada para cada fuente de variabilidad incluída en el modelo.

Los ajustes necesarios El análisis de datos de microarrays tiene características particulares: Hay pocas muestras  Puede haber mucha variabilidad espúrea. Considerar métodos que regularicen la varianza Se realizan cientos/miles de tests a la vez. Es preciso realizar un ajuste de “multiple testing” si se quiere determinar la significación estadística.

Problema(1):Estimación de varianza ¿Podemos fiarnos simplemente de la diferencia de medias o el valor de un estadístico t? El ejemplo sugiere que no. Gene M1 M2 M3 M4 M5 M6 Mean SD t A 2.5 2.7 2.8 3.2 2 2.61 0.40 16.10 B 0.01 0.05 -0.05 0.003 0.03 0.25 C 1.8 20 1 5.08 7.34 1.69 D 0.5 0.2 0.1 -0.3 0.3 0.13 0.27 1.19 E 0.11 0.09 0.10 33.09 Averages can be driven by outliers. Courtesy of Y.H. Yang

¿Es preciso regularizar la varianza? Varianzas grandes pueden generar falsos negativos. Varianzas pequeñas generarán falsos positivos. Gene M1 M2 M3 M4 M5 M6 Mean SD t A 2.5 2.7 2.8 3.2 2 2.61 0.40 16.10 B 0.01 0.05 -0.05 0.003 0.03 0.25 C 1.8 20 1 5.08 7.34 1.69 D 0.5 0.2 0.1 -0.3 0.3 0.13 0.27 1.19 E 0.11 0.09 0.10 33.09 t’s can be driven by tiny variances. Courtesy of Y.H. Yang

Solución: Estadísticos “ad-hoc” SAM (Tibshirani, 2001) Regularized-t (Baldi, 2001) EB-moderated t (Smyth, 2003)

Problema (2): “Múltiple testing” Supongamos que vamos a hacer varios tests a la vez Dos tests al 5%. La probabilidad de obtener un falso positivo es 1 – 0.95*0.95 = 0.0975 Tres tests  1 – 0.953 =0.1426 n tests  1 – 0.95n Se acerca a 1 cuando aumenta el nº de tests Un p-valor pequeño no indica significación  Si hacemos muchos tests no controlamos la probabilidad de error de tipo I

Un ejemplo de simulación (1)

Un ejemplo de simulación (2)

Resumiendo Como se analizan los datos A partir de la matriz de expresión. Se ajusta el modelo lineal definido en el DE Preferiblemente utilizando un método que realice regularización de la varianza. Se obtiene la lista de genes y los valores de test de las comparaciones interesantes ordenada de menor a mayor p-valor Y se ajustan los p-valores teniendo en cuenta el numero de comparaciones realizadas.

Genes cambiados entre LPS/Medium en ratones viejos Ejemplo LPS Genes cambiados entre LPS/Medium en ratones viejos

Genes cambiados entre LPS/Medium en ratones viejos Ejemplo AML8 Genes cambiados entre LPS/Medium en ratones viejos

Las tres comparaciones a la vez (LPS)

Las tres comparaciones (AML8)

Soporte a la interpretación biólógica Análisis basado en la GO

Referencias básicas

Agradecimientos