Medidas de expresión para microarrays de Affimetrix.

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ANOVA DE UN FACTOR.
Tema 4: Medidas de posición individual.
Tema. 5. Variabilidad. Concepto
MÉTODOS Y DISEÑOS DE INVESTIGACIÓN METODOLOGÍAS DE INVESTIGACIÓN
REGRESION LINEAL SIMPLE
Aplicaciones de Data Mining en ciencia y tecnología Bioinformática
Modelos de Variable Dependiente Binaria -Logit y Probit-
Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental.
Estimación de los Errores de Muestreo Encuestas de Salud Reproductiva   RHS Usando SPSS 19.
Pronósticos, Series de Tiempo y Regresión
ANÁLISIS PREELIMINAR DE LOS DATOS
La prueba U DE MANN-WHITNEY
GEOESTADISTICA MULTIVARIADA
Pruebas de Especificación en el Modelo de Regresión Múltiple
MODELO DE REGRESIÓN MÚLTIPLE
DETERMINANTES DE UNA MATRIZ
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Regresión y correlación
CURSO DE ESTADÍSTICA BÁSICA
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
9 Regresión Lineal Simple
Tema 2: Métodos de ajuste
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
Facultad: Turismo Y Hotelería
Prueba de hipótesis Equivalencia entre la prueba de hipótesis y los intervalos de confianza Valor de probabilidad Valor de probabilidad unilateral Prueba.
Control estadístico de Proceso
ANALISIS DE DATOS CON EXCEL
Inferencia Estadística
PROBLEMAS ECONOMETRICOS
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
CONTRASTE Y VALIDACIÓN DE UN MODELO
Unidad V: Estimación de
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Pronósticos, Series de Tiempo y Regresión
Estadística Descriptiva continuación
Unidad V: Estimación de
Datos: Estadística.
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
ESTADÍSTICAS DESCRIPTIVA
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Titular: Agustín Salvia
Análisis y diseño de experimentos
1. Actualmente el marco general en el que una organización lleva a cabo su actividad se caracteriza por una alta dinamicidad y cambios permanentes. Ante.
Límites y Continuidad.
Capítulo 1. Conceptos básicos de la Estadística
UNIDAD 1.- EVALUACIÓN DE DATOS ANALITICOS
CO-2124 Análisis de Varianza con Un Criterio de Clasificación En clases anteriores se deseaba determinar si existían diferencias entre las medias de dos.
Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E.
Pruebas de hipótesis.
Estadísticos Asunto de Estado: Estadísticos. Estadísticos Los parámetros estadísticos nos permiten tener una idea global de la población, compararla con.
1 Introducción al tratamiento de datos © José Luís Contreras.
Estimación y contraste de hipótesis
Tomando decisiones sobre las unidades de análisis
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
Unidad 4 Análisis de los Datos.
EPE MA 148 ESTADÍSTICA INFERENCIAL TEMA:
10. Estimación puntual e intervalos de confianza Módulo II: Análisis descriptivo univariado Análisis de Datos Aplicado a la Investigación Científica
Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.
Coeficiente de variación
REGRESIÓN LINEAL SIMPLE
Técnicas para el estudio de expresión de genes
CAPACITACIÓN, INVESTIGACIÓN, ESTADÍSTICA Y MERCADEO
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Yulieth ariza Villarreal Estadística II. Historia La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fábrica.
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
ANALISIS DE VARIANZA.
Transcripción de la presentación:

Medidas de expresión para microarrays de Affimetrix

2 Tipos de microarrays Las tecnologías para fabricar microarrays utilizan dos tipos de técnicas diferentes: –Fabricar las pruebas (“probes”) in vitro para sembrarlas (“spot”) después sobre el chip Típicamente: chips de cDNA pero también pueden ser chips de oligonucleótidos –Fabricar las pruebas in situ, sobre el chip Típicamente chips de oligonucleótidos de Affymetrix, pero no los únicos

3 Visión general del proceso en chips

4 Como en otros microarrays tras escanear la imagen se obtiene una serie de valores de intensidad de cada elemento del chip. Estos valores deben preprocesarse antes de realizar cualquier análisis basado en ellos. Esto consiste básicamente en: –Corrección del ruido de fondo –Normalización –Resumen de los valores del probe-set De la intensidad de la imagen a las medidas de expresión

5 Medidas de expresión (absoluta) A diferencia de los chips de cDNAs, aquí las medidas de expresión son absolutas: cada chip se hibrida con un único tejido Hay muchos métodos para estimar la expresión, (más de 30 publicados) Cada método contempla de forma explícita o implícita las tres formas de preprocesado: corrección del fondo, normalización y resumen.

6 Métodos principales que estudiamos –Microarray Suite (MAS) Oficial de Affymetrix. Versiones 4.0  5.0 –dChip: Li and Wong Basado en modelos multichip –RMA (Bioconductor) Mejora del anterior

M.A.S. 4.0 y 5.0

8 M.A.S ª medida introducida por Affymetrix Corrección del fondo –E j =PM j -MM j Normalización –Global: Transformaciones de forma que la media de todo el chip sea la misma. Resumen de los probesets –Promedio de diferencias absolutas

9 MAS 4: Media de diferencias absolutas Ignora los pares que se desvían más de 3σ de µ Presenta muchos problemas conocidos –1/3 de los MM son mayores que los PM –Pueden aparecer valores MM negativos –El uso de los MM añade ruído Ha sido sustituida por otras (MAS 5.0)

10 MicroArray Suite 5.0 (i) Utiliza un estadístico robusto, el biweight de Tukey, para:biweight de Tukey –ponderar el fondo (bg) y –calcular (estimar) la señal El biweight de Tukey T bi pondera los valores por su distancia a la mediana m –Mide tendencia central pero –Realiza un ajuste de outliers

11 MicroArray Suite 5.0 (ii) El valor de MM no siempre tiene sentido, –p.ej si MM > PM no lo tiene En este caso: se introduce el background específico de un conjunto de pruebas i de tamaño n basado en los pares de pruebas j: SB i = T bi (log(PM i,j )-log(MM i,j )) : j = 1,…,n SB se utiliza para decidir como se ajusta el background –Si es grande los datos suelen ser fiables –Si es pequeño mejor basarse tan sólo en PM

12 Se introduce el Mismatch idealizado: IM: MicroArray Suite 5.0 (iii)

13 MAS 5.0 (iv): Medida de expresión Tras calcular el Mismatch Idealizado se estima la intensidad de las pruenbas individuales (Probe Values) por: PV i,j =log[max(PM i,j -IM i,j,δ)], δ=2-20 Expresión de la prueba Señal i =Tb i (PV i,1,…,PV i,n )

14 No tiene mucho sentido promediar las pruebas entre arrays, pues éstos pueden tener características de hibridación intrínsecamente distintas El método no mejora “aprendiendo” del funcionamiento entre arrays de las pruebas individuales  Idea: Ajustar modelos basados en multiples arrays MAS 5.0 (v): Críticas

Modelos multi-chip

16 Motivación para modelos multi- chip En 2001 Cheng Li & Wing Wong introducen el resumen de la intensidad de las pruebas basado en modelos. Basado en una observación bien simple: –Los valores de expresión dentro de un probeset son muy estables entre arrays, –Es decir es menor la variabilidad inter-chips que intra-chips.

17 Estabilidad entre arrays: 1 chip

18 Estabilidad entre arrays: 2 chips

19 Estabilidad entre arrays: 5 chips

20 Estabilidad entre arrays: 10 chips

21 Modelización de las pruebas a nivel de señal individual Pruebas chip 1 chip 2

22 Modelización de las pruebas a nivel de señal individual Li & Wong realizan las siguientes suposiciones: –La señal de cada prueba es proporcional a: Cantidad de muestra diana (target):   Afinidad de la secuencia específica de la prueba por la diana:  j –Gran afinidad no significa gran especificidad Una prueba puede dar una señal alta con una diana y también con otras secuencias (muy afin y poco específica) –La señal del MM sólo depende de la cantidad de diana MM ij = i +  i  j +  ij –La señal del PM depende de la diana y la afinidad PM ij = i +  i  j +  i  j +  ij

23 Modelos Multiplicativos Asumiendo las suposiciones anteriores y tomando como base de la estimación la diferencia PM ij – MM ij se obtiene el modelo multiplicativo: PM ij – MM ij=  j x  i +  ij  La estimación se realiza utilizando métodos robustos con eliminación de outliers y re- estimaciones sucesivas hasta la convergencia

24 Criticas al modelo de Li-Wong El modelo supone homocedasticidad, es decir que la distribución de los errores tiene variancia constante. En la práctica, la mayoría de medidas biológicas, presenta errores dependientes depende de la intensidad: a mayor valor suelen tener mayor varianza.

El método RMA

26 Robust Multi-Array Average Para compensar algunas deficiencias del método de dChip, Irizarry et al. introducen un método basado en –Modelización lineal del logaritmo del modelo anterior –Con la estimación basada en métodos de estadística robustos. Método “preferido” actualmente por muchos usuarios de Bioconductor.

27 Robust Multi-array Average (RMA) I.Ajusta el fondo (background) basandose sólo en los valores PM II.Toma logaritmos base 2 de cada intensidad ajustada por el background. III.Realiza una normalización por cuantiles de los valores del paso 2 entre todos los chips. IV.Realiza un pulido de medianas separadamente para cada conjunto de pruebas sobre una matriz de datos que tiene los arrays en filas y los “probesets” en columnas. V.Utiliza los efectos filas estimados del punto 4 como medidas específicas de expresión para cada array.

28 (I) RMA. Ajuste del fondo (1) El método supone que el perfect match depende de una señal y un fondo: PM = Signal + Background siendo –Signal: S ~ exp(λ) y –Background: B ~ N(μ,σ 2 )

29 Densidad de probabilidad de una ley exponencial con pàrámetro alfa=1000 yexp<-dexp(x=1:60000, rate=0.001) plot(1:60000,yexp, t="l", ylim=c(0,0.001), xlab="Signal", ylab="Exponential density; Rate =0.0001")

30 Densidad de probabilidad de una ley normal de media 1000 y variancia 300^2 ynorm<-dnorm(x= :300000, mean=1000,sd=300^2) plot( :300000,ynorm, t="l",xlab="Backgrnd", ylab="f(b)", main="Normal density; mu=1000; sigma=300^2")

31 Densidad combinada de señal + background z<-yexp+ynorm2 plot(1:60000,z, t="l",,xlab="Background+ signal", ylab="f(bck+sig)", main="Combined density: Normal + exponential")

32 (I) RMA: Ajuste del fondo (2) Densidad de la N(0,1) Función de distribución de N(0,1) Estimamos μ, σ, y alfa por separado de cada chip, utilizando la distribución observada de PMs. Introduciendo estos estimadores en la fórmula superior se obtiene un estimador de E(S|PM) para cada valor de PM Éstos serán los valores ajustados para el background.

33 (I) RMA: Ajuste del fondo (y 3) ¿Estimación de μ, σ, y alfa? –Estimamos la moda de la distribución de PM utilizando un estimador de nucleo. –Estimamos la densidad de los valores de PM que se encuentran por debajo de la moda  La moda de esta segunda densidad se toma como estimación de μ. –Suponemos que los datos que quedan a la izquierda de la estimación de μ son los valores del fondo que quedan por debajo de la media  Utilizamos estas observaciones para estimar σ. –Restamos la estimación de μ de todas las observaciones mayores que la estimación. La moda de esta distribución resultante se toma como estimación de alfa

34 Density Estimación de la densidad de PM basada en datos simulados Los datos debajo de la moda se utilizan para estimar los parámetros de fondo, μ y σ.

35 Density Estimación de nucleo de los datos que se encuentran Por debajo de la moda de la distribución de PM Estimación def μ = 1612 Estos datos se utilizan para estimar σ=

36 Density Estimación nucleo de los valoresPM – μ mayores de cero Estimate of 1/λ = 2019 ^ La media de estos valores sería un estimador más adecuado para alfa en este ejemplo (La media vale 9848 y alfa=10000.)

37 (III) RMA: Normalización por cuantiles La idea de este método es forzar la distribución empírica de las intensidades de las pruebas para que sea la misma para cada chip de un experimento. Esta distribución común se obtiene promediando cada cuantil entre chips de la manera siguiente: 1.Tras el ajuste de fondo buscar el mínimo valor log 2 (PM) en cada chip. 2.Promediar los valores del paso 1. 3.Substituir cada valor del paso por el promedio calculado en el paso 2. 4.Repetir los pasos 1 hasta 3 para los segundos valores más pequeños, los terceros más pequeños, … hasta el mayor valor.

38 Diagrama esquemático de la normalización por cuantiles

39

40

41

42 (IV) RMA: Pulido de medianas Dado un probe set con J probe pairs, sea y ij el valor ajustado por el fondo, transformado logaritmicamente y normalizado por quantil del chip i y prueba j. Supongamos y ij = μ i + α j + e ij con α 1 + α α n = 0. Se realiza un pulido de medianas de Tukey sobre la matriz de valores y ij con y ij in la fila i th y la columna j th. Expresión génica del probe set en el chip i Residuos de la j-esima prueba Sobre el chip i-esimo Influencia de la afinidad de las pruebas Por la j-esima prueba del probe set

43 (IV) RMA: Pulido de medianas Sea y ij el valor ajustado de yij que resultará del procedimiento de pulido de medianas. Sea α j = y.j – y.. con y.j =Σ i y ij, y..=Σ i Σ j y ij, ("I" indica el número de chips). Sea μ i = y i. =Σ j y ij / J μ i es la medida de expresión correspondiente a cada probeset para el chip i.

44 An Example Suppose the following are background-adjusted, log 2 -transformed, quantile-normalized PM intensities for a single probe set. Determine the final RMA expression measures for this probe set GeneChip Probe

45 An Example (continued) row medians matrix after removing row medians

46 An Example (continued) column medians matrix after subtracting column medians

47 An Example (continued) row medians matrix after removing row medians

48 An Example (continued) column medians matrix after subtracting column medians

49 An Example (continued) All row medians and column medians are 0. Thus the median polish procedure has converged. This above is the residual matrix that we will subtract from the original matrix to obtain the fitted values.

50 An Example (continued) original matrix residuals from median polish matrix of fitted values row means = μ 1 = μ 2 = μ 3 = μ 4 = μ 5 ^ ^ ^ ^ ^ RMA expression measures for the 5 GeneChips

51 R Commands for Obtaining RMA Expression Measures from Affymetrix.CEL Files # load the affy package. library(affy) #Set the working directory to the directory containing #all the.CEL files. setwd("C:/z/Courses/Smicroarray/AffyCel") #Read the.CEL file data. Data<-ReadAffy() #Compute the RMA measures of expression. expr=rma(Data) #Write the data to a tab-delimited text file. write.exprs(expr, file="mydata.txt")

52 Agradecimientos Esta presentación se ha basado en los artículos originales de Boldstat e Irizarry así como en presentaciones de Ben Boldstat y el documento "RMA explained" (de quien no he localizado la autoría  ) Gracias a todos ellos por hacer accesible su material.