Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E.

Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E. Raftery January 2005

Método: Diagrama de Flujo Aplicación automática de una grilla Suma de las intensidades para cada pixel. Clustering de pixels con, a lo sumo, 3 grupos Encontrar componentes de cada cluster conectados espacialmente Umbral de componentes conectados por tamaño: menor o igual a 100 pixels Un grupo? Foreground: componente conectado más brillante Background: componente conectado más oscuro El spot es un blanco, Foreground: background Background: media del grupo No Si

Aplicación Automática de una Grilla Identificar la ubicación de cada spot. Para ubicar los spots, no se necesita encontrar los centros, sino los bordes del target mask, es decir, el rectángulo que contiene al spot. Siempre que el rectángulo contenga sólo los pixels de un único spot, el target mask es válido. El algoritmo es: Sumar las intensidades de los pixels en cada fila y en cada columna. Determinar el mínimo local de la suma de las intensidades utilizando una ventana deslizable con un paso aproximadamente igual al ancho de un spot típico. Los únicos parámetros a especificar son: el número de spots en cada fila o columna, y el tamaño de la ventana deslizable.

Aplicación Automática de una Grilla

Columnas Filas Aplicación Automática de una Grilla

Clustering de Pixels basado en el Modelo El nivel de expresión de un gen es proporcional a las intensidades de los pixels de un spot. Los pixels de un artefacto, como ser un “scratch”, tendrán intensidades distintas a los del background o foreground. En clustering basado en el modelo, los datos de intensidades se consideran como provenientes de una mezcla de densidades: Para un número fijo de clusters, K, los parámetros pueden estimarse utilizando el algoritmo EM del clustering jerárquico basado en el modelo.

Clustering de Pixels basado en el Modelo El número de clusters, K, puede estimarse maximizando el Criterio de Información de Bayes (BIC). Para combinar las señales de dos canales, se suman las intensidades roja y verde. En la mayoría de los casos se espera que el número de grupos, K, sea a lo sumo 3. Utilizamos el BIC para determinar el K, pero restringimos las posibles opciones a K menor o igual a 3. K = 1, no hay spot, es un blanco. K = 2, hay un spot y el background. K = 3, hay un spot, un artefacto o agujero interno y background.

Extracción del Componente Conectado Espacialmente Los artefactos, por lo general, se encuentran en grupos pequeños inconexos. Por este motivo, establecer una tamaño límite de componentes conectados en un cluster permite identificar clusters formados por artefactos. Para dividir a los clusters en componentes conectados espacialmente, se utiliza el procedimiento de etiquetado de los 4 componentes vecinos conectados (4-neighbor connected component labeling procedure). Por defecto, sólo se conservan los componentes conectados con un tamaño mayor a los 100 pixels, que representa la sexta parte del tamaño típico de un spot. Los clusters más brillantes y más oscuros que pasen el tamaño límite se clasifican como foreground y background, respectivamente. Si sólo un cluster pasa el tamaño límite, se concluye que no hay spot y que esa ubicación está en blanco.

Estimación de la Intensidad La estimación de la intensidad del foreground en el canal Cy3 es el promedio de los pixels en el cluster foreground. Lo mismo ocurre para el canal foreground Cy5, donde los mismos pixels están en el cluster para ambos canales. Las intensidades del background para los dos canales se estiman de la misma manera. Cuando se identifican 3 clusters, el cluster intermedio también se descarta, pues generalmente consiste en pixels “sospechosos, como por ej., un agujero interno, un artefacto, o un borde difuso. La señal estimada es: I s = I f – I b, donde I f e I b son las intensidades medias del foreground y background, respectivamente. La señal verdad es siempre >0, pero ocasionalmente, la señal estimada puede ser < 0. En este caso se asume que la intensidad verdadera es pequeña pero positiva, y se setea I s como el 5 to percentil de las señales del spot en el arreglo.

Estabilidad entre Replicados La estabilidad en la estimación de las intensidades se evalúa como la variación en el estimador del logaritmo del cociente, l = log 2 I 1 / I 2, sobre los replicados, donde y son los estimadores de las señales de los canales 1 y 2, respectivamente. La estabilidad se mide como la suma de las diferencias al cuadrado, según: donde N = número total de spots en el arreglo. R = número total de réplicas l i,r = log-cociente del i-ésimo spot en el r-ésimo replicado = promedio de los log-cocientes dentro de todos los replicados para el i-ésimo spot. Si no se logra identificar un foreground, I 1 / I 2 = 1

Software Se utiliza el paquete spotSegmentation del lenguaje R, que consiste en dos funciones básicas. La primera: spotgrid: determina rectángulos dentro de los arreglos de cDNA en los cuales se ubican los spots. - Aplica un grillado al arreglo, separando los spots individuales. -Toma como datos a las intensidades de los dos canales, los números de filas y columnas de spots en el arreglo. - La salida da las ubicaciones de filas y columnas que definen una grilla que separa los spots individuales. - Tiene la opción de mostrar la grilla superpuesta sobre la imagen.

Software La segunda: spotseg : determina las señales foreground y background dentro de los spots. -Segmenta los spots individuales. - Toma como datos a las intensidades de los dos canales, los delimitadores de filas y columnas de los spots dentro de un bloque. - La media y mediana de las intensidades de los pixels del foreground y background para cada canal y cada spot, puede recuperarse mediante la función summary aplicada a la salida de spotseg. - La función spotseg requiere el paquete MCLUST para la fase de clustering. El paquete spotSegmentation está disponible por BioConductor.

Discusión Se describió un método de dos pasos para segmentar imágenes de microarreglos y estimar intensidades: clustering de intensidades de pixels basado en el modelo, y extracción de componentes conectados espacialmente. El método provee los principios de la base estadística para determinar si un gen se expresa o no en un spot, y por lo tanto, encara a spots blancos. También maneja efectivamente los spots con forma de donuts, con agujeros internos y con artefactos. En experimentos replicados se lograron resultados más estables que la segmentación por círculo fijo o por forma variable, sin introducir sesgo apreciable en los niveles de expresión estimados de los genes expresados diferencialmente. Antes de utilizar el método es necesario realizar un grillado automático. Cualquier grillado es aplicable pero el propuesto es más simple.

Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E.

Presentaciones similares

Presentación del tema: "Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E.

Presentaciones similares

Presentación del tema: "Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback