Diana M. Kelmansky Instituto de Cálculo FCEN-UBA

Slides:

Advertisements

Presentaciones similares

MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities scuola.

Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR

1 Datos sobre webloggers Datos extraidos de la encuesta a webloggers disponibles en la web de los autores.

ESTADISTICA A ESTADISTICA A UNMSM - FQIQ

La mediana La mediana es el valor tal que el 50 % de las observaciones son menores y 50 % de ellas son mayores a dicho valor. En otra palabras, la mediana.

Universidad San Martín de Porres

1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.

1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.

1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN EL COMERCIO GALLEGO (Resumen COMERCIO AL DETALLE) Noviembre de 2004.

1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.

1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.

M. Dolores Frías-Navarro

Procesos matemáticos en la enseñanza/aprendizaje de la geometría

TEMA 5.- 1ª PARTE. EL A.O. Y SUS APLICACIONES

TEMA 2 MÚLTIPLOS Y DIVISORES

INTERFERENCIAS y DIFRACCIÓN

02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.

02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.

Respuestas Buscando a Nemo.

ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO

Árboles de decisión Tema 9 Parte teórica Minería de datos

FRANCISCO MARÍN HERRADA

MUESTREO (NAGA´s) BOLETÍN 5020

Aplicaciones de Data Mining en ciencia y tecnología Bioinformática

Métodos Cuantitativos Aplicados a Los Negocios.

Unidad de competencia II Estadística descriptiva:

5 pt 5 pt 5 pt 5 pt 5 pt 10 pt 10 pt 10 pt 10 pt 10 pt 15 pt 15 pt

MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities alimentazione.

1. Apoyo exterior sobre ala inferior de viga de acero

Distribuciones de probabilidad bidimensionales o conjuntas

UPC Tema: ESPACIO VECTORIAL Rn

Repaso del capítulo Primer Paso

50 principios La Agenda 1.- Presentar un único interlocutor a los clientes. 2.- Tratar de modo distinto a las diferentes clases de clientes. 3.- Saber.

Parte 3. Descripción del código de una función 1.

Capítulo 4 Vocabulario y Gramática 1

Introducción a los Números Fraccionarios

EL OSO APRENDIZ Y SUS AMIGOS

AACS Correcto muestreo de suelos Ing. Agr. Pablo Marasas

CARLOS RAMON VIDAL TOVAR

1 SEGUNDO FORO REGIONAL HERMOSILLO, SON Sistema Nacional de Transparencia Fiscalización y Rendición de Cuentas:

50 principios 1. Los clientes asumen el mando.

1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.

Ecuaciones Cuadráticas

3 Enero 2010 PERÚ: IV CENSO NACIONAL ECONÓMICO, APURÍMAC.

CÁLCULOS ESTEQUIOMÉTRICOS

¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.

1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt El vocabularioMe.

0 1 ¿Qué hora es? By: Craig Tillmann Revised by: Malinda Seger Coppell High School Coppell, TX.

La transformada de Laplace

¿Quién? ¿Qué? ¿Dónde? ¿Cuándo? ¿Cómo? ¿Por qué?

MSc. Lucía Osuna Wendehake

Calendario 2009 “Imágenes variadas” Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2009.

Agrupamiento de relaciones no lineales entre expresiones de genes

Realimentacion de la salida

¿Cómo analizar los datos crudos de microarrays?

Estadística: Errores y omisiones

SUCESIONES Y PROGRESIONES.

Señales y sistemas de tiempo discreto

Manual de Procedimientos Procedimiento de ejecución del programa de

1 8 de febrero del Chapter 5 Encoding 3 Figure 5-1 Different Conversion Schemes.

ESTADIGRAFOS DE DISPERSION

Introducción al Análisis Cluster

FUNDAMENTOS DE CALIDAD EN LA GESTIÓN PÚBLICA

Simulacion de sistemas dinamicos

Población y Muestra.

Medidas de expresión para microarrays de Affimetrix.

TRANSCRIPTOMICA & PROTEOMICA

Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E.

Técnicas para el estudio de expresión de genes

Transcripción de la presentación:

Diana M. Kelmansky Instituto de Cálculo FCEN-UBA Experimentos de Microarreglos: desde la biología molecular a la estadística Diana M. Kelmansky Instituto de Cálculo FCEN-UBA

¿Qué son los microarreglos? Microarreglos: pequeños soportes sólidos sobre los que se inmobilizan ó pegan, miles de secuencias de diferentes genes, en posiciones fijas ordenadas

Workshop on Robustness and Statistical Inference Dos tecnologías Delivery Synthesis arrays chips Workshop on Robustness and Statistical Inference Madrid October 4-5 2006

spotted: oligonucleotidos (oligos) son “espoteados” –spotted- directamente sobre el arreglo síntesis directa base por base: los oligonucleótidos se fabrican in situ utilizando métodos tales como fotolitografía (ej. Affymetrix chips) o síntesis química (ej., ink-jet Agilent) ?????????????????????????????????

Portaobjeto y cabezal de impresión - print head

http://www. stat. berkeley http://www.stat.berkeley.edu/~sandrine/Docs/Talks/MBI04/Lects/lect1MarrayTech.pdf

Un segmento de un spot de un microarreglo - las hebras son las moléculas de ADN depositadas - figura tomada de (Duggan et al., Nature Genetics 21: 10-14, 1999)

Objetivo: Identificar genes expresados diferencialmente Cambios en la abundancia de: genes expresados: mRNA – arreglo de transcriptomas ADN genomico entre condiciones diferentes

¡Grandes Esperanzas! Datos obtenidos en PubMed Schena M,et al. Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science (1995)

¡Grandes Esperanzas! Mark Schena Microarray Analysis – Wiley 2003 Al final de la introducción: “Fifty years from now, and long after human disease has been eradicated, we will look back incredulously at the start of this millennium and wonder how we ever endured cancer, heart disease, AIDS and thousands of other illnesses that compromise our well-being”

¿De qué se trata todo esto? ¿Cómo está relacionado con estadística? Comencemos

Expresión de un gen Casi todas las células de nuestro cuerpo contienen un conjunto completo de cromosomas y genes idénticos. Sólo una fracción de estos genes están “encendidos” . Este subconjunto, que está “expresado”, le confiere propiedades específicas a cada tipo de célula. "Gene expression“ . Términos utilizados para describir la transcripción de la información contenida dentro de los cromosomas en moléculas de ARN mensajero. Luego estas son traducidas a las proteinas que realizan principales funciones de las células

Adenina Timina Guanina Citosina

ROSALIND FRANKLIN la fotógrafa del ADN Francis Crick, James Watson y Maurice Wilkins -modelo del ADN 1953- en base al trabajo de Rosalind Franklin como bióloga molecular y cristalógrafa Murió de cáncer en 1958 con 37 años Premio Nobel de Medicina -1962-

Transcripción

Dogma central de la biología molecular Doble cadena de ADN  transcripción o expresión Simple cadena de ARNm   traducción Proteína Microarreglo       

¿Cómo funciona un microarreglo? Utiliza la capacidad de las moléculas de ARNm de adherirse específicamente, o hibridar a su cadena complementaria de ADN cADN probe ...AAAAAGCTAGTCGATGCTAG... ARN target ...UUUUUCGAUCAGCUACGAUC...

Al finalizar el experimento tenemos two color spotted microarray un microarreglo de dos colores

Datos Imagen superpuesta de un sector de un Microarreglo con colores artificiales ¿Cuáles son los datos en un experimento de microarreglos ? Archivos tiff de las imágenes digitales escaneadas Una para cada color La intensidad de cada pixel representa la abundancia del gen transcripto en el sitio correspondiente del arreglo Procesamiento de la imagen Datos Crudos

Imperfecciones de los spots

Redondeamos – microarrays de dos canales- ARNm tejido patógeno de hígado cADN etiqueta fluorescente (label) (Cy5) reverse ARNm tejido sano de hígado cADN etiqueta fluorescente (label) (Cy3) transcription Hibridice igual cantidad de mARN para cada muestra sobre el microarreglo Lave el microarray para eliminar pegado inespecífico - unspecific binding. Escanee el microarray con longitudes de onda diferentes para exitar a cada uno de los tintes 2 imágenes digitales, una para el fluor Cy3 y la otra para el Cy5 representan las intensidades para cada una de las muestras en el estudio  datos crudos pixel por pixel Señal de fluorescencia “Promedio” para cada gen = nivel de expresión del gen + otros estadísticos      datos iniciales gen por gen Este experimento tiene muchos errores sistemáticos y aleatorios

MA-plot Diagrama de dispersión (Scatter plot) de M = log2 ( Xred / Xgreen ) = log2 ( Xred ) - log2 ( Xgreen ) versus A = (log2 ( Xred ) + log2 ( Xgreen )) / 2 Intensidad

Experimento SELF-SELF ideal MA plot MXY plot

Sesgo dependiente de la intensidad Experimento SELF-SELF real MA plot MXY plot Sesgo dependiente de la intensidad sesgo espacial

Objetivo: Identificación de genes expresados diferencialmente Requiere múltiples tests con un nivel global razonable (false discovery rate)

Algunos aspectos estadísticos de los experimentos y análisis de datos de microarrays Diseño. El diseño del experimento afecta la validez y la eficiencia de los resultados. “In other contexts, and possibly in these, the results have been driven by study inadequacies rather than by biology. Beware! (T. Speed 2005)”

Algunos aspectos estadísticos de los experimentos y análisis de datos de microarrays Preprocesamiento. análisis de imágen cuantificación de los “spots”: distinguir las intensidades del foreground de las del background y los artifacts. Medidas resumen. normalización - control del sesgo dentro y entre microarreglos, transformaciones de los datos.

Algunos aspectos estadísticos de los experimentos y análisis de datos de microarrays Inferencia. Procedimientos de tests simultáneos Multiple testing procedures. Generalmente respecto a qué genes están expresados diferencialmente.

Algunos aspectos estadísticos de los experimentos y análisis de datos de microarrays Clustering y discriminación (llamados Clasificación por “microarray biologists”). Clases (categorías, etiquetas): pueden ser muestras ( 1 - cientos) o genes . (10000 - 40000)

Clustering y discriminación - cont Clases desconocidas – clasificación no supervisada: cluster analysis por los estadísticos, unsupervised learning por los computadores científicos class discovery por biólogos de microarreglos.

Clustering y discriminación - cont Clases definidas de antemano – clasificación supervisada - supervised classification – sobre por lo menos una parte de los datos: Los objetivos incluyen describir diferencias entre clases y/o clasificar observaciones fututas. Llamadas clasificación o discriminación y class prediction por microarray biologists. Los datos para los que las clases son conocidas forman el llamado training o learning set, aquellos datos cuyas clases no son utilizadas pero conocidas forman el test set. También se utiliza Allocation para describir la asignación de clases a los nuevos datos. Estas distinciones no son universales.

A) Diseño. Consenso 1: La replicación biologica es indispensable. Pueden realizarse dos tipos de replicaciones replicación técnica: el ARNm de un único caso biológico es utilizado en múltiples microarreglos replicaciones biológicas: se extrae ARNm de diferentes sujetos

A) Diseño. Consenso 2: Es necesario aumentar la potencia mediante el tamaño de la muestra. Deben realizarse análisis de potencia: Aplicando estimaciones específicas para experimentos de microarrays Más replicaciones proveen mayor potencia. No hay concenso respecto de cuales procedimientos para hallar el tamaño de la muestra son los mejores.

A) Diseño. Consenso 3: “Pooling” muestras biologicas puede ser útil. La variabilidad entre arreglos puede ser reducida “pooling” ARNm de replicaciones biológicas. Por ejemplo: 15 casos divididos en 5 pools de 3, cada pool corrido en un array por separado tendrá: más potencia que 5 casos corridos an arreglos diferentes menos potencia que cuando los 15 casos son corridos en arregos diferentes

A) Diseño. Consenso 3: “Pooling” muestras biologicas puede ser útil A) Diseño. Consenso 3: “Pooling” muestras biologicas puede ser útil. Cont Sin embargo: Pooling ARN de n casos y creando n replicaciones técnicas no es una estrategia mejor que hibridizar n arrays a las n muestras individuales de RNA: Problema potencial: el ‘poisoned pool’, un outlier puede arruinar los resultados.

A) Diseño. Consenso 4: Evite los factores de confusión - confounding Las mediciones de Microarrays pueden estar muy influenciadas por factores externos. Por ejemplo: Si dos tratamientos son aplicados a dos grupos de pacientes cuando los factores externos no están totalmente balanceados entre los grupos esto puede confundir el estudio y llevar a conclusiones falsas. (Confounding – epidemiología) Los arreglos deberían provenir de un únco lote y procesados en el mismo día por el mismo técnico. Analizar la misma cantidad de muestras de los dos grupos en estudio y aleatorizar los casos a los niveles de estos factores (lotes de arreglos, técnicos, día)

B) Preprocesamiento Análisis de la imagen. Hay diferentes propuestas, fundamentalmente en la distinción entre las intensidades del forward y el backward – segmentation. Normalization. Diversos procedimientos para permitir las comparaciones entre los arreglos.

C) Inferencia . Consenso Solo fold change |M| > k, no es adecuado Mi = log2(Ri/Gi) Utilice un estadístico que incorpore la variabilidad t = Use “variance shrinkage” Use métodos de estimación del FDR en las comparaciones múltiples

D) Classificación Consenso 1 La clasificación no supervisada se utiliza en exceso. Es una de las primeras técnicas estadísticas utilizadas en el análisis de microarrays y es una de las preferidas. El investigador tiene garantizada la obtención de un agrupamiento (clustering) de genes, sin importar el tamaño de la muestra, la calidad de los datos, el diseño del experimento o cualquier otra validez biológica que esté asociada con el agrupamiento.

D) Clasificación Consenso 1. Cont. Clasificación no supervisada, debería ser validada utilizando procedimientos basados en re-muestreo (resampling-based procedures). Si la clasificación no supervisada es inevitable, debería proveerse algún tipo de medida de reproducibilidad. Aquellos procedimientos que re-muestrean a nivel de caso – más que a nivel de gen- todos tienen una performance razonable y ninguno es considerado el mejor.

D) Classificación Consenso 2 Los procedimientos de clasificación supervisada requieren cross-validación independiente. Las reglas de predicción están basadas en una cantidad relativamente pequeña de muestras de distintos tejidos de tipos conocidos que contienen los datos de expresión de muchos (posiblemente miles) de genes. Problemas posibles: sobreajuste (overfitting), sesgo de selección (selection bias)

Estudios futuros Microarray data analysis: from disarray to consolidation and consensus Allison D, Cui X, Page G, Sabripour M (2006) Nature Reviews | Genetics Vol 7 Jan Sugieren estudiar If and how the vast number of genes assayed in microarray experiments could be used to partially compensate for small sample sizes when using resampling-based inference. For all statistical procedures, the fact that transcripts are not necessarily independent (co-regulation) should be considered.

MÁS ESTADÍSTICA Semilinear High-Dimensional Model for Normalization of Microarray Data: A Theoretical Analysis and Partial Consistency (2005) Fan J, Peng H, Huang T. JASA, vol. 100, no. 471, pp. 781-796. With discussion. “All of the discussants call for more statistical understanding of various procedures in use. We agree whole heartedly with this and contribute the article under discussion in the hope that it will stimulate more statisticians to work on this area.”

¿Cuántos incluyen análisis estadístico? ¿Recuerdan? ¿Cuántos incluyen análisis estadístico?

Algunas referencias A Model Based Background Adjustement for Oligonucleotide Expression Arrays. Wu Z, Irizarry RA, Gentleman R, Martinez Murillo F, Spencer F (2004) JASA, 99, 909-917. Semilinear High-Dimensional Model for Normalization of Microarray Data: A Theoretical Analysis and Partial Consistency (2005) Fan J, Peng H, Huang T. JASA, vol. 100, no. 471, pp. 781-796 Selection bias in gene extraction on the basis of microarray gene-expression data. Ambroise C, McLachlan G (2002) PNAS Prediction by Supervised Principal Components. Bair E, Hastie T, Paul D, Tibshirani T (2006) JASA, vol. 101, no. 473, pp. 119-137 Microarray data analysis: from disarray to consolidation and consensus Allison D, Cui X, Page G, Sabripour M (2006) Nature Reviews | Genetics Vol 7 Jan

¡MUCHAS GRACIAS!