Aplicaciones de Data Mining en ciencia y tecnología Bioinformática

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

MÉTODOS Y DISEÑOS DE INVESTIGACIÓN METODOLOGÍAS DE INVESTIGACIÓN
Evaluar el efecto de un tratamiento (1)
EXPERIMENTACION.
DISEÑO DE EXPERIMENTOS
Aplicaciones de Data Mining en ciencia y tecnología Ontologias. 2
Aplicaciones de Data Mining en ciencia y tecnología Ontologias. 1
ESTADISTICA INFERENCIAL
HAZ CLIC SIEMPRE PARA CONTINUAR
Pronósticos, Series de Tiempo y Regresión
MÉTODO CIENTÍFICO.
Estadística: -Correlación y regresión
JPEG/JPG Integrantes:
COMPONENTIZACIÓN DE ALGORITMOS GENETICOS Y SU IMPLEMENTACIÓN EN UNA PLATAFORMA ABIERTA PARA APRENDIZAJE COMPUTACIONAL.
PARTE II CAPÍTULO 17 METODOLOGÍA DEL ADN RECOMBINANTE
Curso 2006/07 S. Ramírez de la Piscina Millán U.D. Técnicas Experimentales Departamento de Física y Química Aplicadas a la Técnica Aeronáutica Técnicas.
Regresión Lineal y Regresión Polinomial
Diseño de investigación exploratoria. Investigación cualitativa
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC)
Regresión y correlación
¿Cómo analizar los datos crudos de microarrays?
Bioestadística Aplicada I
Diseño de experimentos
Spline cúbico natural (B-spline) usando cuantiles Se elige un “array blanco”(“array basal”), v Intensidad blanco: i: spot, j: array, m: nº de arrays X.
Redes Múltiples Redes Sociales: Conceptos Básicos IV.
Tema 2: Métodos de ajuste
Control estadístico de Proceso
ANALISIS DE DATOS CON EXCEL
Regresión lineal. Definición del problema Evaluar la capacidad explicativa de un conjunto de características socio demográficas que inciden en los ingresos.
Medidas de expresión para microarrays de Affimetrix.
Autores: Ing. Federico Solari Mg. Ing. Raúl Astori
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Lorena Oliveros Vargas Andrés C Méndez A Jerson J. Basto
(Organización y Manejo de Archivos)
Detectores de Borde. Extracción de Características Detección de Líneas. Detección de Puntos de Borde. Detección de Contornos.
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
Departamento de Física
Análisis de Varianza (I)
Elaboración de gráficas
Métodos de calibración: regresión y correlación
Titular: Agustín Salvia
Capacidad de Proceso.
Análisis de Covarianza
ESTADISTICA LABORAL Relaciones Laborales Facultad de Derecho 2008
Análisis de la Varianza
Métodos para secuenciar el ARN
Concepto Según la estrategia de medidas repetidas, las unidades son observadas a lo largo de una serie reducida de intervalos de tiempo u ocasiones.
Regresión lineal simple
INTRODUCCIÓN INTRODUCCIÓN.
CO-2124 Análisis de Varianza con Un Criterio de Clasificación En clases anteriores se deseaba determinar si existían diferencias entre las medias de dos.
Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E.
¿Chips o micromatrices?  No es lo mismo
¿QUE ES EL MÉTODO CIENTÍFICO?
1 Introducción al tratamiento de datos © José Luís Contreras.
Regresión Lineal Simple
Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente.
Variables estadísticas bidimensionales
Reconocimiento de cara basado en “espectrocara”
La escala
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
Supuestos en el análisis de regresión
DISEÑO Y ANALISIS DE EXPERIMENTOS DISEÑOS 2 A LA K CON PUNTOS CENTRALES.
SESIÓN 14 El análisis de datos en el enfoque cuantitativo.
Técnicas para el estudio de expresión de genes
ANÁLISIS DE COVARIANZA En algunas circunstancias, un experimento está afectado por la intervención de un factor muchas veces imprevisible y que no puede.
Centre for Microcomputer Aplications CMA. Introducción Un estudiante en 1940 en una clase ciencias 2013 Estudiantes en una clases de ciencias.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Anclaje Angel Villalón Brian Litwak Gabriel Navós Introducción a la Neurociencia Cognitiva y Computacional (FCEN – UBA)
Tratamiento estadístico de datos
Transcripción de la presentación:

Aplicaciones de Data Mining en ciencia y tecnología Bioinformática Estudios de expresión génica con microarrays Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Expresión diferencial de genes frente a dos tratamientos … gen 3 gen 4 gen n Tratamiento 2 gen 1 gen 2 … gen 3 gen 4 gen n Comparación tratamiento 1 vs. tratamiento 2 … Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Utilizando microarrays se puede analizar la expresión relativa de miles de genes simultáneamente Una animación sobre experimentos con microarrays: http://www.bio.davidson.edu/Courses/genomics/chip/chip.html Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Puntos importantes (1/2) Un microarray es un soporte sólido, por ejemplo, un vidrio de 8 x 2,5 cm. Sobre el soporte se diseña una grilla, con tantos números de celdas como genes se van a analizar, más duplicados y controles Sobre cada celda de la grilla se pegan moléculas de ADN complementarias del gen a analizar Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Puntos importantes (2/2) Se realizan los experimentos, se extrae ARNm y después de varios pasos químicos, se agrega el material procesado a los microarrays Se escanea el microarray iluminando con uno o dos láseres de diferentes colores, se procesan las imágenes Se extraen los datos de expresión de la imágen Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Experimentos con microarrays. Esquema de trabajo hipótesis diseño experimental experimento análisis de imágenes pre-procesamiento normalización estimación filtrado agrupamiento análisis enriquecimiento funcional análisis de vias metabólicas integración de los datos Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

procesamiento de imágenes Los spots se distribuyen en grillas, cada grilla se corresponde con uno de los probes (o genes) a analizar. A veces las grillas no están bien alineadas entre sí. Puede haber curvaturas dentro de una grilla El espaciado entre los spots puede ser desigual un microarray escaneado Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

procesamiento de imágenes Cualquiera sea el tipo de microarray que utilicemos, tenemos que convertir los pixels de la imagen escaneada del microarray en información de expresión escaneado (uno o dos canales)‏ manipulación del contraste estimación preliminar de los centros de los spots eliminar artefactos determinar la localización precisa del spot determinar la forma y tamaño del spot estimar el background Dependiendo del tipo de microarray y de la plataforma, esto proceso puede ser más o menos automatizado Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Estrategia de un experimento con un microarray de cDNA El análisis de expresión con un chip de Affymetrix Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

normalización Es una colección de métodos para tratar con los errores sistemáticos y los sesgos introducidos por la plataforma experimental utilizada Etapas Limpieza de los datos y transformación Normalización dentro del array (para arrays de 2 canales)‏ Normalización entre arrays Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

normalización 1. Limpieza de los datos y transformación Remover spots marcados en el paso anterior Sustracción del background Aplicar logaritmos Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

normalización 2. Normalización dentro del array (para arrays de 2 canales)‏ Posibles problemas: Las marcas con Cy3 y Cy5 se incorporan diferencialmente Los fluorógenos pueden tener diferentes respuestas de emisión a diferentes abundancias Las emisiones pueden ser medidas diferencialmente a distintas intensidades Problemas de enfoque Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

normalización Soluciones (1/2): Regresión lineal de Cy5 contra Cy3: Graficar los logaritmos de las intensidades Ajustar una recta de regresión Reemplazar los valores de Cy3 con los valores ajustados Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Ajustar una recta de regresión normalización Soluciones (2/2): Gráficos MA Graficar para cada spot en el eje x el promedio de los logaritmos de Cy3 y Cy5. Y en el eje y la diferencia entre los logaritmos de los dos canales. Ajustar una recta de regresión Recalcular la diferencia de logaritmos restando el valor ajustado a la diferencia cruda Regresión no-lineal de las diferencias de logaritmos (Regresión Loess)‏ Realizar un gráfico MA Aplicar la regresión Loess Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

normalización A veces es necesario corregir diferencias de intensidad que varían espacialmente sobre el microarray, en ese caso se pueden aplicar regresiones Loess bidimensionales La causa de esto son las diferencias entre bloques de spots Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

normalización 3. Normalización entre arrays Antes de hacer comparaciones entre distintos microarrays tenemos que analizar y eliminar las diferencias entre arrays debidas, por ejemplo, a diferencias entre las reacciones de hibridación que ocurrieron en cada uno. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

normalización Soluciones Realizar un gráfico Box-Plot conjunto para todos los arrays del experimento, para ver diferencias en variabilidad y en valores medios. Asumiendo que las diferencias no tienen origen biológico se puede: Escalar los datos: restarle a cada valor de logaritmos (o log-ratio), la media de su microarrray. Centrarlos: restar la media y dividir por el desvío estándar Normalizar la distribución: 1) ordenar los datos por array de mayor a menor. 2) calcular una nueva distribución, el primer dato es el promedio de los más altos; el segundo, el promedio de los segundos más altos, y así sucesivamente.3) Reemplazar cada medida en cada array con el promedio de la distribución calculada en 3). Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN