Introducción al Biclustering

Slides:



Advertisements
Presentaciones similares
ALGORITMOS GENETICOS EVOLUCIÓN DE UNA POBLACIÓN DE
Advertisements

INTEGRANTES Aguilar Pastor, Sara Blancas Tunqui, Alicia
Introducción al análisis de la varianza
Variable Aleatoria Continua. Principales Distribuciones
Pronósticos, Series de Tiempo y Regresión
TEORÍA GENERAL DE SISTEMAS
Departamento de Sistemas Informáticos y Programación Universidad Complutense de Madrid Bloque 1: Introducción Unidad 5: Matemáticas necesarias.
KRIGING.
Contraste de Hipótesis ETSITGC Madrid Unidad Docente de Matemáticas.
MODELO DE REGRESIÓN MÚLTIPLE
MATRICES.
Determinantes Determinantes de segundo orden
Algoritmos Aleatorizados
DETERMINANTES DE UNA MATRIZ
Capitulo 10: La metodología Box-Jenkins
Tema 3. Optimización de Código
Álgebra Lineal – Escuela Superior de Ingeniería de Bilbao – UPV/EHU
Desarrollo de una Metodología Basada en Lógica Difusa para Evaluar la Sustentabilidad de Tecnologías de Generación Eléctrica Cecilia Martín del Campo,
Estadística Descriptiva: 4. Correlación y Regresión Lineal
DETERMINANTES Autora: Mª Soledad Vega Fernández
Análisis de supervivencia Tema 5 Itziar Aretxaga.
Inferencia Estadística
FUNCIONES, MATRICES Y DETERMINANTES
Población y Muestra.
CONTRASTE Y VALIDACIÓN DE UN MODELO
Medidas de expresión para microarrays de Affimetrix.
Análisis y Diseño de Algoritmos. Propiedades : f ( n )  O ( f ( n ) ) a ) O ( f ( n ) )  O ( g ( n ) )  f ( n )  g ( n )
Predicción: Aproximación intuitiva. La actividad de predicción es un fenómeno inherente a la condición humana y permanentemente estamos realizando predicciones.
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
Capacidad de Proceso.
Parte I. Estructuras de Datos.
El fenómeno de difracción
Escalabilidad en los Algoritmos de Aprendizaje de Redes Bayesianas ISL – Dpto de Informática – UCLM - Albacete.
Matrices y Determinantes
Aprendizaje no Supervisado: Clustering
BioInformática Una nueva ciencia Interdisciplinar Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos.
Índice: Introducción Conceptos básicos Procesos elementales
Parte I. Estructuras de Datos.
Regresión lineal múltiple
Aprendizaje No Supervisado y Redes de Kohonen
Nieves Ábalos Serrano Mª Teresa Jiménez Ramírez
Departamento de Sistemas Informáticos y Programación Universidad Complutense de Madrid Bloque 2: Divide y Vencerás Unidad 1: Nociones básicas.
CO-2124 Análisis de Varianza con Un Criterio de Clasificación En clases anteriores se deseaba determinar si existían diferencias entre las medias de dos.
JUAN LUIS CHAMIZO BLÁZQUEZ
TEMA 5: El problema del flujo con costo mínimo
Investigación Algorítmica ChasquiSoft. Integrantes Contreras Ames, Roy Carlos Gaspar Calle, Ronald Urlich Ames, Rafael Paredes.
MATRICES.
FACTORIZACION.
III UNIDAD MATRICES.
Matemáticas U3- 3.2, 3.3.
MATRICES Y DETERMINANTES
Aplicaciones Estadísticas a las Finanzas Clase 1
TEMA 1 Sistemas de ecuaciones lineales
Ing. Uziel Quiroz Castañeda Blanca Esthela Carranza Ortega 8º Semestre Junio/2013.
MENORES Y COFACTORES.
Distribuciones de Probabilidad
75.41 Algoritmos y Programación II Cátedra Ing. Patricia Calvo Complejidad algorítmica.
Investigación Algorítmica ChasquiSoft. Integrantes Contreras Ames, Roy Carlos Gaspar Calle, Ronald Urlich Ames, Rafael Paredes.
Unidad 2 Matrices.
6. Sistemas de ecuaciones diferenciales lineales
Diseño: Mtro Domingo Villavicencio Aguilar
UPC DETERMINANTES TÓPICOS DE MÁTEMATICA 1 MA112 EPE Tema :
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.

ALGEBRA CON VECTORES Y MATRICES Uso de MatLab.
Teoría de la Generalizabilidad
Conclusiones: En este trabajo se ha demostrado que se pueden aplicar los algoritmos OCH al ajuste de los parámetros de un modelo borroso mediante la discretización.
Profesora: Milagros Coraspe Realizado por: Almérida, Gissell C.I.: Valladares, Angélica C.I.: Universidad De Oriente Núcleo Monagas.
Transcripción de la presentación:

Introducción al Biclustering Domingo Savio Rodríguez Baena Bioinformatics Research Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad de Sevilla

CLUSTERING vs BICLUSTERING Objetivos Clustering: crear conjunto de elementos los cuales tengan alguna característica común. Crear conjuntos de genes según su expresión bajo condiciones experimentales. Crear conjuntos de condiciones según la expresión de los genes de un genoma. PROBLEMA: el Clustering solo actúa bajo una dimensión. LOS EXPERIMENTOS DEMUESTRAN QUE: en muchas ocasiones, un subconjunto de genes se co-expresan bajo un subconjunto de condiciones experimentales, mientras que con respecto a otras condiciones se pueden comportar de forma independiente.

BICLUSTERING Objetivo: buscar un subconjunto de genes que se co-expresen bajo un subconjunto de condiciones  SUBMATRIZ.

Clasificación Técnicas Biclustering Clasificación según varios criterios: Tipo de biclusters que se puede encontrar Estructura de los biclusters Tipo de técnica algorítmica Tipo de evaluación de los resultados Ámbito de aplicación

BICLUSTERING Hay distintos tipos de Biclusters:  FORMADO POR VALORES CONSTANTES

BICLUSTERING  FORMADO POR VALORES CONSTANTES EN FILAS O COLUMNAS:

BICLUSTERING  FORMADO POR VALORES COHERENTES: Modelo aditivo Modelo multiplicativo

BICLUSTERING  FORMADO POR VALORES DE EVOLUCIÓN COHERENTE:

BICLUSTERING Nuestro objetivo puede variar en función de la estructura que queramos encontrar:

TÉCNICAS DE BICLUSTERING Existen técnicas muy variadas: - Divide y Vencerás. - Combinación de Clustering sobre filas y columnas - Búsqueda voraz iterativa - Búsqueda exhaustiva - Identificación de parámetros de distribución - Búsqueda estocástica Divide y vencerás: A la hora de resolver un problema de gran dificultad una de las iniciativas más utilizadas, no solo en programación sino en la mayoría de los ámbitos, consiste en dividir ese problema complejo en una serie de sub-problemas más sencillos. El proceso de división finaliza cuando ya no es posible aplicar ninguna división más. Una vez solucionados estos sub-problemas, las distintas soluciones son combinadas para obtener la solución al problema original Combinación de Clustering sobre filas y columnas: Tal y como hemos visto a lo largo de este estudio, el Biclustering es una técnica derivada del Clustering. Por lo cual, lo más lógico para poder afrontar una agrupación bidimensional de los datos de una matriz es aplicar las originales técnicas de Clustering a cada una de las dimensiones, filas y columnas, para después combinar los resultados. Esta es una de las primeras formas utilizadas para obtener biclusters y la conceptualmente más sencilla u obvia. Búsqueda voraz iterativa: A esta clases de algoritmos (Greddy Algorithms) corresponden aquellos métodos que intentan obtener biclusters de la manera más rápida y simple posible. Para ello, aplican una meta-heurística basada en la maximización de criterios locales. Es decir, intentan simplificar la búsqueda tomando decisiones locales con la esperanza de encontrar la solución óptima global. Es decir, se pierde calidad de resultados pero se gana sencillez y velocidad a la hora de resolver los problemas. Búsqueda exhaustiva: Algunos autores prefieren basar su búsqueda de biclusters en una enumeración exhaustiva de todas las posibles sub-matrices existentes en la matriz de datos. Por supuesto, se encuentran mejores resultados que en los dos tipos anteriores ya que se revisan todos los posibles biclusters. A pesar de todo, existe una gran desventaja: el gran coste computacional que supone este tipo de métodos. Para solucionar este problema ,muchas son las técnicas que añaden restricciones para reducir el espacio de búsqueda. Identificación de parámetros de distribución: Existen técnicas que se ayudan de la estadística en determinadas fases de sus procesos de búsqueda. Sin embargo, hay algoritmos de Biclustering en los que la estadística es su arma principal. En este tipo de investigaciones se intenta aproximar el concepto de bicluster a partir de un modelo estadístico. Por consiguiente, el objetivo más importante será el encontrar los parámetros de distribución necesarios para generar las submatrices que se ajusten a dicho modelo estadístico. En la mayoría de los casos, será un proceso iterativo, en el que se intenta minimizar un determinado criterio, el encargado de encontrar el valor de esos parámetros Búsqueda estocástica: Ultimamente se están aplicando técnicas de búsqueda de biclusters relacionadas más directamente con la biología. Los algoritmos genéticos se encuadran dentro de la clase de algoritmos que presentan ciertas analogías con los procesos biológicos de la naturaleza. Dentro de este campo, nos encontramos con la Computación Evolutiva, que es un enfoque alternativo para abordar problemas complejos de búsqueda y aprendizaje a través de modelos computacionales de procesos evolutivos. Las implementaciones concretas de tales modelos se conocen como algoritmos evolutivos. El propósito genérico de los algoritmos evolutivos consiste en guiar una búsqueda estocástica haciendo evolucionar a un conjunto de estructuras y seleccionando de modo iterativo las más adecuadas. Se define proceso estocástico como aquel proceso aleatorio que evoluciona con el tiempo. De esta manera, e imitando los procesos de selección natural de los seres vivos, estas técnicas utilizan procesos sencillos, fáciles de implementar e independientes de las distintas representaciones de datos, para encontrar un objetivo concreto, que en nuestro caso será el de encontrar biclusters válidos en una matriz de entrada. La búsqueda estocástica además es una manera de superar los problemas de localidad de ciertos algoritmos voraces, como el utilizado por Cheng y Church,

Cheng & Church Primer algoritmo, propiamente dicho, de Biclustering. Y. Cheng and G. Church. Biclustering of expression data. In Proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology (ISMB’00), pages 93–103, 2000. Primer algoritmo, propiamente dicho, de Biclustering. Parten de la suposición de que para que un subgrupo de genes y condiciones sea un bicluster, sus valores han de evolucionar al unísono, y esta característica estaba representada por un valor estadístico: The Mean Squared Residue (MSR). Técnica de búsqueda voraz iterativa.

Cheng & Church. Definiciones I En una submatriz matriz A el residuo de un elemento aij es definido como: Donde: = nivel de expresión del gen i en la condición j = media de la fila i = media de la fila j = media de los elementos de A

Cheng & Church. Definiciones II El Mean Squared Residue de una submatriz (I,J) es: Este valor global H nos indica cómo se interrelacionan los datos de la matriz, es decir, si existe alguna coherencia en la evolución de sus valores o son aleatorios. Un valor alto de H significa que los datos no están correlacionados. Un valor bajo de H implica que la matriz está correlacionada. Si H(I,J)= 0 significaría que los datos de la matriz fluctúan al unísono.

1 2 3 4 5 6 7 8 9 10 11 12 Cheng & Church. Ejemplo I Matrix (M) Avg. = 6.5 1 2 3 4 5 6 7 8 9 10 11 12 R(1) = 1- 2 - 5.4 + 6.5 = 0.1 R(2) = 2 - 2 - 6.4 + 6.5 = 0.1 : : R(12) = 12 - 11 -7.4 + 6.5 = 0.1 Col Avg. 5.4 6.4 7.4 H (M) = (0.01x12)/12 = 0.01 Si el 5 fuera reemplazado por 3, entonces la puntuación cambiaría a: H(M2) = 2.06 Si la matriz fuera generada aleatóriamente, entonces la puntuación sería aproximádamente: H(M3) = sqr(12-1)/12 = 10.08

Cheng & Church. Ejemplo II

Cheng & Church. Ejemplo III

Cheng & Church. Algoritmo I Parámetros de entrada: - Valor umbral de residuo, δ. - Coeficiente de borrado múltiple, α. - Número de biclusters a generar. - Rango para la generación de números aleatorios. Pre-procesamiento de los datos: los huecos se rellenan con números aleatorios

Cheng & Church. Algoritmo II Algoritmo iterativo formado por tres fases: Fase 1): Borrado múltiple de nodos: se borran todas aquellas filas y columnas cuyo valor de MSR sea mayor que α * δ. Fase 2): Borrado simple de nodos: se borra la fila o columna con el mayor valor de MSR. Fase 3): Adición de nodos: se añaden aquellas filas o columnas cuyo MSR sea menor que δ. Al finalizar, se genera un solo bicluster. Para crear el siguiente, se sustituye el bicluster encontrado por números aleatorios en la matriz de entrada y a empezar de nuevo.

Cheng & Church. Algoritmo III

PROBLEMAS MSR I Efectos posibles en el comportamiento de los genes: SHIFTING PATTERN

PROBLEMAS MSR II SCALING PATTERN.

J. Aguilar. Shifting and scaling patterns from gene expression data J. Aguilar. Shifting and scaling patterns from gene expression data. Bioinformatics, 21:3840–3845, 2005. En este trabajo se demuestra de forma matemática que el residuo de Cheng y Church es altamente dependiente de la varianza del factor de escalado, lo que hace posible que un algoritmo basado en el MSR no tenga en cuenta este fenómeno cuando la varianza de los valores de expresión de los genes es demasiado alta.

PROBLEMÁTICA BICLUSTERING  No existe una metodología clara para detectar los patrones de comportamiento en las bases de datos de expresión genética.  Las bases de datos son voluminosas.  Gran complejidad del problema planteado.  Métodos de evaluación de los biclusters obtenidos.

APLICACIONES BICLUSTERING EXPRESION GENETICA ANTE SUSTANCIAS TOXICAS DIAGNOSTICO DE ENFERMEDADES ESTUDIO DE ENFERMEDADES GENETICAS COMPLEJAS FISIOLOGIA CELULAR DETECTAR POLIMORFISMOS Y MUTACIONES COMPORTAMIENTO DE LA CELULA ANTE FARMACOS ESTUDIO DE LA EXPRESION GENETICA EN EL DESARROLLO …

FIN