Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU Lejona, 12 de noviembre de 2003
Aprendizaje Automático en Bioinformática Esquema Introducción Clustering Clasificación Supervisada Selección de Variables Conclusiones Aprendizaje Automático en Bioinformática
Aprendizaje Automático en Bioinformática Introducción Gran volumen de datos Problemas de almacenamiento (bases de datos) Problemas de tratamiento de imagen Problemas de optimización Sistemas de ayuda: predicción de enfermedades, descubrimiento de conocimiento Aprendizaje Automático en Bioinformática
Aprendizaje Automático en Bioinformática Clustering Tenemos caracterizados 50 pacientes, con su expresión génica en 2000 genes Nos interesa: Grupos de pacientes con expresiones génicas parecidas Grupos de genes que se comportan de la misma forma Aprendizaje Automático en Bioinformática
Aprendizaje Automático en Bioinformática Clustering Objetivo: agrupar objetos en grupos, homogeneidad dentro, heterogeneidad entre Dos técnicas básicas: Clustering particional: k-means (MacQueen, 1967) Clustering jerárquico (McQuitty, 1962) Aprendizaje Automático en Bioinformática
Aprendizaje Automático en Bioinformática k-means Paso 1: Seleccionar k centroides Paso 2: Asignar cada objeto a agrupar al centroide más cercano Paso 3: Iterar hasta convergencia Paso 3.1: Recalcular los centroides como baricentros de los objetos de cada grupo Paso 3.2: Reasignar cada objeto al centroide más cercano Aprendizaje Automático en Bioinformática
Aprendizaje Automático en Bioinformática k-means Iteración 0 Iteración 1 Aprendizaje Automático en Bioinformática
Aprendizaje Automático en Bioinformática k-means Iteración 1 Iteración 2 Aprendizaje Automático en Bioinformática
Aprendizaje Automático en Bioinformática k-means Iteración 3 Iteración 4 Aprendizaje Automático en Bioinformática
Clustering ascendente jerárquico Técnica aglomerativa “Fusiona” objetos de forma sucesiva Definición de distancia entre “superobjetos” Visualización Dendrograma (árbol) Diagrama de Venn Aprendizaje Automático en Bioinformática
Clustering ascendente jerárquico Enlace simple (single linkage) La distancia entre dos superobjetos se define como la mínima distancia entre pares de objetos pertenecientes a los mismos x x x O O O O Aprendizaje Automático en Bioinformática
Clustering ascendente jerárquico Enlace medio (mean linkage) La distancia entre dos superobjetos se define como la media entre las distancias de todos los pares de objetos cada uno de ellos de distintos superobjetos x x x O O O O Aprendizaje Automático en Bioinformática
Clustering ascendente jerárquico Enlace completo (complete linkage) La distancia entre dos superobjetos se define como el máximo entre las distancias de todos los pares de objetos cada uno de ellos de distintos superobjetos x x x O O O O Aprendizaje Automático en Bioinformática
Aprendizaje Automático en Bioinformática
Clasificación supervisada Objetivo: a partir de unas muestras etiquetadas, ser capaz de etiquetar nuevas muestras 0.7 -0.2 Sano 0.6 0.5 -0.6 0.1 Enfermo -0.9 -0.4 0.4 -0.8 -0.7 0.6 -0.1 ? 0.4 0.2 -0.5 -0.3 -0.8 0.7 0.3 -0.7 Aprendizaje Automático en Bioinformática
Clasificación supervisada Paradigmas clasificatorios Clasificadores Bayesianos Árboles de clasificación K-NN Inducción de reglas Redes neuronales Máquinas de soporte vectorial Aprendizaje Automático en Bioinformática
Clasificación supervisada Criterios de comparación de clasificadores Tasa de acierto Área bajo la curva ROC Complejidad algorítmica del inductor Interpretabilidad del modelo Simplicidad del modelo Aprendizaje Automático en Bioinformática
Clasificación supervisada Clasificadores Bayesianos: naïve Bayes C X1 X2 X3 Xn ... Aprendizaje Automático en Bioinformática
Clasificación supervisada Árboles de clasificación gen_32 < .34 > .34 gen_27 gen_91 > .72 < .72 > .59 < .59 gen_40 gen_98 < .29 > .29 < .63 > .63 sano 25/5 enfermo 3/17 enfermo 4/30 sano 26/2 sano 40/6 enfermo 2/40 Aprendizaje Automático en Bioinformática
Selección de variables Motivación Mejora en el eficacia, eficiencia y rapidez de uso del modelo Mejor comprensibilidad de los datos Variables redundantes, variables irrelevantes Dos tipos de aproximación: Filtrado Envoltura Aprendizaje Automático en Bioinformática
Selección de variables Naïve Bayes Árbol de clasificación K-NN Inducción de reglas noFSS 84.72 86.11 75.00 filter3 90.18 87.50 81.94 filter20 90.28 93.06 80.56 envoltura 95.83 4 100.0 3 97.22 Porcentaje de casos bien clasificados para la base de datos Leukemia (Golub et al., 1999): 7129 genes, 72 casos (25 AML, 47 ALL) (Inza y col., 2003) Aprendizaje Automático en Bioinformática
Aprendizaje Automático en Bioinformática Conclusiones Biología molecular rica en datos Técnicas de aprendizaje automático válidas para: descubrir conocimiento sugerir nuevas hipótesis crear modelos predictivos estudiar la corregulación entre genes resolver problemas de optimización Aprendizaje Automático en Bioinformática