La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Aprendizaje Automático en Bioinformática

Presentaciones similares


Presentación del tema: "Aprendizaje Automático en Bioinformática"— Transcripción de la presentación:

1 Aprendizaje Automático en Bioinformática
Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU Lejona, 12 de noviembre de 2003

2 Aprendizaje Automático en Bioinformática
Esquema Introducción Clustering Clasificación Supervisada Selección de Variables Conclusiones Aprendizaje Automático en Bioinformática

3 Aprendizaje Automático en Bioinformática
Introducción Gran volumen de datos Problemas de almacenamiento (bases de datos) Problemas de tratamiento de imagen Problemas de optimización Sistemas de ayuda: predicción de enfermedades, descubrimiento de conocimiento Aprendizaje Automático en Bioinformática

4 Aprendizaje Automático en Bioinformática
Clustering Tenemos caracterizados 50 pacientes, con su expresión génica en 2000 genes Nos interesa: Grupos de pacientes con expresiones génicas parecidas Grupos de genes que se comportan de la misma forma Aprendizaje Automático en Bioinformática

5 Aprendizaje Automático en Bioinformática
Clustering Objetivo: agrupar objetos en grupos, homogeneidad dentro, heterogeneidad entre Dos técnicas básicas: Clustering particional: k-means (MacQueen, 1967) Clustering jerárquico (McQuitty, 1962) Aprendizaje Automático en Bioinformática

6 Aprendizaje Automático en Bioinformática
k-means Paso 1: Seleccionar k centroides Paso 2: Asignar cada objeto a agrupar al centroide más cercano Paso 3: Iterar hasta convergencia Paso 3.1: Recalcular los centroides como baricentros de los objetos de cada grupo Paso 3.2: Reasignar cada objeto al centroide más cercano Aprendizaje Automático en Bioinformática

7 Aprendizaje Automático en Bioinformática
k-means Iteración Iteración 1 Aprendizaje Automático en Bioinformática

8 Aprendizaje Automático en Bioinformática
k-means Iteración Iteración 2 Aprendizaje Automático en Bioinformática

9 Aprendizaje Automático en Bioinformática
k-means Iteración Iteración 4 Aprendizaje Automático en Bioinformática

10 Clustering ascendente jerárquico
Técnica aglomerativa “Fusiona” objetos de forma sucesiva Definición de distancia entre “superobjetos” Visualización Dendrograma (árbol) Diagrama de Venn Aprendizaje Automático en Bioinformática

11 Clustering ascendente jerárquico
Enlace simple (single linkage) La distancia entre dos superobjetos se define como la mínima distancia entre pares de objetos pertenecientes a los mismos x x x O O O O Aprendizaje Automático en Bioinformática

12 Clustering ascendente jerárquico
Enlace medio (mean linkage) La distancia entre dos superobjetos se define como la media entre las distancias de todos los pares de objetos cada uno de ellos de distintos superobjetos x x x O O O O Aprendizaje Automático en Bioinformática

13 Clustering ascendente jerárquico
Enlace completo (complete linkage) La distancia entre dos superobjetos se define como el máximo entre las distancias de todos los pares de objetos cada uno de ellos de distintos superobjetos x x x O O O O Aprendizaje Automático en Bioinformática

14 Aprendizaje Automático en Bioinformática

15 Clasificación supervisada
Objetivo: a partir de unas muestras etiquetadas, ser capaz de etiquetar nuevas muestras 0.7 -0.2 Sano 0.6 0.5 -0.6 0.1 Enfermo -0.9 -0.4 0.4 -0.8 -0.7 0.6 -0.1 ? 0.4 0.2 -0.5 -0.3 -0.8 0.7 0.3 -0.7 Aprendizaje Automático en Bioinformática

16 Clasificación supervisada
Paradigmas clasificatorios Clasificadores Bayesianos Árboles de clasificación K-NN Inducción de reglas Redes neuronales Máquinas de soporte vectorial Aprendizaje Automático en Bioinformática

17 Clasificación supervisada
Criterios de comparación de clasificadores Tasa de acierto Área bajo la curva ROC Complejidad algorítmica del inductor Interpretabilidad del modelo Simplicidad del modelo Aprendizaje Automático en Bioinformática

18 Clasificación supervisada
Clasificadores Bayesianos: naïve Bayes C X X X Xn ... Aprendizaje Automático en Bioinformática

19 Clasificación supervisada
Árboles de clasificación gen_32 < .34 > .34 gen_27 gen_91 > .72 < .72 > .59 < .59 gen_40 gen_98 < .29 > .29 < .63 > .63 sano 25/5 enfermo 3/17 enfermo 4/30 sano 26/2 sano 40/6 enfermo 2/40 Aprendizaje Automático en Bioinformática

20 Selección de variables
Motivación Mejora en el eficacia, eficiencia y rapidez de uso del modelo Mejor comprensibilidad de los datos Variables redundantes, variables irrelevantes Dos tipos de aproximación: Filtrado Envoltura Aprendizaje Automático en Bioinformática

21 Selección de variables
Naïve Bayes Árbol de clasificación K-NN Inducción de reglas noFSS 84.72 86.11 75.00 filter3 90.18 87.50 81.94 filter20 90.28 93.06 80.56 envoltura 95.83 4 100.0 3 97.22 Porcentaje de casos bien clasificados para la base de datos Leukemia (Golub et al., 1999): 7129 genes, 72 casos (25 AML, 47 ALL) (Inza y col., 2003) Aprendizaje Automático en Bioinformática

22 Aprendizaje Automático en Bioinformática
Conclusiones Biología molecular rica en datos Técnicas de aprendizaje automático válidas para: descubrir conocimiento sugerir nuevas hipótesis crear modelos predictivos estudiar la corregulación entre genes resolver problemas de optimización Aprendizaje Automático en Bioinformática


Descargar ppt "Aprendizaje Automático en Bioinformática"

Presentaciones similares


Anuncios Google