Aprendizaje Automático en Bioinformática

Slides:



Advertisements
Presentaciones similares
ANÁLISIS DE CONGLOMERADOS
Advertisements

Data Mining Minería de Datos Universidad Tecnológica Metropolitana
DATA MINING MINERIA DE DATOS Gersom Costas.
Conceptos preliminares
CONTENIDO DE LA UNIDAD CURRICULAR
Master en Recursos Humanos
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
K-NN: K vecinos más cercanos
Dra. Rocío C. Romero Zaliz
COMPONENTIZACIÓN DE ALGORITMOS GENETICOS Y SU IMPLEMENTACIÓN EN UNA PLATAFORMA ABIERTA PARA APRENDIZAJE COMPUTACIONAL.
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
Curso de Minería de datos
GeNie GeNie: entorno de desarrollo para la
ANALISIS DE CONGLOMERADOS
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.
Clustering (Agrupamiento)
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
La minería de datos en bioinformática
Introducción al Análisis Cluster
Maestría en Tecnologías de la Información
Búsqueda de Aproximaciones: Algoritmos
INTELIGENCIA DE NEGOCIOS
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
RECONOCIMIETO DE PATRONES
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Análisis Discriminante
Teoría de sistemas de Ecuaciones No lineales
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Weka.
ANÁLISIS DE CONGLOMERADOS
Mario Francisco, Pastora Vega
Inteligencia artificial
Trabajo del grupo ISG UPV-EHU en clasificación supervisada para DNA microarrays (mayo’00-junio’02) Proyecto Elvira II Albacete, Junio 2002.
Tipos de redes neuronales Perceptrón multicapa Redes de respuesta radial Competitivas Clasificación Mapa topológico.
ANÁLISIS DE LAS ENCUESTAS DE SATISFACCIÓN DE USUARIOS PARA LAS BIBLIOTECAS DE ÁREA DE LA BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA. Ma. Guadalupe Romero.
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
Análisis de Conglomerados (Cluster Analysis)
A. Villagra, D. Pandolfi LabTEm: Laboratorio de Tecnologías Emergentes Universidad Nacional de la Patagonia Austral Unidad Académica Caleta Olivia G. Leguizamón.
Combinación de Clasificadores
PARTE I: INTRODUCCIÓN José Hernández Orallo
Redes Competitivas.
EXPERIMENTACIÓN NUMÉRICA
Técnicas Supervisadas Aproximación no paramétrica Reconocimiento de Patrones 2003 Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ.
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
Proceso KDD MSc. Carlos Alberto Cobos Lozada
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Intelligent Systems Group U.P.V. / E.H.U. APORTACIONES EN EL SOFTWARE ELVIRA: MAYO’03-MAYO’04 GRUPO ISG, UPV-EHU Donostia, 14-V-2004.
Robótica y Sistemas Autónomos Robótica Inteligente Visión por Computador Redes Bayesianas Procesos de Optimización Redes Neuronales Gráficos por Computador.
Redes Neuronales Artificiales 2 - Aprendizaje
Una introducción a la computación evolutiva
Aprendizaje no Supervisado: Clustering
BioInformática Una nueva ciencia Interdisciplinar Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos.
Introducción al Biclustering
Capa de Red4-1 Capítulo 4: Capa de Red  4. 1 Introducción  4.2 Circuitos virtuales y redes de datagramas  4.3 ¿Qué hay dentro de un router?  4.4 IP:
Introducción al análisis de expresiones
SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
TRANSFORMACIONES OCURRE UNA TRANSFORMACIÓN CUANDO UN CAMBIO AFECTA LA NATURALEZA DE LAS VARIABLES, DANDO LUGAR A LA APARICIÓN DE NUEVAS Y A LA CONFORMACIÓN.
Taller Europeo de la Red Eureka Investigación en Minería de Datos José C. Riquelme Universidad de Sevilla Granada, 7 y 8 de Julio.
Sistemas Expertos Integrantes Javier Farfán Katherine Jara Héctor Gatica.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
KDD y Técnicas de Minería de Datos en Weka
Septiembre 2009 Mtra. Laura Myriam Franco Sánchez.
Inferencia Estadística Antonio Núñez, ULPGC. Estadística Física/Tecnología y Estadística  Fenómenos, procesos y sistemas macroscópicos  Indeterminación,
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
NOMBRE: Paula Andrea Bedoya Rojas. GRADO: 7.3. Institución Educativa Debora Arango P.
REDES NEURONALES ARTIFICIALES (SOM - Kohonen)
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU Lejona, 12 de noviembre de 2003

Aprendizaje Automático en Bioinformática Esquema Introducción Clustering Clasificación Supervisada Selección de Variables Conclusiones Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática Introducción Gran volumen de datos Problemas de almacenamiento (bases de datos) Problemas de tratamiento de imagen Problemas de optimización Sistemas de ayuda: predicción de enfermedades, descubrimiento de conocimiento Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática Clustering Tenemos caracterizados 50 pacientes, con su expresión génica en 2000 genes Nos interesa: Grupos de pacientes con expresiones génicas parecidas Grupos de genes que se comportan de la misma forma Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática Clustering Objetivo: agrupar objetos en grupos, homogeneidad dentro, heterogeneidad entre Dos técnicas básicas: Clustering particional: k-means (MacQueen, 1967) Clustering jerárquico (McQuitty, 1962) Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática k-means Paso 1: Seleccionar k centroides Paso 2: Asignar cada objeto a agrupar al centroide más cercano Paso 3: Iterar hasta convergencia Paso 3.1: Recalcular los centroides como baricentros de los objetos de cada grupo Paso 3.2: Reasignar cada objeto al centroide más cercano Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática k-means Iteración 0 Iteración 1 Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática k-means Iteración 1 Iteración 2 Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática k-means Iteración 3 Iteración 4 Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico Técnica aglomerativa “Fusiona” objetos de forma sucesiva Definición de distancia entre “superobjetos” Visualización Dendrograma (árbol) Diagrama de Venn Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico Enlace simple (single linkage) La distancia entre dos superobjetos se define como la mínima distancia entre pares de objetos pertenecientes a los mismos x x x O O O O Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico Enlace medio (mean linkage) La distancia entre dos superobjetos se define como la media entre las distancias de todos los pares de objetos cada uno de ellos de distintos superobjetos x x x O O O O Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico Enlace completo (complete linkage) La distancia entre dos superobjetos se define como el máximo entre las distancias de todos los pares de objetos cada uno de ellos de distintos superobjetos x x x O O O O Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática

Clasificación supervisada Objetivo: a partir de unas muestras etiquetadas, ser capaz de etiquetar nuevas muestras 0.7 -0.2 Sano 0.6 0.5 -0.6 0.1 Enfermo -0.9 -0.4 0.4 -0.8 -0.7 0.6 -0.1 ? 0.4 0.2 -0.5 -0.3 -0.8 0.7 0.3 -0.7 Aprendizaje Automático en Bioinformática

Clasificación supervisada Paradigmas clasificatorios Clasificadores Bayesianos Árboles de clasificación K-NN Inducción de reglas Redes neuronales Máquinas de soporte vectorial Aprendizaje Automático en Bioinformática

Clasificación supervisada Criterios de comparación de clasificadores Tasa de acierto Área bajo la curva ROC Complejidad algorítmica del inductor Interpretabilidad del modelo Simplicidad del modelo Aprendizaje Automático en Bioinformática

Clasificación supervisada Clasificadores Bayesianos: naïve Bayes C X1 X2 X3 Xn ... Aprendizaje Automático en Bioinformática

Clasificación supervisada Árboles de clasificación gen_32 < .34 > .34 gen_27 gen_91 > .72 < .72 > .59 < .59 gen_40 gen_98 < .29 > .29 < .63 > .63 sano 25/5 enfermo 3/17 enfermo 4/30 sano 26/2 sano 40/6 enfermo 2/40 Aprendizaje Automático en Bioinformática

Selección de variables Motivación Mejora en el eficacia, eficiencia y rapidez de uso del modelo Mejor comprensibilidad de los datos Variables redundantes, variables irrelevantes Dos tipos de aproximación: Filtrado Envoltura Aprendizaje Automático en Bioinformática

Selección de variables Naïve Bayes Árbol de clasificación K-NN Inducción de reglas noFSS 84.72 86.11 75.00 filter3 90.18 87.50 81.94 filter20 90.28 93.06 80.56 envoltura 95.83 4 100.0 3 97.22 Porcentaje de casos bien clasificados para la base de datos Leukemia (Golub et al., 1999): 7129 genes, 72 casos (25 AML, 47 ALL) (Inza y col., 2003) Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática Conclusiones Biología molecular rica en datos Técnicas de aprendizaje automático válidas para: descubrir conocimiento sugerir nuevas hipótesis crear modelos predictivos estudiar la corregulación entre genes resolver problemas de optimización Aprendizaje Automático en Bioinformática