Aprendizaje Automático en Bioinformática

Slides:

Advertisements

Presentaciones similares

ANÁLISIS DE CONGLOMERADOS

Advertisements

Data Mining Minería de Datos Universidad Tecnológica Metropolitana

DATA MINING MINERIA DE DATOS Gersom Costas.

Conceptos preliminares

CONTENIDO DE LA UNIDAD CURRICULAR

Master en Recursos Humanos

Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan

K-NN: K vecinos más cercanos

Dra. Rocío C. Romero Zaliz

COMPONENTIZACIÓN DE ALGORITMOS GENETICOS Y SU IMPLEMENTACIÓN EN UNA PLATAFORMA ABIERTA PARA APRENDIZAJE COMPUTACIONAL.

K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)

Curso de Minería de datos

GeNie GeNie: entorno de desarrollo para la

ANALISIS DE CONGLOMERADOS

VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.

K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)

Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.

Clustering (Agrupamiento)

Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.

La minería de datos en bioinformática

Introducción al Análisis Cluster

Maestría en Tecnologías de la Información

Búsqueda de Aproximaciones: Algoritmos

INTELIGENCIA DE NEGOCIOS

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.

RECONOCIMIETO DE PATRONES

REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA

Análisis Discriminante

Teoría de sistemas de Ecuaciones No lineales

Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".

ANÁLISIS DE CONGLOMERADOS

Mario Francisco, Pastora Vega

Inteligencia artificial

Trabajo del grupo ISG UPV-EHU en clasificación supervisada para DNA microarrays (mayo’00-junio’02) Proyecto Elvira II Albacete, Junio 2002.

Tipos de redes neuronales Perceptrón multicapa Redes de respuesta radial Competitivas Clasificación Mapa topológico.

ANÁLISIS DE LAS ENCUESTAS DE SATISFACCIÓN DE USUARIOS PARA LAS BIBLIOTECAS DE ÁREA DE LA BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA. Ma. Guadalupe Romero.

RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.

Análisis de Conglomerados (Cluster Analysis)

A. Villagra, D. Pandolfi LabTEm: Laboratorio de Tecnologías Emergentes Universidad Nacional de la Patagonia Austral Unidad Académica Caleta Olivia G. Leguizamón.

Combinación de Clasificadores

PARTE I: INTRODUCCIÓN José Hernández Orallo

Redes Competitivas.

EXPERIMENTACIÓN NUMÉRICA

Técnicas Supervisadas Aproximación no paramétrica Reconocimiento de Patrones 2003 Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ.

Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.

Proceso KDD MSc. Carlos Alberto Cobos Lozada

1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.

Intelligent Systems Group U.P.V. / E.H.U. APORTACIONES EN EL SOFTWARE ELVIRA: MAYO’03-MAYO’04 GRUPO ISG, UPV-EHU Donostia, 14-V-2004.

Robótica y Sistemas Autónomos Robótica Inteligente Visión por Computador Redes Bayesianas Procesos de Optimización Redes Neuronales Gráficos por Computador.

Redes Neuronales Artificiales 2 - Aprendizaje

Una introducción a la computación evolutiva

Aprendizaje no Supervisado: Clustering

BioInformática Una nueva ciencia Interdisciplinar Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos.

Introducción al Biclustering

Capa de Red4-1 Capítulo 4: Capa de Red  4. 1 Introducción  4.2 Circuitos virtuales y redes de datagramas  4.3 ¿Qué hay dentro de un router?  4.4 IP:

Introducción al análisis de expresiones

SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.

TRANSFORMACIONES OCURRE UNA TRANSFORMACIÓN CUANDO UN CAMBIO AFECTA LA NATURALEZA DE LAS VARIABLES, DANDO LUGAR A LA APARICIÓN DE NUEVAS Y A LA CONFORMACIÓN.

Taller Europeo de la Red Eureka Investigación en Minería de Datos José C. Riquelme Universidad de Sevilla Granada, 7 y 8 de Julio.

Sistemas Expertos Integrantes Javier Farfán Katherine Jara Héctor Gatica.

DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.

KDD y Técnicas de Minería de Datos en Weka

Septiembre 2009 Mtra. Laura Myriam Franco Sánchez.

Inferencia Estadística Antonio Núñez, ULPGC. Estadística Física/Tecnología y Estadística  Fenómenos, procesos y sistemas macroscópicos  Indeterminación,

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.

NOMBRE: Paula Andrea Bedoya Rojas. GRADO: 7.3. Institución Educativa Debora Arango P.

REDES NEURONALES ARTIFICIALES (SOM - Kohonen)

Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.

Transcripción de la presentación:

Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU Lejona, 12 de noviembre de 2003

Aprendizaje Automático en Bioinformática Esquema Introducción Clustering Clasificación Supervisada Selección de Variables Conclusiones Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática Introducción Gran volumen de datos Problemas de almacenamiento (bases de datos) Problemas de tratamiento de imagen Problemas de optimización Sistemas de ayuda: predicción de enfermedades, descubrimiento de conocimiento Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática Clustering Tenemos caracterizados 50 pacientes, con su expresión génica en 2000 genes Nos interesa: Grupos de pacientes con expresiones génicas parecidas Grupos de genes que se comportan de la misma forma Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática Clustering Objetivo: agrupar objetos en grupos, homogeneidad dentro, heterogeneidad entre Dos técnicas básicas: Clustering particional: k-means (MacQueen, 1967) Clustering jerárquico (McQuitty, 1962) Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática k-means Paso 1: Seleccionar k centroides Paso 2: Asignar cada objeto a agrupar al centroide más cercano Paso 3: Iterar hasta convergencia Paso 3.1: Recalcular los centroides como baricentros de los objetos de cada grupo Paso 3.2: Reasignar cada objeto al centroide más cercano Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática k-means Iteración 0 Iteración 1 Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática k-means Iteración 1 Iteración 2 Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática k-means Iteración 3 Iteración 4 Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico Técnica aglomerativa “Fusiona” objetos de forma sucesiva Definición de distancia entre “superobjetos” Visualización Dendrograma (árbol) Diagrama de Venn Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico Enlace simple (single linkage) La distancia entre dos superobjetos se define como la mínima distancia entre pares de objetos pertenecientes a los mismos x x x O O O O Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico Enlace medio (mean linkage) La distancia entre dos superobjetos se define como la media entre las distancias de todos los pares de objetos cada uno de ellos de distintos superobjetos x x x O O O O Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico Enlace completo (complete linkage) La distancia entre dos superobjetos se define como el máximo entre las distancias de todos los pares de objetos cada uno de ellos de distintos superobjetos x x x O O O O Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática

Clasificación supervisada Objetivo: a partir de unas muestras etiquetadas, ser capaz de etiquetar nuevas muestras 0.7 -0.2 Sano 0.6 0.5 -0.6 0.1 Enfermo -0.9 -0.4 0.4 -0.8 -0.7 0.6 -0.1 ? 0.4 0.2 -0.5 -0.3 -0.8 0.7 0.3 -0.7 Aprendizaje Automático en Bioinformática

Clasificación supervisada Paradigmas clasificatorios Clasificadores Bayesianos Árboles de clasificación K-NN Inducción de reglas Redes neuronales Máquinas de soporte vectorial Aprendizaje Automático en Bioinformática

Clasificación supervisada Criterios de comparación de clasificadores Tasa de acierto Área bajo la curva ROC Complejidad algorítmica del inductor Interpretabilidad del modelo Simplicidad del modelo Aprendizaje Automático en Bioinformática

Clasificación supervisada Clasificadores Bayesianos: naïve Bayes C X1 X2 X3 Xn ... Aprendizaje Automático en Bioinformática

Clasificación supervisada Árboles de clasificación gen_32 < .34 > .34 gen_27 gen_91 > .72 < .72 > .59 < .59 gen_40 gen_98 < .29 > .29 < .63 > .63 sano 25/5 enfermo 3/17 enfermo 4/30 sano 26/2 sano 40/6 enfermo 2/40 Aprendizaje Automático en Bioinformática

Selección de variables Motivación Mejora en el eficacia, eficiencia y rapidez de uso del modelo Mejor comprensibilidad de los datos Variables redundantes, variables irrelevantes Dos tipos de aproximación: Filtrado Envoltura Aprendizaje Automático en Bioinformática

Selección de variables Naïve Bayes Árbol de clasificación K-NN Inducción de reglas noFSS 84.72 86.11 75.00 filter3 90.18 87.50 81.94 filter20 90.28 93.06 80.56 envoltura 95.83 4 100.0 3 97.22 Porcentaje de casos bien clasificados para la base de datos Leukemia (Golub et al., 1999): 7129 genes, 72 casos (25 AML, 47 ALL) (Inza y col., 2003) Aprendizaje Automático en Bioinformática

Aprendizaje Automático en Bioinformática Conclusiones Biología molecular rica en datos Técnicas de aprendizaje automático válidas para: descubrir conocimiento sugerir nuevas hipótesis crear modelos predictivos estudiar la corregulación entre genes resolver problemas de optimización Aprendizaje Automático en Bioinformática