Un método alternativo para la construcción de árboles de decisión

Slides:

Advertisements

Presentaciones similares

Data Mining Minería de Datos Universidad Tecnológica Metropolitana

Advertisements

Jacqueline Chávez Cuzcano

DATA MINING MINERIA DE DATOS Gersom Costas.

TECNICATURA UNIVERSITARIA EN INFORMATICA

Algoritmos de Minería Los métodos básicos.

PROCESO Y MODELOS EN LA INGENIERIA DE SOFTWARE

Herramientas para la Investigación

La web semántica y su impacto en la recuperación de información

Razonamiento Explícito y Experimentación en la Algoritmia

TMiner Data Mining en Java

Presentación del estado del arte

Versión 2004 Enrique Bañuelos Gómez

Inteligencia Artificial Adquisición automática del conocimiento

DISEÑO DE LA MUESTRA ¿Para qué necesitamos recolectar datos?

M.S.C. Ivette Hernández Dávila

Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –

I Taller sobre Desarrollo de Software Dirigido por Modelos, MDA y Aplicaciones (DSDM'04) MDA Aplicado: Una Gramática de Grafos para la Transformación de.

PROGRAMACIÓN LÓGICA.

INTELIGENCIA DE NEGOCIOS

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.

Taller de Base de Datos Búsqueda de Reglas de Asociación Agrawal, Imielinski, Swami. “Mining Association Rules Between Sets for items in Large Databases”,

SEMANA Introducción.

Aprendizaje Automatizado

Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".

UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO

Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.

Viviana Poblete López Módulo: Modelo de Datos

Business Intelligence y Data Mining

Las etapas de un proyecto

Técnicas Supervisadas Aproximación no paramétrica

Aprendizaje Automatizado Ár boles de Clasificación.

Reconocimiento de Formas en Data Mining

Combinación de Clasificadores

PARTE I: INTRODUCCIÓN José Hernández Orallo

Proceso KDD MSc. Carlos Alberto Cobos Lozada

Programación Lineal Entera Antonio H. Escobar Z Universidad Tecnológica de Pereira – Colombia Posgrado en Ingeniería Maestría en Ingeniería Eléctrica.

Aprendizaje en Árboles de Decisión

Diseño: Fundamento y Documentación ISF5501 Ingeniería de Software Semana 13/2.

CARPLATE Reconocimiento del marco de la matrícula de un coche

Escalabilidad en los Algoritmos de Aprendizaje de Redes Bayesianas ISL – Dpto de Informática – UCLM - Albacete.

CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS

Importancia en la efectividad del:

SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.

Métrica v2.1 Técnicas: Modelado de datos (Parte 1)

Sistemas Expertos Integrantes Javier Farfán Katherine Jara Héctor Gatica.

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.

DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.

KDD y Técnicas de Minería de Datos en Weka

DISEÑO CURRICULAR Presentado por: Cesar Augusto Sáenz María Alejandra Hernández 1.contenidos curriculares de competencia.

RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ INF-252.

Taller: Inteligencia Computacional

Actividades en el Proceso de desarrollo de Software

Ingeniería del Software I

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.

Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.

INTRODUCCION AL DESARROLLO DE PROYECTO SOFTWARE. ¿Qué es software? Elemento lógico del sistema.

Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.

Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.

Planificación de Sistemas de Información

Ing. Ernesto Sierraalta Fundamentos de Desarrollo de Proyectos de Inteligencia de Negocios ( Decision Support Systems & Data Warehousing.

Objetivos de la prueba Los objetivos principales de realizar una prueba son: Detectar un error. Tener un buen caso de prueba, es decir que tenga más probabilidad.

Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.

Entorno de Recomendación para el Desarrollo de Objetos de Aprendizaje Manuel E. Prieto Universidad de Castilla-La Mancha, España Victor H. Menéndez Universidad.

Extracción de conocimiento a partir de Recursos Digitales para el Aprendizaje Mtro. Alfredo Zapata González Escuela Superior de Informática.

TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.

Una propuesta metodológica para el desarrollo de plataformas de educación a distancia que incorporen estilos de aprendizaje Pedro Salcedo L M. Angélica.

Conclusiones: En este trabajo se ha demostrado que se pueden aplicar los algoritmos OCH al ajuste de los parámetros de un modelo borroso mediante la discretización.

Transcripción de la presentación:

Un método alternativo para la construcción de árboles de decisión ART Un método alternativo para la construcción de árboles de decisión Doctorando: Fernando Berzal Galiano Director: Dr. Juan Carlos Cubero Talavera

Resultado del aprendizaje Introducción Aprendizaje en Inteligencia Artificial Programas/sistemas autónomos. Sistemas de ayuda a la decisión. Resultado del aprendizaje MODELO Funciones: descripción y/o predicción. Construcción: manual o automática. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Aplicaciones Capacidad de adaptarse a nuevas situaciones y resolver nuevos problemas. No volver a cometer los mismos errores: Realizar la misma tarea a partir de la misma posición de un modo más efectivo. MODELOS Construcción manual: Entrevistas con expertos Paradoja de la Ingeniería del Conocimiento Cuanto mejor es el experto, peor describe su conocimiento Ley de Hiram Si se consultan suficientes expertos, se puede confirmar cualquier opinión Construcción automática: Información registrada (casos de entrenamiento) FUNCIONES Comprender mejor los datos de los que disponemos. Aplicar el modelo en nuevas situaciones (previamente desconocidas).

Introducción Objetivo Conseguir modelos de clasificación simples, inteligibles y robustos de una forma eficiente y escalable. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Aprendizaje automático correcto  Recopilación de datos Grandes cantidades de datos Desarrollo de técnicas eficientes Data Mining & KDD Resulta relativamente fácil recopilar grandes cantidades de datos. Sin embargo, las técnicas tradicionalmente utilizadas en Inteligencia Artificial no resultan adecuadas por ser ineficientes y poco escalables. La necesidad de trabajar eficientemente con grandes conjuntos de datos ha dado lugar al desarrollo de las técnicas de Data Mining KDD: extracción no trivial de información potencialmente útil a partir de un gran volumen de datos en el cual la información está implícita (aunque no se conoce).

[Association Rule Trees] Introducción Inducción de árboles de decisión + Extracción de reglas de asociación = ART [Association Rule Trees] Los desarrollos más provechosos han surgido siempre donde se encontraron dos formas de pensar diferentes. Heisenberg Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Filosofía Combinar las mejores cualidades de distintas técnicas Solución: Combinar la simplicidad conceptual de los árboles de decisión con la flexibilidad que ofrecen otras técnicas de inducción de reglas. El modelo de clasificación ART se caracteriza por dotar de mayor flexibilidad a las técnicas tradicionales de construcción de árboles de decisión, al permitir la utilización simultánea de varios atributos para ramificar el árbol de decisión y agrupar en una rama ‘else’ las ramas del árbol menos interesantes a la hora de clasificar datos, sin descuidar por ello cuestiones relativas a la eficiencia del proceso de aprendizaje. Para lograr dicho propósito se emplean técnicas de extracción de reglas de asociación que nos permiten formular hipótesis complejas de una forma eficiente y métodos de discretización que nos ofrecen la posibilidad de trabajar en dominios continuos. NOTA: Mencionar listas de decisión

Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones

Propedéutica Árboles de decisión Enseñanza preparatoria para el estudio de una disciplina D.R.A.E. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Árboles de decisión Inducción de reglas y listas de decisión Reglas de asociación

Árboles de decisión Representación del conocimiento: Árbol Propedéutica Árboles de decisión Representación del conocimiento: Árbol Nodo internos  Preguntas Nodos hoja  Decisiones Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Funcionamiento: Partiendo de la raíz del árbol de decisión, cada caso es dirigido hacia una u otra rama de acuerdo con los valores de sus atributos hasta llegar a una hoja, etiquetada con la clase que se le asigna al caso. Modelo de clasificación más popular Nodos internos con tantos hijos como respuestas a la pregunta que contienen Nodos hoja etiquetados con una de las clases del problema Funcionamiento análogo al de una aguja de ferrocarril

[Top-Down Induction on Decision Trees] Propedéutica > Árboles de decisión Construcción Algoritmos TDIDT [Top-Down Induction on Decision Trees] Estrategia “divide y vencerás” para la construcción recursiva del árbol de decisión de forma descendente. Reglas de división Reglas de parada Reglas de poda Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones HOJA (etiquetada con la clase más común) Nodo puro No encontramos ninguna forma de seguir ramificando el árbol Se cumple alguna condición de parada (regla de parada) Conjunto vacío  Información adicional (vg. C4.5 opta por la clase más frecuente en el nodo padre). NODO INTERNO: Cuando en el conjunto de entrenamiento hay casos de distintas clases, éste se divide en subconjuntos. Utilizando los casos de entrenamiento disponibles, hemos de seleccionar una pregunta para ramificar el árbol de decisión. Dicha pregunta, basada en los valores que toman los atributos predictivos en el conjunto de entrenamiento, ha de tener dos o más respuestas alternativas mutuamente excluyentes Ri. De todas las posibles alternativas, se selecciona una empleando una regla heur´ýstica a la que se denomina regla de división. El árbol de decisión resultante consiste en un nodo que identifica la pregunta realizada del cual cuelgan tantos hijos como respuestas alternativas existan. El mismo método utilizado para el nodo se utiliza recursivamente para construir los subárboles correspondientes a cada hijo del nodo, teniendo en cuenta que al hijo Hi se le asigna el subconjunto de casos de entrenamiento correspondientes a la alternativa Ri. Reglas de parada: Pureza del nodo, cota de profundidad, umbral de soporte Reglas de poda: Poda por coste-complejidad (CART), poda pesimista (C4.5) Justificación: La presencia de ruido ocasiona la generación de árboles de decisión que sobreajustan los datos del conjunto de entrenamiento.

Propedéutica > Árboles de decisión Reglas de división Criterios heurísticos para evaluar la bondad de una partición p.ej. Medidas de impureza Ganancia de información (ID3) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Reglas de división Criterio de proporción de ganancia (C4.5) Propedéutica > Árboles de decisión Reglas de división Criterio de proporción de ganancia (C4.5) Índice de diversidad de Gini (CART) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Reglas de división Otros criterios Propedéutica > Árboles de decisión Reglas de división Otros criterios Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Reglas de división Alternativas de formulación más simple MAXDIF Propedéutica > Árboles de decisión Reglas de división Alternativas de formulación más simple MAXDIF Índice Generalizado de Gini Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Reglas de división Propedéutica > Árboles de decisión Pese a su sencillez, MAXDIF y el Índice Generalizado de Gini obtienen resultados satisfactorios en la práctica. Las distintas reglas de división propuestas mejoran marginalmente la precisión de los árboles de decisión y lo hacen sólo en situaciones concretas.  Berzal, Cubero, Cuenca & Martín-Bautista “On the quest for easy-to-understand splitting rules” Data & Knowledge Engineering, 2002 Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Emplear reglas como bloque de construcción de clasificadores Propedéutica Inducción de reglas IDEA Emplear reglas como bloque de construcción de clasificadores Una regla (del tipo IF-THEN) divide el dominio del problema en aquellos casos que satisfacen la regla y aquéllos que no Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones PASO DE ÁRBOLES A REGLAS vs. OBTENCIÓN DIRECTA DE LAS REGLAS Estrategia de búsqueda dirigida (variante de la búsqueda primero el mejor)

Ejemplos Metodología STAR Listas de decisión Propedéutica > Inducción de reglas Ejemplos Metodología STAR Aprendizaje incremental de expresiones lógicas en forma normal disyuntiva para describir conceptos Listas de decisión Lista ordenada de reglas if ... then ... else if ... else ... Estrategia “separa y vencerás” Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones AQ: Semilla (dependencia respecto al orden de presentación de los ejemplos) CN2: Combinar la eficiencia de los algoritmos TDIDT con la flexibilidad de la familia AQ (sin semilla) FOIL: Lógica de Primer Orden (algoritmo Greedy de búsqueda, función de evaluación similar a la de ID3 y criterio de parada basado en el principio MDL de Rissanen) CWS: Reordena el orden en que se realizan las operaciones para mejorar el rendimiento de los algoritmos. Se entrelaza la construcción del conjunto completo de reglas en vez de construir el modelo añadiendo reglas una a una.

Reglas de asociación Item k-itemset Propedéutica En bases de datos transaccionales: Artículo involucrado en una transacción. En bases de datos relacionales: Par (atributo, valor) k-itemset Conjunto de k items Soporte de un itemset (support) soporte(I) = P(I) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Soporte: Fracción de transacciones en la BD que contienen el itemset.

Reglas de asociación Regla de asociación X  Y Propedéutica Soporte de una regla de asociación soporte(XY) = soporte(XUY) = P(XUY) Confianza de una regla de asociación confianza(XY) = soporte(XUY) / soporte(X) = P(Y|X) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones REGLAS: X e Y son itemsets de intersección vacía Soporte: Fracción de transacciones en la BD que contienen el itemset. Confianza: Proporción de transacciones, que, conteniendo X, también incluyen Y.

Clasificadores Propedéutica > Reglas de asociación Modelos de clasificación parcial vg: Bayardo Modelos de clasificación “asociativos” vg: CBA (Liu et al.) Clasificadores bayesianos vg: LB (Meretakis et al.) Patrones emergentes vg: CAEP (Dong et al.) Árboles de reglas vg: Wang et al. Reglas generales con excepciones vg: Liu et al. Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Modelos de clasificación asociativos: selección de reglas

Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones

El modelo ART Presentación Construcción del clasificador ART Ejemplo Uso del clasificador ART Propiedades del clasificador ART Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

ART = Association Rule Tree Reglas de asociación + Ramas “else” El modelo ART Presentación IDEA Aprovechar la eficiencia de los algoritmos de extracción de reglas de asociación para construir un modelo de clasificación en forma de árbol de decisión. ART = Association Rule Tree CLAVE Reglas de asociación + Ramas “else” Híbrido árbol de decisión – lista de decisión Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones vs Liu et al.: En vez de utilizar reglas generales y excepciones, se emplean ramas ‘else’

Un caso real: SPLICE El modelo ART Introducción Propedéutica Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Parejas P28-P32, P29-P31 & P25-P35

Construcción El modelo ART K=1 Introducción Propedéutica El modelo ART Extracción de reglas con K items en su antecedente ¿existen reglas adecuadas? Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol Sí K=K+1 ¿ K <= MaxSize ? No Creación de un nodo hoja etiquetado con la clase más frecuente Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones EXTRACCIÓN DE REGLAS SELECCIÓN DE REGLAS RAMIFICACIÓN DEL ÁRBOL Ramas “else” (vs. TDIDT) Recursión de cola (transaction trimming) Uso simultáneo de varios atributos para ramificar

Construcción El modelo ART Extracción de reglas: Hipótesis candidatas K=1 Extracción Selección Ramificación K++ Seguir? Hoja Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Extracción de reglas: Hipótesis candidatas MinSupp Umbral de soporte mínimo MinConf Umbral de confianza mínima Umbral fijo Selección automática ASPECTOS DE INTERÉS Margen de tolerancia [ MaxConf - , MaxConf ]

Heurística de selección de reglas El modelo ART Construcción K=1 Extracción Selección Ramificación K++ Seguir? Hoja Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Selección de reglas: Reglas agrupadas por conjuntos de atributos. Criterio de preferencia. ASPECTOS DE INTERÉS Heurística de selección de reglas Conjunto de atributos que clasifica correctamente más ejemplos del conjunto de entrenamiento.

Ejemplo Conjunto de datos El modelo ART Ejemplo Conjunto de datos Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Ejemplo Nivel 1 K = 1 El modelo ART NIVEL 1 - Extracción de reglas de asociación Umbral de soporte mínimo = 20% Selección automática del umbral de confianza Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (Y=0) then C=0 with confidence 75% if (Y=1) then C=1 with confidence 75% S2: if (Z=0) then C=0 with confidence 75% if (Z=1) then C=1 with confidence 75%

Ejemplo Nivel 1 K = 2 El modelo ART NIVEL 1 - Extracción de reglas de asociación Umbral de soporte mínimo = 20% Selección automática del umbral de confianza Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) S2: if (X=1 and Z=0) then C=0 (100%) if (X=1 and Z=1) then C=1 (100%) S3: if (Y=0 and Z=0) then C=0 (100%) if (Y=1 and Z=1) then C=1 (100%)

Ejemplo Nivel 1 El modelo ART NIVEL 1 Selección del mejor conjunto de reglas p.ej. S1 Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else ...

Ejemplo Nivel 1  Nivel 2 El modelo ART Introducción Propedéutica Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Ejemplo Nivel 2 El modelo ART NIVEL 2 Extracción de reglas Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (Z=0) then C=0 with confidence 100% if (Z=1) then C=1 with confidence 100% RESULTADO X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else Z=0: C=0 (2) Z=1: C=1 (2)

Ejemplo ART vs. TDIDT ART TDIDT El modelo ART Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Uso del clasificador El modelo ART  Berzal, Cubero, Sánchez & Serrano Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones  Berzal, Cubero, Sánchez & Serrano “ART: A hybrid classification model” Machine Learning

Manejo de valores nulos: El modelo ART Uso del clasificador Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Manejo de valores nulos: Rama “else” (vs. C4.5 & CART)

Uso del clasificador Conversión del árbol en reglas El modelo ART Conjunto de reglas Lista de decisión Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Propiedades Estrategia de búsqueda Robustez del clasificador El modelo ART Propiedades Estrategia de búsqueda Algoritmo greedy “separa y vencerás” Robustez del clasificador Ruido y claves primarias Complejidad del árbol Profundidad Factor de ramificación 1/MinSupp Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Metodología STAR & Listas de decisión Sin necesidad de mecanismos artificiales Umbral absoluto de soporte -> Profundidad máxima del árbol & Recorridos sobre el conjunto de datos -> O(N)

Resultados experimentales El modelo ART Resultados experimentales Implementación Java 2 SDK (Sun Microsystems) AspectJ Experimentación 10-CV & Tests estadísticos JDBC (InterBase 6) Windows NT 4.0 Workstation Conjuntos de datos UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/MLRepository.html Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Precisión del clasificador El modelo ART > Resultados experimentales Precisión del clasificador Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones NB: Conjuntos de datos grandes Ref. Tests estadísticos

Complejidad El modelo ART > Resultados experimentales Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Tiempo de entrenamiento El modelo ART > Resultados experimentales Tiempo de entrenamiento Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones NB: Acceso a disco

Operaciones de E/S El modelo ART > Resultados experimentales Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Operaciones de E/S El modelo ART > Resultados experimentales Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Operaciones de E/S El modelo ART > Resultados experimentales Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Otros experimentos Selección del umbral de confianza Variación del umbral de soporte Umbrales para cada clase Heurísticas de selección de reglas

Comentarios finales Modelos de clasificación obtenidos El modelo ART Comentarios finales Modelos de clasificación obtenidos Precisión aceptable Complejidad reducida Interacciones entre atributos Método de construcción de clasificadores Algoritmo eficiente Método escalable Selección automática de parámetros Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones

Hipótesis candidatas Extracción de reglas de asociación El algoritmo TBAR TBAR en ART Evaluación de las reglas obtenidas Medidas disponibles Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

con K items en su antecedente Hipótesis candidatas Extracción de reglas Sí No K=1 Extracción de reglas con K items en su antecedente ¿existen reglas adecuadas? Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol K=K+1 ¿ K <= MaxSize ? Creación de un nodo hoja etiquetado con la clase más frecuente Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

Extracción de reglas de asociación Hipótesis candidatas > Extracción de reglas Reglas de asociación Extracción de reglas de asociación Umbrales mínimos MinSupport MinConfidence Estrategia “divide y vencerás” Encontrar todos los itemsets frecuentes. Generar las reglas de asociación que se derivan de los itemsets frecuentes. Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

Reglas de asociación Obtención de los itemsets frecuentes Lk Hipótesis candidatas > Extracción de reglas Reglas de asociación Obtención de los itemsets frecuentes Lk Algoritmos de la familia Apriori Generación de candidatos Ck a partir de Lk-1 x Lk-1 Recorrido secuencial de la base de datos para obtener Lk a partir de Ck Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

TBAR Árbol de itemsets Hipótesis candidatas > Extracción de reglas Algoritmo de la familia Apriori IDEA Árbol de itemsets [Tree-Based Association Rule mining]  Berzal, Cubero, Marín & Serrano “TBAR: An efficient method for association rule mining in relational databases” Data & Knowledge Engineering, 2001 Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Uso de una única estructura de datos para almacenar todos los itemsets DHP...

TBAR: Árbol de itemsets Hipótesis candidatas > Extracción de reglas TBAR: Árbol de itemsets Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Uso de una única estructura de datos para almacenar todos los itemsets DHP...

TBAR: Árbol de itemsets Hipótesis candidatas > Extracción de reglas TBAR: Árbol de itemsets Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Uso de una única estructura de datos para almacenar todos los itemsets DHP...

TBAR vs. Apriori Hipótesis candidatas > Extracción de reglas Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones vg: CENSUS

TBAR http://frontdb.ugr.es/ Hipótesis candidatas > Extracción de reglas TBAR http://frontdb.ugr.es/ Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

TBAR en ART Hipótesis candidatas > Extracción de reglas Extracción de itemsets En la última iteración, L[MaxSize+1], se eliminan los itemsets candidatos que no incluyen el atributo de la clase. Generación de reglas Se sustituye la fase de generación de reglas por una exploración adecuada del árbol de itemsets. Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Ajustes

Evaluación de las reglas Hipótesis candidatas Evaluación de las reglas K=1 Extracción de reglas con K items en su antecedente ¿existen reglas adecuadas? Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol Sí K=K+1 ¿ K <= MaxSize ? No Creación de un nodo hoja etiquetado con la clase más frecuente Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

Medidas de cumplimiento Hipótesis candidatas > Evaluación de las reglas Medidas de cumplimiento Medidas alternativas Confianza Convicción Interés Divergencia Hellinger Factores de certeza Utilidad ... Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Medidas alternativas CONFIANZA CONVICCIÓN: Mayor cuanto menor sea la probabilidad P (A  ¬C ) + Reglas de clases poco frecuentes - Dominio no acotado INTERÉS: Cuanto más comunes sean A y C, menor interés tiene la regla DIVERGENCIA: Medida de distancia entre las probabilidades de las clases del problema a priori y a posteriori. FACTORES DE CERTEZA: Grado de variación de la probabilidad de que aparezca C cuando se consideran únicamente las tuplas que verifican A. La convicción: es equivalente a los factores de certeza en los casos que nos interesan (CF>0), pero no está acotada Un mayor factor de certeza no implica una mayor confianza/precisión. ALTERNATIVA: Restricción adicional sobre las reglas consideradas al construir el clasificador ART. Confianza(regla)>Soporte(consecuente) OTRAS...

Resultados experimentales Hipótesis candidatas > Evaluación de las reglas Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Abanico de posibilidades de cara al usuario UTILIDAD: Mejora el porcentaje de clasificación obtenido a cambio de un pequeño aumento en la complejidad del clasificador.

Comentarios finales Hipótesis candidatas Formulación de hipótesis candidatas: Extracción de reglas de asociación Algoritmo TBAR Evaluación de hipótesis candidatas: Existencia de criterios alternativos Confianza / Utilidad Factores de certeza / Convicción Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones

Atributos continuos Discretización vg: Discretización contextual Árboles n-arios con atributos continuos Resultados experimentales: Manejo de atributos continuos en ART Anexo: Medidas de similitud Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Discretización Métodos de agrupamiento Métodos de discretización Atributos continuos Discretización Métodos de agrupamiento Basados en centroides Jerárquicos Aglomerativos Divisivos Métodos de discretización Discretización supervisada vs. no supervisada Uso local vs. global Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones MÉTODOS DE DISCRETIZACIÓN No supervisados: Equidepth, equiwidth, regla 3-4-5, K-Medias Supervisados: 1R, MDLP (Fayyad e Irani), Zeta Basados en centroides: K-Medias Jerárquicos (incrementales): todos los demás

Discretización contextual Atributos continuos Discretización contextual IDEA Medir la similitud existente entre los vectores característicos de los valores adyacentes del atributo continuo. Discretización supervisada Discretización jerárquica Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones

Discretización contextual Atributos continuos Discretización contextual Versión Versión aglomerativa divisiva Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Discretización contextual aglomerativa Un intervalo por valor del atributo. Combinar los dos intervalos adyacentes más similares. Mientras no se verifique ningún criterio de parada, volver al paso 2. Discretización contextual divisiva Un único intervalo. Dividir en dos uno de los intervalos de la configuración actual utilizando el punto de corte que da lugar a la configuración de intervalos menos similares entre sí. t t

Discretización contextual Atributos continuos Discretización contextual Ejemplo Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones EFICIENCIA MEDIDAS DE SIMILITUD Modelos basados en medidas de distancia Modelos basados en medidas de correlación Modelos basados en Teoría de Conjuntos

Árboles n-arios Atributos continuos Atributos continuos en árboles de decisión Árboles binarios Árboles n-arios Métodos de discretización Local Global vg: Discretización local jerárquica Variante aglomerativa Variante aglomerativa con pre-discretización Variante divisiva Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Árboles binarios: Selección de un umbral Punto medio Mayor valor existente en los datos que no excede del punto medio En función del número de casos que queden por encima y por debajo Árboles n-arios: Métodos de discretización (local o global) Efecto del “ruido” sobre la versión aglomerativa -> Pre-discretización -> Versión divisiva EFICIENCIA

Árboles n-arios Atributos continuos Resultados experimentales: Discretización en los algoritmos TDIDT Precisión similar a la obtenida por C4.5. Árboles más pequeños (tanto en número de hojas como en profundidad media). La discretización global mejora la eficiencia, manteniendo la precisión y reduciendo la complejidad del árbol. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Mejores discretizadores: MDLP (Fayyad e Irani) & Contextual

Resultados experimentales Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones

Resultados experimentales Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones

Resultados experimentales Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Recomendación: MDLP o Contextual Alternativa: Medidas de pureza (MDLP) vs. Medidas de similitud (Contextual). Eficiencia -> Técnicas adecuadas para problemas de Data Mining. Error

Resultados experimentales Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Recomendación: MDLP o Contextual Alternativa: Medidas de pureza (MDLP) vs. Medidas de similitud (Contextual). Eficiencia -> Técnicas adecuadas para problemas de Data Mining. Complejidad

Comentarios finales Atributos continuos ART con atributos continuos... Precisión similar a la obtenida por los algoritmos TDIDT. Árboles mucho más pequeños que los obtenidos por otros métodos. Mejor si se utiliza discretización global: Mayor precisión. Menor complejidad. Mayor eficiencia. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones EFICIENCIA: Discretización global hasta un orden de magnitud mejor...

Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones

Infraestructura Modelo conceptual del sistema Sistemas basados en componentes Diseño e implementación vg: Conjuntos de datos Servicio de persistencia Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Objetivo: Plantear una arquitectura general que facilite la implementación y la utilización de técnicas de Data Mining (OLAP vs. OLTP).

Modelo conceptual Modelo SMP Infraestructura Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Enfoque MDA: Modelo independiente de cualquier tecnología particular. “la estructura y el comportamiento esencial del sistema ha de capturarse de forma abstracta para que su ¡mplementación pueda adaptarse a diferentes tecnologías” Modelo SMP © Perry y Kaiser (IEEE TSE’1991) Estructura: Objetos y agregaciones de objetos sobre los que se opera (objetos persistentes). Mecanismos: Herramientas que nos permiten resolver problemas (agentes). Política: Reglas y estrategias impuestas por el entorno (usuarios y roles). USUARIOS Usuarios de modelos existentes Constructores de modelos Desarrolladores Administradores

Componentes Infraestructura Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Origen: ROOM (TDA->Actores/agentes)

EnTerprise Run-time Environment Kernel Infraestructura Componentes ETREK EnTerprise Run-time Environment Kernel Clientes: Sesiones, recursos & metadatos. Agentes: Planificación, migración & monitorización. Infraestructura: Evolución & coordinación. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones TAREAS de la que es responsable el núcleo: Respecto a los clientes: gestión de sesiones, acceso a los recursos, tramitación de solicitudes & recopilación de metadatos. Respecto a los agentes: planificación, asignación de recursos, monitorización & notificación. Respecto al propio sistema: persistencia, “hot deployment” y coordinación con otras instancias de ETREK

Diseño e implementación Infraestructura Diseño e implementación Patrones de diseño Tecnologías existentes Servicios web (SOAP, WSDL & UDDI) Java: RMI, Jini... Objetivos Transparencia Usabilidad Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones PATRONES DE DISEÑO Experiencia recopilada -> Soluciones de utilidad en el desarrollo de software JAVA Flexibilidad (cargador de clases), movilidad de los agentes (Jini) & seguridad (control de acceso y transmisión de datos). En contra: Monitorización del uso de recursos. OBJETIVOS: Transparencia de cara a los distintos tipos de usuarios del sistema: Ocultar la complejidad del sistema. Usabilidad: “Trabajadores del conocimiento” Almacenar documentos y modelos Compartir información entre usuarios (teniendo en cuenta restricciones de acceso)

Diseño e implementación Infraestructura Diseño e implementación Servicio de persistencia Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Almacenar documentos y modelos Compartir información entre usuarios (teniendo en cuenta restricciones de acceso)

Diseño e implementación Infraestructura Diseño e implementación Acceso a los datos Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones

Diseño e implementación Infraestructura Diseño e implementación Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Supercomputador virtual...

Diseño e implementación Infraestructura Diseño e implementación  Berzal, Blanco, Cubero & Marín OLAP vs. OLTP in the middle tier: Component-based data mining frameworks Communications of the ACM Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Supercomputador virtual...

Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones

Conclusiones ART Infraestructura Extracción de reglas de asociación Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Técnicas de clasificación ART Técnicas de discretización

Conclusiones ART Árboles n-arios politéticos con ramas “else” vs. TDIDT Árboles más pequeños vs. DL Extracción más eficiente de reglas Sin mecanismos artificiales adicionales. Ajuste automático de parámetros. Método escalable (reglas de asociación). Modelos de clasificación simples y precisos. vg: ADN Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones PARÁMETROS: Ajuste automático salvo que se pida lo contrario Medidas alternativas Discretización global

Conclusiones Resultados complementarios Algoritmo TBAR. Algoritmos TDIDT: Reglas de división alternativas: MaxDif y el Índice Generalizado de Gini. Árboles n-arios arbitrarios con técnicas de discretización jerárquica. Discretizador contextual. Arquitectura basada en componentes Modelización de conjuntos de datos. Almacén de datos. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Trabajo futuro Híbrido ART-TDIDT. Técnicas difusas. Reglas de asociación cuantitativas. ART en problemas de regresión. Algoritmos de extracción de reglas. Introducción de pesos en las reglas. Medidas alternativas de evaluación de reglas. Criterios alternativos de selección de reglas. ART como técnica de aprendizaje incremental. Post-procesamiento de los clasificadores ART. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Un método alternativo para la construcción de árboles de decisión ART Un método alternativo para la construcción de árboles de decisión Doctorando: Fernando Berzal Galiano Director: Dr. Juan Carlos Cubero Talavera