Un método alternativo para la construcción de árboles de decisión ART Un método alternativo para la construcción de árboles de decisión Doctorando: Fernando Berzal Galiano Director: Dr. Juan Carlos Cubero Talavera
Resultado del aprendizaje Introducción Aprendizaje en Inteligencia Artificial Programas/sistemas autónomos. Sistemas de ayuda a la decisión. Resultado del aprendizaje MODELO Funciones: descripción y/o predicción. Construcción: manual o automática. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Aplicaciones Capacidad de adaptarse a nuevas situaciones y resolver nuevos problemas. No volver a cometer los mismos errores: Realizar la misma tarea a partir de la misma posición de un modo más efectivo. MODELOS Construcción manual: Entrevistas con expertos Paradoja de la Ingeniería del Conocimiento Cuanto mejor es el experto, peor describe su conocimiento Ley de Hiram Si se consultan suficientes expertos, se puede confirmar cualquier opinión Construcción automática: Información registrada (casos de entrenamiento) FUNCIONES Comprender mejor los datos de los que disponemos. Aplicar el modelo en nuevas situaciones (previamente desconocidas).
Introducción Objetivo Conseguir modelos de clasificación simples, inteligibles y robustos de una forma eficiente y escalable. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Aprendizaje automático correcto Recopilación de datos Grandes cantidades de datos Desarrollo de técnicas eficientes Data Mining & KDD Resulta relativamente fácil recopilar grandes cantidades de datos. Sin embargo, las técnicas tradicionalmente utilizadas en Inteligencia Artificial no resultan adecuadas por ser ineficientes y poco escalables. La necesidad de trabajar eficientemente con grandes conjuntos de datos ha dado lugar al desarrollo de las técnicas de Data Mining KDD: extracción no trivial de información potencialmente útil a partir de un gran volumen de datos en el cual la información está implícita (aunque no se conoce).
[Association Rule Trees] Introducción Inducción de árboles de decisión + Extracción de reglas de asociación = ART [Association Rule Trees] Los desarrollos más provechosos han surgido siempre donde se encontraron dos formas de pensar diferentes. Heisenberg Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Filosofía Combinar las mejores cualidades de distintas técnicas Solución: Combinar la simplicidad conceptual de los árboles de decisión con la flexibilidad que ofrecen otras técnicas de inducción de reglas. El modelo de clasificación ART se caracteriza por dotar de mayor flexibilidad a las técnicas tradicionales de construcción de árboles de decisión, al permitir la utilización simultánea de varios atributos para ramificar el árbol de decisión y agrupar en una rama ‘else’ las ramas del árbol menos interesantes a la hora de clasificar datos, sin descuidar por ello cuestiones relativas a la eficiencia del proceso de aprendizaje. Para lograr dicho propósito se emplean técnicas de extracción de reglas de asociación que nos permiten formular hipótesis complejas de una forma eficiente y métodos de discretización que nos ofrecen la posibilidad de trabajar en dominios continuos. NOTA: Mencionar listas de decisión
Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones
Propedéutica Árboles de decisión Enseñanza preparatoria para el estudio de una disciplina D.R.A.E. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Árboles de decisión Inducción de reglas y listas de decisión Reglas de asociación
Árboles de decisión Representación del conocimiento: Árbol Propedéutica Árboles de decisión Representación del conocimiento: Árbol Nodo internos Preguntas Nodos hoja Decisiones Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Funcionamiento: Partiendo de la raíz del árbol de decisión, cada caso es dirigido hacia una u otra rama de acuerdo con los valores de sus atributos hasta llegar a una hoja, etiquetada con la clase que se le asigna al caso. Modelo de clasificación más popular Nodos internos con tantos hijos como respuestas a la pregunta que contienen Nodos hoja etiquetados con una de las clases del problema Funcionamiento análogo al de una aguja de ferrocarril
[Top-Down Induction on Decision Trees] Propedéutica > Árboles de decisión Construcción Algoritmos TDIDT [Top-Down Induction on Decision Trees] Estrategia “divide y vencerás” para la construcción recursiva del árbol de decisión de forma descendente. Reglas de división Reglas de parada Reglas de poda Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones HOJA (etiquetada con la clase más común) Nodo puro No encontramos ninguna forma de seguir ramificando el árbol Se cumple alguna condición de parada (regla de parada) Conjunto vacío Información adicional (vg. C4.5 opta por la clase m´as frecuente en el nodo padre). NODO INTERNO: Cuando en el conjunto de entrenamiento hay casos de distintas clases, éste se divide en subconjuntos. Utilizando los casos de entrenamiento disponibles, hemos de seleccionar una pregunta para ramificar el ´arbol de decisión. Dicha pregunta, basada en los valores que toman los atributos predictivos en el conjunto de entrenamiento, ha de tener dos o más respuestas alternativas mutuamente excluyentes Ri. De todas las posibles alternativas, se selecciona una empleando una regla heur´ýstica a la que se denomina regla de división. El ´arbol de decisi´on resultante consiste en un nodo que identifica la pregunta realizada del cual cuelgan tantos hijos como respuestas alternativas existan. El mismo m´etodo utilizado para el nodo se utiliza recursivamente para construir los sub´arboles correspondientes a cada hijo del nodo, teniendo en cuenta que al hijo Hi se le asigna el subconjunto de casos de entrenamiento correspondientes a la alternativa Ri. Reglas de parada: Pureza del nodo, cota de profundidad, umbral de soporte Reglas de poda: Poda por coste-complejidad (CART), poda pesimista (C4.5) Justificación: La presencia de ruido ocasiona la generación de árboles de decisión que sobreajustan los datos del conjunto de entrenamiento.
Propedéutica > Árboles de decisión Reglas de división Criterios heurísticos para evaluar la bondad de una partición p.ej. Medidas de impureza Ganancia de información (ID3) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Reglas de división Criterio de proporción de ganancia (C4.5) Propedéutica > Árboles de decisión Reglas de división Criterio de proporción de ganancia (C4.5) Índice de diversidad de Gini (CART) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Reglas de división Otros criterios Propedéutica > Árboles de decisión Reglas de división Otros criterios Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Reglas de división Alternativas de formulación más simple MAXDIF Propedéutica > Árboles de decisión Reglas de división Alternativas de formulación más simple MAXDIF Índice Generalizado de Gini Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Reglas de división Propedéutica > Árboles de decisión Pese a su sencillez, MAXDIF y el Índice Generalizado de Gini obtienen resultados satisfactorios en la práctica. Las distintas reglas de división propuestas mejoran marginalmente la precisión de los árboles de decisión y lo hacen sólo en situaciones concretas. Berzal, Cubero, Cuenca & Martín-Bautista “On the quest for easy-to-understand splitting rules” Data & Knowledge Engineering, 2002 Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Emplear reglas como bloque de construcción de clasificadores Propedéutica Inducción de reglas IDEA Emplear reglas como bloque de construcción de clasificadores Una regla (del tipo IF-THEN) divide el dominio del problema en aquellos casos que satisfacen la regla y aquéllos que no Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones PASO DE ÁRBOLES A REGLAS vs. OBTENCIÓN DIRECTA DE LAS REGLAS Estrategia de búsqueda dirigida (variante de la búsqueda primero el mejor)
Ejemplos Metodología STAR Listas de decisión Propedéutica > Inducción de reglas Ejemplos Metodología STAR Aprendizaje incremental de expresiones lógicas en forma normal disyuntiva para describir conceptos Listas de decisión Lista ordenada de reglas if ... then ... else if ... else ... Estrategia “separa y vencerás” Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones AQ: Semilla (dependencia respecto al orden de presentación de los ejemplos) CN2: Combinar la eficiencia de los algoritmos TDIDT con la flexibilidad de la familia AQ (sin semilla) FOIL: Lógica de Primer Orden (algoritmo Greedy de búsqueda, función de evaluación similar a la de ID3 y criterio de parada basado en el principio MDL de Rissanen) CWS: Reordena el orden en que se realizan las operaciones para mejorar el rendimiento de los algoritmos. Se entrelaza la construcción del conjunto completo de reglas en vez de construir el modelo añadiendo reglas una a una.
Reglas de asociación Item k-itemset Propedéutica En bases de datos transaccionales: Artículo involucrado en una transacción. En bases de datos relacionales: Par (atributo, valor) k-itemset Conjunto de k items Soporte de un itemset (support) soporte(I) = P(I) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Soporte: Fracción de transacciones en la BD que contienen el itemset.
Reglas de asociación Regla de asociación X Y Propedéutica Soporte de una regla de asociación soporte(XY) = soporte(XUY) = P(XUY) Confianza de una regla de asociación confianza(XY) = soporte(XUY) / soporte(X) = P(Y|X) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones REGLAS: X e Y son itemsets de intersección vacía Soporte: Fracción de transacciones en la BD que contienen el itemset. Confianza: Proporción de transacciones, que, conteniendo X, también incluyen Y.
Clasificadores Propedéutica > Reglas de asociación Modelos de clasificación parcial vg: Bayardo Modelos de clasificación “asociativos” vg: CBA (Liu et al.) Clasificadores bayesianos vg: LB (Meretakis et al.) Patrones emergentes vg: CAEP (Dong et al.) Árboles de reglas vg: Wang et al. Reglas generales con excepciones vg: Liu et al. Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Modelos de clasificación asociativos: selección de reglas
Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones
El modelo ART Presentación Construcción del clasificador ART Ejemplo Uso del clasificador ART Propiedades del clasificador ART Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
ART = Association Rule Tree Reglas de asociación + Ramas “else” El modelo ART Presentación IDEA Aprovechar la eficiencia de los algoritmos de extracción de reglas de asociación para construir un modelo de clasificación en forma de árbol de decisión. ART = Association Rule Tree CLAVE Reglas de asociación + Ramas “else” Híbrido árbol de decisión – lista de decisión Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones vs Liu et al.: En vez de utilizar reglas generales y excepciones, se emplean ramas ‘else’
Un caso real: SPLICE El modelo ART Introducción Propedéutica Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Parejas P28-P32, P29-P31 & P25-P35
Construcción El modelo ART K=1 Introducción Propedéutica El modelo ART Extracción de reglas con K items en su antecedente ¿existen reglas adecuadas? Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol Sí K=K+1 ¿ K <= MaxSize ? No Creación de un nodo hoja etiquetado con la clase más frecuente Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones EXTRACCIÓN DE REGLAS SELECCIÓN DE REGLAS RAMIFICACIÓN DEL ÁRBOL Ramas “else” (vs. TDIDT) Recursión de cola (transaction trimming) Uso simultáneo de varios atributos para ramificar
Construcción El modelo ART Extracción de reglas: Hipótesis candidatas K=1 Extracción Selección Ramificación K++ Seguir? Hoja Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Extracción de reglas: Hipótesis candidatas MinSupp Umbral de soporte mínimo MinConf Umbral de confianza mínima Umbral fijo Selección automática ASPECTOS DE INTERÉS Margen de tolerancia [ MaxConf - , MaxConf ]
Heurística de selección de reglas El modelo ART Construcción K=1 Extracción Selección Ramificación K++ Seguir? Hoja Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Selección de reglas: Reglas agrupadas por conjuntos de atributos. Criterio de preferencia. ASPECTOS DE INTERÉS Heurística de selección de reglas Conjunto de atributos que clasifica correctamente más ejemplos del conjunto de entrenamiento.
Ejemplo Conjunto de datos El modelo ART Ejemplo Conjunto de datos Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Ejemplo Nivel 1 K = 1 El modelo ART NIVEL 1 - Extracción de reglas de asociación Umbral de soporte mínimo = 20% Selección automática del umbral de confianza Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (Y=0) then C=0 with confidence 75% if (Y=1) then C=1 with confidence 75% S2: if (Z=0) then C=0 with confidence 75% if (Z=1) then C=1 with confidence 75%
Ejemplo Nivel 1 K = 2 El modelo ART NIVEL 1 - Extracción de reglas de asociación Umbral de soporte mínimo = 20% Selección automática del umbral de confianza Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) S2: if (X=1 and Z=0) then C=0 (100%) if (X=1 and Z=1) then C=1 (100%) S3: if (Y=0 and Z=0) then C=0 (100%) if (Y=1 and Z=1) then C=1 (100%)
Ejemplo Nivel 1 El modelo ART NIVEL 1 Selección del mejor conjunto de reglas p.ej. S1 Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else ...
Ejemplo Nivel 1 Nivel 2 El modelo ART Introducción Propedéutica Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Ejemplo Nivel 2 El modelo ART NIVEL 2 Extracción de reglas Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (Z=0) then C=0 with confidence 100% if (Z=1) then C=1 with confidence 100% RESULTADO X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else Z=0: C=0 (2) Z=1: C=1 (2)
Ejemplo ART vs. TDIDT ART TDIDT El modelo ART Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Uso del clasificador El modelo ART Berzal, Cubero, Sánchez & Serrano Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Berzal, Cubero, Sánchez & Serrano “ART: A hybrid classification model” Machine Learning
Manejo de valores nulos: El modelo ART Uso del clasificador Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Manejo de valores nulos: Rama “else” (vs. C4.5 & CART)
Uso del clasificador Conversión del árbol en reglas El modelo ART Conjunto de reglas Lista de decisión Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Propiedades Estrategia de búsqueda Robustez del clasificador El modelo ART Propiedades Estrategia de búsqueda Algoritmo greedy “separa y vencerás” Robustez del clasificador Ruido y claves primarias Complejidad del árbol Profundidad Factor de ramificación 1/MinSupp Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Metodología STAR & Listas de decisión Sin necesidad de mecanismos artificiales Umbral absoluto de soporte -> Profundidad máxima del árbol & Recorridos sobre el conjunto de datos -> O(N)
Resultados experimentales El modelo ART Resultados experimentales Implementación Java 2 SDK (Sun Microsystems) AspectJ Experimentación 10-CV & Tests estadísticos JDBC (InterBase 6) Windows NT 4.0 Workstation Conjuntos de datos UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/MLRepository.html Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Precisión del clasificador El modelo ART > Resultados experimentales Precisión del clasificador Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones NB: Conjuntos de datos grandes Ref. Tests estadísticos
Complejidad El modelo ART > Resultados experimentales Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Tiempo de entrenamiento El modelo ART > Resultados experimentales Tiempo de entrenamiento Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones NB: Acceso a disco
Operaciones de E/S El modelo ART > Resultados experimentales Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Operaciones de E/S El modelo ART > Resultados experimentales Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Operaciones de E/S El modelo ART > Resultados experimentales Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Otros experimentos Selección del umbral de confianza Variación del umbral de soporte Umbrales para cada clase Heurísticas de selección de reglas
Comentarios finales Modelos de clasificación obtenidos El modelo ART Comentarios finales Modelos de clasificación obtenidos Precisión aceptable Complejidad reducida Interacciones entre atributos Método de construcción de clasificadores Algoritmo eficiente Método escalable Selección automática de parámetros Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones
Hipótesis candidatas Extracción de reglas de asociación El algoritmo TBAR TBAR en ART Evaluación de las reglas obtenidas Medidas disponibles Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
con K items en su antecedente Hipótesis candidatas Extracción de reglas Sí No K=1 Extracción de reglas con K items en su antecedente ¿existen reglas adecuadas? Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol K=K+1 ¿ K <= MaxSize ? Creación de un nodo hoja etiquetado con la clase más frecuente Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones
Extracción de reglas de asociación Hipótesis candidatas > Extracción de reglas Reglas de asociación Extracción de reglas de asociación Umbrales mínimos MinSupport MinConfidence Estrategia “divide y vencerás” Encontrar todos los itemsets frecuentes. Generar las reglas de asociación que se derivan de los itemsets frecuentes. Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones
Reglas de asociación Obtención de los itemsets frecuentes Lk Hipótesis candidatas > Extracción de reglas Reglas de asociación Obtención de los itemsets frecuentes Lk Algoritmos de la familia Apriori Generación de candidatos Ck a partir de Lk-1 x Lk-1 Recorrido secuencial de la base de datos para obtener Lk a partir de Ck Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones
TBAR Árbol de itemsets Hipótesis candidatas > Extracción de reglas Algoritmo de la familia Apriori IDEA Árbol de itemsets [Tree-Based Association Rule mining] Berzal, Cubero, Marín & Serrano “TBAR: An efficient method for association rule mining in relational databases” Data & Knowledge Engineering, 2001 Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Uso de una única estructura de datos para almacenar todos los itemsets DHP...
TBAR: Árbol de itemsets Hipótesis candidatas > Extracción de reglas TBAR: Árbol de itemsets Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Uso de una única estructura de datos para almacenar todos los itemsets DHP...
TBAR: Árbol de itemsets Hipótesis candidatas > Extracción de reglas TBAR: Árbol de itemsets Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Uso de una única estructura de datos para almacenar todos los itemsets DHP...
TBAR vs. Apriori Hipótesis candidatas > Extracción de reglas Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones vg: CENSUS
TBAR http://frontdb.ugr.es/ Hipótesis candidatas > Extracción de reglas TBAR http://frontdb.ugr.es/ Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones
TBAR en ART Hipótesis candidatas > Extracción de reglas Extracción de itemsets En la última iteración, L[MaxSize+1], se eliminan los itemsets candidatos que no incluyen el atributo de la clase. Generación de reglas Se sustituye la fase de generación de reglas por una exploración adecuada del árbol de itemsets. Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Ajustes
Evaluación de las reglas Hipótesis candidatas Evaluación de las reglas K=1 Extracción de reglas con K items en su antecedente ¿existen reglas adecuadas? Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol Sí K=K+1 ¿ K <= MaxSize ? No Creación de un nodo hoja etiquetado con la clase más frecuente Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones
Medidas de cumplimiento Hipótesis candidatas > Evaluación de las reglas Medidas de cumplimiento Medidas alternativas Confianza Convicción Interés Divergencia Hellinger Factores de certeza Utilidad ... Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Medidas alternativas CONFIANZA CONVICCIÓN: Mayor cuanto menor sea la probabilidad P (A ¬C ) + Reglas de clases poco frecuentes - Dominio no acotado INTERÉS: Cuanto más comunes sean A y C, menor interés tiene la regla DIVERGENCIA: Medida de distancia entre las probabilidades de las clases del problema a priori y a posteriori. FACTORES DE CERTEZA: Grado de variación de la probabilidad de que aparezca C cuando se consideran únicamente las tuplas que verifican A. La convicción: es equivalente a los factores de certeza en los casos que nos interesan (CF>0), pero no está acotada Un mayor factor de certeza no implica una mayor confianza/precisión. ALTERNATIVA: Restricción adicional sobre las reglas consideradas al construir el clasificador ART. Confianza(regla)>Soporte(consecuente) OTRAS...
Resultados experimentales Hipótesis candidatas > Evaluación de las reglas Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Abanico de posibilidades de cara al usuario UTILIDAD: Mejora el porcentaje de clasificación obtenido a cambio de un pequeño aumento en la complejidad del clasificador.
Comentarios finales Hipótesis candidatas Formulación de hipótesis candidatas: Extracción de reglas de asociación Algoritmo TBAR Evaluación de hipótesis candidatas: Existencia de criterios alternativos Confianza / Utilidad Factores de certeza / Convicción Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones
Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones
Atributos continuos Discretización vg: Discretización contextual Árboles n-arios con atributos continuos Resultados experimentales: Manejo de atributos continuos en ART Anexo: Medidas de similitud Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Discretización Métodos de agrupamiento Métodos de discretización Atributos continuos Discretización Métodos de agrupamiento Basados en centroides Jerárquicos Aglomerativos Divisivos Métodos de discretización Discretización supervisada vs. no supervisada Uso local vs. global Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones MÉTODOS DE DISCRETIZACIÓN No supervisados: Equidepth, equiwidth, regla 3-4-5, K-Medias Supervisados: 1R, MDLP (Fayyad e Irani), Zeta Basados en centroides: K-Medias Jerárquicos (incrementales): todos los demás
Discretización contextual Atributos continuos Discretización contextual IDEA Medir la similitud existente entre los vectores característicos de los valores adyacentes del atributo continuo. Discretización supervisada Discretización jerárquica Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones
Discretización contextual Atributos continuos Discretización contextual Versión Versión aglomerativa divisiva Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Discretización contextual aglomerativa Un intervalo por valor del atributo. Combinar los dos intervalos adyacentes más similares. Mientras no se verifique ningún criterio de parada, volver al paso 2. Discretización contextual divisiva Un único intervalo. Dividir en dos uno de los intervalos de la configuración actual utilizando el punto de corte que da lugar a la configuración de intervalos menos similares entre sí. t t
Discretización contextual Atributos continuos Discretización contextual Ejemplo Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones EFICIENCIA MEDIDAS DE SIMILITUD Modelos basados en medidas de distancia Modelos basados en medidas de correlación Modelos basados en Teoría de Conjuntos
Árboles n-arios Atributos continuos Atributos continuos en árboles de decisión Árboles binarios Árboles n-arios Métodos de discretización Local Global vg: Discretización local jerárquica Variante aglomerativa Variante aglomerativa con pre-discretización Variante divisiva Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Árboles binarios: Selección de un umbral Punto medio Mayor valor existente en los datos que no excede del punto medio En función del número de casos que queden por encima y por debajo Árboles n-arios: Métodos de discretización (local o global) Efecto del “ruido” sobre la versión aglomerativa -> Pre-discretización -> Versión divisiva EFICIENCIA
Árboles n-arios Atributos continuos Resultados experimentales: Discretización en los algoritmos TDIDT Precisión similar a la obtenida por C4.5. Árboles más pequeños (tanto en número de hojas como en profundidad media). La discretización global mejora la eficiencia, manteniendo la precisión y reduciendo la complejidad del árbol. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Mejores discretizadores: MDLP (Fayyad e Irani) & Contextual
Resultados experimentales Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones
Resultados experimentales Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones
Resultados experimentales Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Recomendación: MDLP o Contextual Alternativa: Medidas de pureza (MDLP) vs. Medidas de similitud (Contextual). Eficiencia -> Técnicas adecuadas para problemas de Data Mining. Error
Resultados experimentales Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Recomendación: MDLP o Contextual Alternativa: Medidas de pureza (MDLP) vs. Medidas de similitud (Contextual). Eficiencia -> Técnicas adecuadas para problemas de Data Mining. Complejidad
Comentarios finales Atributos continuos ART con atributos continuos... Precisión similar a la obtenida por los algoritmos TDIDT. Árboles mucho más pequeños que los obtenidos por otros métodos. Mejor si se utiliza discretización global: Mayor precisión. Menor complejidad. Mayor eficiencia. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones EFICIENCIA: Discretización global hasta un orden de magnitud mejor...
Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones
Infraestructura Modelo conceptual del sistema Sistemas basados en componentes Diseño e implementación vg: Conjuntos de datos Servicio de persistencia Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Objetivo: Plantear una arquitectura general que facilite la implementación y la utilización de técnicas de Data Mining (OLAP vs. OLTP).
Modelo conceptual Modelo SMP Infraestructura Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Enfoque MDA: Modelo independiente de cualquier tecnología particular. “la estructura y el comportamiento esencial del sistema ha de capturarse de forma abstracta para que su ¡mplementación pueda adaptarse a diferentes tecnologías” Modelo SMP © Perry y Kaiser (IEEE TSE’1991) Estructura: Objetos y agregaciones de objetos sobre los que se opera (objetos persistentes). Mecanismos: Herramientas que nos permiten resolver problemas (agentes). Política: Reglas y estrategias impuestas por el entorno (usuarios y roles). USUARIOS Usuarios de modelos existentes Constructores de modelos Desarrolladores Administradores
Componentes Infraestructura Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Origen: ROOM (TDA->Actores/agentes)
EnTerprise Run-time Environment Kernel Infraestructura Componentes ETREK EnTerprise Run-time Environment Kernel Clientes: Sesiones, recursos & metadatos. Agentes: Planificación, migración & monitorización. Infraestructura: Evolución & coordinación. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones TAREAS de la que es responsable el núcleo: Respecto a los clientes: gestión de sesiones, acceso a los recursos, tramitación de solicitudes & recopilación de metadatos. Respecto a los agentes: planificación, asignación de recursos, monitorización & notificación. Respecto al propio sistema: persistencia, “hot deployment” y coordinación con otras instancias de ETREK
Diseño e implementación Infraestructura Diseño e implementación Patrones de diseño Tecnologías existentes Servicios web (SOAP, WSDL & UDDI) Java: RMI, Jini... Objetivos Transparencia Usabilidad Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones PATRONES DE DISEÑO Experiencia recopilada -> Soluciones de utilidad en el desarrollo de software JAVA Flexibilidad (cargador de clases), movilidad de los agentes (Jini) & seguridad (control de acceso y transmisión de datos). En contra: Monitorización del uso de recursos. OBJETIVOS: Transparencia de cara a los distintos tipos de usuarios del sistema: Ocultar la complejidad del sistema. Usabilidad: “Trabajadores del conocimiento” Almacenar documentos y modelos Compartir información entre usuarios (teniendo en cuenta restricciones de acceso)
Diseño e implementación Infraestructura Diseño e implementación Servicio de persistencia Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Almacenar documentos y modelos Compartir información entre usuarios (teniendo en cuenta restricciones de acceso)
Diseño e implementación Infraestructura Diseño e implementación Acceso a los datos Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones
Diseño e implementación Infraestructura Diseño e implementación Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Supercomputador virtual...
Diseño e implementación Infraestructura Diseño e implementación Berzal, Blanco, Cubero & Marín OLAP vs. OLTP in the middle tier: Component-based data mining frameworks Communications of the ACM Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Supercomputador virtual...
Índice general Introducción Propedéutica El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones
Conclusiones ART Infraestructura Extracción de reglas de asociación Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Técnicas de clasificación ART Técnicas de discretización
Conclusiones ART Árboles n-arios politéticos con ramas “else” vs. TDIDT Árboles más pequeños vs. DL Extracción más eficiente de reglas Sin mecanismos artificiales adicionales. Ajuste automático de parámetros. Método escalable (reglas de asociación). Modelos de clasificación simples y precisos. vg: ADN Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones PARÁMETROS: Ajuste automático salvo que se pida lo contrario Medidas alternativas Discretización global
Conclusiones Resultados complementarios Algoritmo TBAR. Algoritmos TDIDT: Reglas de división alternativas: MaxDif y el Índice Generalizado de Gini. Árboles n-arios arbitrarios con técnicas de discretización jerárquica. Discretizador contextual. Arquitectura basada en componentes Modelización de conjuntos de datos. Almacén de datos. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Trabajo futuro Híbrido ART-TDIDT. Técnicas difusas. Reglas de asociación cuantitativas. ART en problemas de regresión. Algoritmos de extracción de reglas. Introducción de pesos en las reglas. Medidas alternativas de evaluación de reglas. Criterios alternativos de selección de reglas. ART como técnica de aprendizaje incremental. Post-procesamiento de los clasificadores ART. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones
Un método alternativo para la construcción de árboles de decisión ART Un método alternativo para la construcción de árboles de decisión Doctorando: Fernando Berzal Galiano Director: Dr. Juan Carlos Cubero Talavera