Un método alternativo para la construcción de árboles de decisión

Un método alternativo para la construcción de árboles de decisión
ART Un método alternativo para la construcción de árboles de decisión Doctorando: Fernando Berzal Galiano Director: Dr. Juan Carlos Cubero Talavera

Resultado del aprendizaje
Introducción Aprendizaje en Inteligencia Artificial Programas/sistemas autónomos. Sistemas de ayuda a la decisión. Resultado del aprendizaje MODELO Funciones: descripción y/o predicción. Construcción: manual o automática. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Aplicaciones Capacidad de adaptarse a nuevas situaciones y resolver nuevos problemas. No volver a cometer los mismos errores: Realizar la misma tarea a partir de la misma posición de un modo más efectivo. MODELOS Construcción manual: Entrevistas con expertos Paradoja de la Ingeniería del Conocimiento Cuanto mejor es el experto, peor describe su conocimiento Ley de Hiram Si se consultan suficientes expertos, se puede confirmar cualquier opinión Construcción automática: Información registrada (casos de entrenamiento) FUNCIONES Comprender mejor los datos de los que disponemos. Aplicar el modelo en nuevas situaciones (previamente desconocidas).

Introducción Objetivo
Conseguir modelos de clasificación simples, inteligibles y robustos de una forma eficiente y escalable. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Aprendizaje automático correcto  Recopilación de datos Grandes cantidades de datos Desarrollo de técnicas eficientes Data Mining & KDD Resulta relativamente fácil recopilar grandes cantidades de datos. Sin embargo, las técnicas tradicionalmente utilizadas en Inteligencia Artificial no resultan adecuadas por ser ineficientes y poco escalables. La necesidad de trabajar eficientemente con grandes conjuntos de datos ha dado lugar al desarrollo de las técnicas de Data Mining KDD: extracción no trivial de información potencialmente útil a partir de un gran volumen de datos en el cual la información está implícita (aunque no se conoce).

[Association Rule Trees]
Introducción Inducción de árboles de decisión + Extracción de reglas de asociación = ART [Association Rule Trees] Los desarrollos más provechosos han surgido siempre donde se encontraron dos formas de pensar diferentes. Heisenberg Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Filosofía Combinar las mejores cualidades de distintas técnicas Solución: Combinar la simplicidad conceptual de los árboles de decisión con la flexibilidad que ofrecen otras técnicas de inducción de reglas. El modelo de clasificación ART se caracteriza por dotar de mayor flexibilidad a las técnicas tradicionales de construcción de árboles de decisión, al permitir la utilización simultánea de varios atributos para ramificar el árbol de decisión y agrupar en una rama ‘else’ las ramas del árbol menos interesantes a la hora de clasificar datos, sin descuidar por ello cuestiones relativas a la eficiencia del proceso de aprendizaje. Para lograr dicho propósito se emplean técnicas de extracción de reglas de asociación que nos permiten formular hipótesis complejas de una forma eficiente y métodos de discretización que nos ofrecen la posibilidad de trabajar en dominios continuos. NOTA: Mencionar listas de decisión

Índice general Introducción Propedéutica
El modelo de clasificación ART Construcción de hipótesis candidatas Manejo de atributos continuos Cuestión de infraestructura Conclusiones

Propedéutica Árboles de decisión
Enseñanza preparatoria para el estudio de una disciplina D.R.A.E. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Árboles de decisión Inducción de reglas y listas de decisión Reglas de asociación

Árboles de decisión Representación del conocimiento: Árbol
Propedéutica Árboles de decisión Representación del conocimiento: Árbol Nodo internos  Preguntas Nodos hoja  Decisiones Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Funcionamiento: Partiendo de la raíz del árbol de decisión, cada caso es dirigido hacia una u otra rama de acuerdo con los valores de sus atributos hasta llegar a una hoja, etiquetada con la clase que se le asigna al caso. Modelo de clasificación más popular Nodos internos con tantos hijos como respuestas a la pregunta que contienen Nodos hoja etiquetados con una de las clases del problema Funcionamiento análogo al de una aguja de ferrocarril

[Top-Down Induction on Decision Trees]
Propedéutica > Árboles de decisión Construcción Algoritmos TDIDT [Top-Down Induction on Decision Trees] Estrategia “divide y vencerás” para la construcción recursiva del árbol de decisión de forma descendente. Reglas de división Reglas de parada Reglas de poda Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones HOJA (etiquetada con la clase más común) Nodo puro No encontramos ninguna forma de seguir ramificando el árbol Se cumple alguna condición de parada (regla de parada) Conjunto vacío  Información adicional (vg. C4.5 opta por la clase más frecuente en el nodo padre). NODO INTERNO: Cuando en el conjunto de entrenamiento hay casos de distintas clases, éste se divide en subconjuntos. Utilizando los casos de entrenamiento disponibles, hemos de seleccionar una pregunta para ramificar el árbol de decisión. Dicha pregunta, basada en los valores que toman los atributos predictivos en el conjunto de entrenamiento, ha de tener dos o más respuestas alternativas mutuamente excluyentes Ri. De todas las posibles alternativas, se selecciona una empleando una regla heur´ýstica a la que se denomina regla de división. El árbol de decisión resultante consiste en un nodo que identifica la pregunta realizada del cual cuelgan tantos hijos como respuestas alternativas existan. El mismo método utilizado para el nodo se utiliza recursivamente para construir los subárboles correspondientes a cada hijo del nodo, teniendo en cuenta que al hijo Hi se le asigna el subconjunto de casos de entrenamiento correspondientes a la alternativa Ri. Reglas de parada: Pureza del nodo, cota de profundidad, umbral de soporte Reglas de poda: Poda por coste-complejidad (CART), poda pesimista (C4.5) Justificación: La presencia de ruido ocasiona la generación de árboles de decisión que sobreajustan los datos del conjunto de entrenamiento.

Propedéutica > Árboles de decisión
Reglas de división Criterios heurísticos para evaluar la bondad de una partición p.ej. Medidas de impureza Ganancia de información (ID3) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Reglas de división Criterio de proporción de ganancia (C4.5)
Propedéutica > Árboles de decisión Reglas de división Criterio de proporción de ganancia (C4.5) Índice de diversidad de Gini (CART) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Reglas de división Otros criterios
Propedéutica > Árboles de decisión Reglas de división Otros criterios Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Reglas de división Alternativas de formulación más simple MAXDIF
Propedéutica > Árboles de decisión Reglas de división Alternativas de formulación más simple MAXDIF Índice Generalizado de Gini Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Reglas de división Propedéutica > Árboles de decisión
Pese a su sencillez, MAXDIF y el Índice Generalizado de Gini obtienen resultados satisfactorios en la práctica. Las distintas reglas de división propuestas mejoran marginalmente la precisión de los árboles de decisión y lo hacen sólo en situaciones concretas.  Berzal, Cubero, Cuenca & Martín-Bautista “On the quest for easy-to-understand splitting rules” Data & Knowledge Engineering, 2002 Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Emplear reglas como bloque de construcción de clasificadores
Propedéutica Inducción de reglas IDEA Emplear reglas como bloque de construcción de clasificadores Una regla (del tipo IF-THEN) divide el dominio del problema en aquellos casos que satisfacen la regla y aquéllos que no Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones PASO DE ÁRBOLES A REGLAS vs. OBTENCIÓN DIRECTA DE LAS REGLAS Estrategia de búsqueda dirigida (variante de la búsqueda primero el mejor)

Ejemplos Metodología STAR Listas de decisión
Propedéutica > Inducción de reglas Ejemplos Metodología STAR Aprendizaje incremental de expresiones lógicas en forma normal disyuntiva para describir conceptos Listas de decisión Lista ordenada de reglas if ... then ... else if ... else ... Estrategia “separa y vencerás” Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones AQ: Semilla (dependencia respecto al orden de presentación de los ejemplos) CN2: Combinar la eficiencia de los algoritmos TDIDT con la flexibilidad de la familia AQ (sin semilla) FOIL: Lógica de Primer Orden (algoritmo Greedy de búsqueda, función de evaluación similar a la de ID3 y criterio de parada basado en el principio MDL de Rissanen) CWS: Reordena el orden en que se realizan las operaciones para mejorar el rendimiento de los algoritmos. Se entrelaza la construcción del conjunto completo de reglas en vez de construir el modelo añadiendo reglas una a una.

Reglas de asociación Item k-itemset Propedéutica
En bases de datos transaccionales: Artículo involucrado en una transacción. En bases de datos relacionales: Par (atributo, valor) k-itemset Conjunto de k items Soporte de un itemset (support) soporte(I) = P(I) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Soporte: Fracción de transacciones en la BD que contienen el itemset.

Reglas de asociación Regla de asociación X  Y Propedéutica
Soporte de una regla de asociación soporte(XY) = soporte(XUY) = P(XUY) Confianza de una regla de asociación confianza(XY) = soporte(XUY) / soporte(X) = P(Y|X) Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones REGLAS: X e Y son itemsets de intersección vacía Soporte: Fracción de transacciones en la BD que contienen el itemset. Confianza: Proporción de transacciones, que, conteniendo X, también incluyen Y.

Clasificadores Propedéutica > Reglas de asociación
Modelos de clasificación parcial vg: Bayardo Modelos de clasificación “asociativos” vg: CBA (Liu et al.) Clasificadores bayesianos vg: LB (Meretakis et al.) Patrones emergentes vg: CAEP (Dong et al.) Árboles de reglas vg: Wang et al. Reglas generales con excepciones vg: Liu et al. Introducción Propedéutica Árboles Reglas Asociación El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Modelos de clasificación asociativos: selección de reglas

El modelo ART Presentación Construcción del clasificador ART Ejemplo
Uso del clasificador ART Propiedades del clasificador ART Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

ART = Association Rule Tree Reglas de asociación + Ramas “else”
El modelo ART Presentación IDEA Aprovechar la eficiencia de los algoritmos de extracción de reglas de asociación para construir un modelo de clasificación en forma de árbol de decisión. ART = Association Rule Tree CLAVE Reglas de asociación + Ramas “else” Híbrido árbol de decisión – lista de decisión Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones vs Liu et al.: En vez de utilizar reglas generales y excepciones, se emplean ramas ‘else’

Un caso real: SPLICE El modelo ART Introducción Propedéutica
Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Parejas P28-P32, P29-P31 & P25-P35

Construcción El modelo ART K=1 Introducción Propedéutica El modelo ART
Extracción de reglas con K items en su antecedente ¿existen reglas adecuadas? Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol Sí K=K+1 ¿ K <= MaxSize ? No Creación de un nodo hoja etiquetado con la clase más frecuente Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones EXTRACCIÓN DE REGLAS SELECCIÓN DE REGLAS RAMIFICACIÓN DEL ÁRBOL Ramas “else” (vs. TDIDT) Recursión de cola (transaction trimming) Uso simultáneo de varios atributos para ramificar

Construcción El modelo ART Extracción de reglas: Hipótesis candidatas
K=1 Extracción Selección Ramificación K++ Seguir? Hoja Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Extracción de reglas: Hipótesis candidatas MinSupp Umbral de soporte mínimo MinConf Umbral de confianza mínima Umbral fijo Selección automática ASPECTOS DE INTERÉS Margen de tolerancia [ MaxConf - , MaxConf ]

Heurística de selección de reglas
El modelo ART Construcción K=1 Extracción Selección Ramificación K++ Seguir? Hoja Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Selección de reglas: Reglas agrupadas por conjuntos de atributos. Criterio de preferencia. ASPECTOS DE INTERÉS Heurística de selección de reglas Conjunto de atributos que clasifica correctamente más ejemplos del conjunto de entrenamiento.

Ejemplo Conjunto de datos
El modelo ART Ejemplo Conjunto de datos Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Ejemplo Nivel 1 K = 1 El modelo ART
NIVEL 1 - Extracción de reglas de asociación Umbral de soporte mínimo = 20% Selección automática del umbral de confianza Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (Y=0) then C=0 with confidence 75% if (Y=1) then C=1 with confidence 75% S2: if (Z=0) then C=0 with confidence 75% if (Z=1) then C=1 with confidence 75%

Ejemplo Nivel 1 K = 2 El modelo ART
NIVEL 1 - Extracción de reglas de asociación Umbral de soporte mínimo = 20% Selección automática del umbral de confianza Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) S2: if (X=1 and Z=0) then C=0 (100%) if (X=1 and Z=1) then C=1 (100%) S3: if (Y=0 and Z=0) then C=0 (100%) if (Y=1 and Z=1) then C=1 (100%)

Ejemplo Nivel 1 El modelo ART NIVEL 1
Selección del mejor conjunto de reglas p.ej. S1 Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else ...

Ejemplo Nivel 1  Nivel 2 El modelo ART Introducción Propedéutica
Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Ejemplo Nivel 2 El modelo ART NIVEL 2 Extracción de reglas
Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones S1: if (Z=0) then C=0 with confidence 100% if (Z=1) then C=1 with confidence 100% RESULTADO X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else Z=0: C=0 (2) Z=1: C=1 (2)

Ejemplo ART vs. TDIDT ART TDIDT El modelo ART Introducción
Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Uso del clasificador El modelo ART  Berzal, Cubero, Sánchez & Serrano
Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones  Berzal, Cubero, Sánchez & Serrano “ART: A hybrid classification model” Machine Learning

Manejo de valores nulos:
El modelo ART Uso del clasificador Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Manejo de valores nulos: Rama “else” (vs. C4.5 & CART)

Uso del clasificador Conversión del árbol en reglas El modelo ART
Conjunto de reglas Lista de decisión Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Propiedades Estrategia de búsqueda Robustez del clasificador
El modelo ART Propiedades Estrategia de búsqueda Algoritmo greedy “separa y vencerás” Robustez del clasificador Ruido y claves primarias Complejidad del árbol Profundidad Factor de ramificación 1/MinSupp Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Metodología STAR & Listas de decisión Sin necesidad de mecanismos artificiales Umbral absoluto de soporte -> Profundidad máxima del árbol & Recorridos sobre el conjunto de datos -> O(N)

Resultados experimentales
El modelo ART Resultados experimentales Implementación Java 2 SDK (Sun Microsystems) AspectJ Experimentación 10-CV & Tests estadísticos JDBC (InterBase 6) Windows NT 4.0 Workstation Conjuntos de datos UCI Machine Learning Repository Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Precisión del clasificador
El modelo ART > Resultados experimentales Precisión del clasificador Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones NB: Conjuntos de datos grandes Ref. Tests estadísticos

Complejidad El modelo ART > Resultados experimentales Introducción
Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Tiempo de entrenamiento
El modelo ART > Resultados experimentales Tiempo de entrenamiento Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones NB: Acceso a disco

Operaciones de E/S El modelo ART > Resultados experimentales
Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Operaciones de E/S El modelo ART > Resultados experimentales
Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Otros experimentos Selección del umbral de confianza Variación del umbral de soporte Umbrales para cada clase Heurísticas de selección de reglas

Comentarios finales Modelos de clasificación obtenidos
El modelo ART Comentarios finales Modelos de clasificación obtenidos Precisión aceptable Complejidad reducida Interacciones entre atributos Método de construcción de clasificadores Algoritmo eficiente Método escalable Selección automática de parámetros Introducción Propedéutica El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Hipótesis candidatas Extracción de reglas de asociación
El algoritmo TBAR TBAR en ART Evaluación de las reglas obtenidas Medidas disponibles Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

con K items en su antecedente
Hipótesis candidatas Extracción de reglas Sí No K=1 Extracción de reglas con K items en su antecedente ¿existen reglas adecuadas? Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol K=K+1 ¿ K <= MaxSize ? Creación de un nodo hoja etiquetado con la clase más frecuente Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

Extracción de reglas de asociación
Hipótesis candidatas > Extracción de reglas Reglas de asociación Extracción de reglas de asociación Umbrales mínimos MinSupport MinConfidence Estrategia “divide y vencerás” Encontrar todos los itemsets frecuentes. Generar las reglas de asociación que se derivan de los itemsets frecuentes. Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

Reglas de asociación Obtención de los itemsets frecuentes Lk
Hipótesis candidatas > Extracción de reglas Reglas de asociación Obtención de los itemsets frecuentes Lk Algoritmos de la familia Apriori Generación de candidatos Ck a partir de Lk-1 x Lk-1 Recorrido secuencial de la base de datos para obtener Lk a partir de Ck Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

TBAR Árbol de itemsets Hipótesis candidatas > Extracción de reglas
Algoritmo de la familia Apriori IDEA Árbol de itemsets [Tree-Based Association Rule mining]  Berzal, Cubero, Marín & Serrano “TBAR: An efficient method for association rule mining in relational databases” Data & Knowledge Engineering, 2001 Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Uso de una única estructura de datos para almacenar todos los itemsets DHP...

TBAR: Árbol de itemsets
Hipótesis candidatas > Extracción de reglas TBAR: Árbol de itemsets Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Uso de una única estructura de datos para almacenar todos los itemsets DHP...

TBAR vs. Apriori Hipótesis candidatas > Extracción de reglas
Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones vg: CENSUS

TBAR http://frontdb.ugr.es/
Hipótesis candidatas > Extracción de reglas TBAR Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

TBAR en ART Hipótesis candidatas > Extracción de reglas
Extracción de itemsets En la última iteración, L[MaxSize+1], se eliminan los itemsets candidatos que no incluyen el atributo de la clase. Generación de reglas Se sustituye la fase de generación de reglas por una exploración adecuada del árbol de itemsets. Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Ajustes

Evaluación de las reglas
Hipótesis candidatas Evaluación de las reglas K=1 Extracción de reglas con K items en su antecedente ¿existen reglas adecuadas? Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol Sí K=K+1 ¿ K <= MaxSize ? No Creación de un nodo hoja etiquetado con la clase más frecuente Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

Medidas de cumplimiento
Hipótesis candidatas > Evaluación de las reglas Medidas de cumplimiento Medidas alternativas Confianza Convicción Interés Divergencia Hellinger Factores de certeza Utilidad ... Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Medidas alternativas CONFIANZA CONVICCIÓN: Mayor cuanto menor sea la probabilidad P (A  ¬C ) + Reglas de clases poco frecuentes - Dominio no acotado INTERÉS: Cuanto más comunes sean A y C, menor interés tiene la regla DIVERGENCIA: Medida de distancia entre las probabilidades de las clases del problema a priori y a posteriori. FACTORES DE CERTEZA: Grado de variación de la probabilidad de que aparezca C cuando se consideran únicamente las tuplas que verifican A. La convicción: es equivalente a los factores de certeza en los casos que nos interesan (CF>0), pero no está acotada Un mayor factor de certeza no implica una mayor confianza/precisión. ALTERNATIVA: Restricción adicional sobre las reglas consideradas al construir el clasificador ART. Confianza(regla)>Soporte(consecuente) OTRAS...

Hipótesis candidatas > Evaluación de las reglas Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones Abanico de posibilidades de cara al usuario UTILIDAD: Mejora el porcentaje de clasificación obtenido a cambio de un pequeño aumento en la complejidad del clasificador.

Comentarios finales Hipótesis candidatas
Formulación de hipótesis candidatas: Extracción de reglas de asociación Algoritmo TBAR Evaluación de hipótesis candidatas: Existencia de criterios alternativos Confianza / Utilidad Factores de certeza / Convicción Introducción Propedéutica El modelo ART Hipótesis candidatas Extracción Evaluación Atributos continuos Infraestructura Conclusiones

Atributos continuos Discretización vg: Discretización contextual
Árboles n-arios con atributos continuos Resultados experimentales: Manejo de atributos continuos en ART Anexo: Medidas de similitud Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Discretización Métodos de agrupamiento Métodos de discretización
Atributos continuos Discretización Métodos de agrupamiento Basados en centroides Jerárquicos Aglomerativos Divisivos Métodos de discretización Discretización supervisada vs. no supervisada Uso local vs. global Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones MÉTODOS DE DISCRETIZACIÓN No supervisados: Equidepth, equiwidth, regla 3-4-5, K-Medias Supervisados: 1R, MDLP (Fayyad e Irani), Zeta Basados en centroides: K-Medias Jerárquicos (incrementales): todos los demás

Discretización contextual
Atributos continuos Discretización contextual IDEA Medir la similitud existente entre los vectores característicos de los valores adyacentes del atributo continuo. Discretización supervisada Discretización jerárquica Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones

Atributos continuos Discretización contextual Versión Versión aglomerativa divisiva Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Discretización contextual aglomerativa Un intervalo por valor del atributo. Combinar los dos intervalos adyacentes más similares. Mientras no se verifique ningún criterio de parada, volver al paso 2. Discretización contextual divisiva Un único intervalo. Dividir en dos uno de los intervalos de la configuración actual utilizando el punto de corte que da lugar a la configuración de intervalos menos similares entre sí. t t

Atributos continuos Discretización contextual Ejemplo Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones EFICIENCIA MEDIDAS DE SIMILITUD Modelos basados en medidas de distancia Modelos basados en medidas de correlación Modelos basados en Teoría de Conjuntos

Árboles n-arios Atributos continuos
Atributos continuos en árboles de decisión Árboles binarios Árboles n-arios Métodos de discretización Local Global vg: Discretización local jerárquica Variante aglomerativa Variante aglomerativa con pre-discretización Variante divisiva Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Árboles binarios: Selección de un umbral Punto medio Mayor valor existente en los datos que no excede del punto medio En función del número de casos que queden por encima y por debajo Árboles n-arios: Métodos de discretización (local o global) Efecto del “ruido” sobre la versión aglomerativa -> Pre-discretización -> Versión divisiva EFICIENCIA

Árboles n-arios Atributos continuos Resultados experimentales:
Discretización en los algoritmos TDIDT Precisión similar a la obtenida por C4.5. Árboles más pequeños (tanto en número de hojas como en profundidad media). La discretización global mejora la eficiencia, manteniendo la precisión y reduciendo la complejidad del árbol. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Mejores discretizadores: MDLP (Fayyad e Irani) & Contextual

Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones

Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Recomendación: MDLP o Contextual Alternativa: Medidas de pureza (MDLP) vs. Medidas de similitud (Contextual). Eficiencia -> Técnicas adecuadas para problemas de Data Mining. Error

Atributos continuos Resultados experimentales Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones Recomendación: MDLP o Contextual Alternativa: Medidas de pureza (MDLP) vs. Medidas de similitud (Contextual). Eficiencia -> Técnicas adecuadas para problemas de Data Mining. Complejidad

Comentarios finales Atributos continuos ART con atributos continuos...
Precisión similar a la obtenida por los algoritmos TDIDT. Árboles mucho más pequeños que los obtenidos por otros métodos. Mejor si se utiliza discretización global: Mayor precisión. Menor complejidad. Mayor eficiencia. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Discretización Árboles n-arios Resultados Infraestructura Conclusiones EFICIENCIA: Discretización global hasta un orden de magnitud mejor...

Infraestructura Modelo conceptual del sistema
Sistemas basados en componentes Diseño e implementación vg: Conjuntos de datos Servicio de persistencia Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Objetivo: Plantear una arquitectura general que facilite la implementación y la utilización de técnicas de Data Mining (OLAP vs. OLTP).

Modelo conceptual Modelo SMP Infraestructura Introducción Propedéutica
El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Enfoque MDA: Modelo independiente de cualquier tecnología particular. “la estructura y el comportamiento esencial del sistema ha de capturarse de forma abstracta para que su ¡mplementación pueda adaptarse a diferentes tecnologías” Modelo SMP © Perry y Kaiser (IEEE TSE’1991) Estructura: Objetos y agregaciones de objetos sobre los que se opera (objetos persistentes). Mecanismos: Herramientas que nos permiten resolver problemas (agentes). Política: Reglas y estrategias impuestas por el entorno (usuarios y roles). USUARIOS Usuarios de modelos existentes Constructores de modelos Desarrolladores Administradores

Componentes Infraestructura Introducción Propedéutica El modelo ART
Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Origen: ROOM (TDA->Actores/agentes)

EnTerprise Run-time Environment Kernel
Infraestructura Componentes ETREK EnTerprise Run-time Environment Kernel Clientes: Sesiones, recursos & metadatos. Agentes: Planificación, migración & monitorización. Infraestructura: Evolución & coordinación. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones TAREAS de la que es responsable el núcleo: Respecto a los clientes: gestión de sesiones, acceso a los recursos, tramitación de solicitudes & recopilación de metadatos. Respecto a los agentes: planificación, asignación de recursos, monitorización & notificación. Respecto al propio sistema: persistencia, “hot deployment” y coordinación con otras instancias de ETREK

Diseño e implementación
Infraestructura Diseño e implementación Patrones de diseño Tecnologías existentes Servicios web (SOAP, WSDL & UDDI) Java: RMI, Jini... Objetivos Transparencia Usabilidad Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones PATRONES DE DISEÑO Experiencia recopilada -> Soluciones de utilidad en el desarrollo de software JAVA Flexibilidad (cargador de clases), movilidad de los agentes (Jini) & seguridad (control de acceso y transmisión de datos). En contra: Monitorización del uso de recursos. OBJETIVOS: Transparencia de cara a los distintos tipos de usuarios del sistema: Ocultar la complejidad del sistema. Usabilidad: “Trabajadores del conocimiento” Almacenar documentos y modelos Compartir información entre usuarios (teniendo en cuenta restricciones de acceso)

Infraestructura Diseño e implementación Servicio de persistencia Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Almacenar documentos y modelos Compartir información entre usuarios (teniendo en cuenta restricciones de acceso)

Infraestructura Diseño e implementación Acceso a los datos Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones

Infraestructura Diseño e implementación Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Supercomputador virtual...

Infraestructura Diseño e implementación  Berzal, Blanco, Cubero & Marín OLAP vs. OLTP in the middle tier: Component-based data mining frameworks Communications of the ACM Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Modelo Componentes Diseño Conclusiones Supercomputador virtual...

Conclusiones ART Infraestructura Extracción de reglas de asociación
Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones Técnicas de clasificación ART Técnicas de discretización

Conclusiones ART Árboles n-arios politéticos con ramas “else”
vs. TDIDT Árboles más pequeños vs. DL Extracción más eficiente de reglas Sin mecanismos artificiales adicionales. Ajuste automático de parámetros. Método escalable (reglas de asociación). Modelos de clasificación simples y precisos. vg: ADN Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones PARÁMETROS: Ajuste automático salvo que se pida lo contrario Medidas alternativas Discretización global

Conclusiones Resultados complementarios Algoritmo TBAR.
Algoritmos TDIDT: Reglas de división alternativas: MaxDif y el Índice Generalizado de Gini. Árboles n-arios arbitrarios con técnicas de discretización jerárquica. Discretizador contextual. Arquitectura basada en componentes Modelización de conjuntos de datos. Almacén de datos. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Trabajo futuro Híbrido ART-TDIDT. Técnicas difusas.
Reglas de asociación cuantitativas. ART en problemas de regresión. Algoritmos de extracción de reglas. Introducción de pesos en las reglas. Medidas alternativas de evaluación de reglas. Criterios alternativos de selección de reglas. ART como técnica de aprendizaje incremental. Post-procesamiento de los clasificadores ART. Introducción Propedéutica El modelo ART Hipótesis candidatas Atributos continuos Infraestructura Conclusiones

Un método alternativo para la construcción de árboles de decisión
ART Un método alternativo para la construcción de árboles de decisión Doctorando: Fernando Berzal Galiano Director: Dr. Juan Carlos Cubero Talavera

Un método alternativo para la construcción de árboles de decisión

Presentaciones similares

Presentación del tema: "Un método alternativo para la construcción de árboles de decisión"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Un método alternativo para la construcción de árboles de decisión

Presentaciones similares

Presentación del tema: "Un método alternativo para la construcción de árboles de decisión"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback