Grupo de investigación en Bases de Datos y Sistemas de Información Inteligentes Departamento de Ciencias de la Computación e Inteligencia Artificial ETS Ingeniería Informática - Universidad de Granada
TMiner Data Mining en Java Entorno integrado de “minería de datos” desarrollado en Java. JDBC da acceso prácticamente a cualquier base de datos existente en el mercado.
TMiner Modelo conceptual
TMiner Interfaz Windows Los “trabajadores del conocimiento” pueden analizar sus propios datos utilizando un interfaz estándar de tipo WIMP...
TMiner Interfaz Web Como applet... ... y como aplicación web
TMiner Sistema de ayuda en línea TMiner ofrece una interfaz bilingüe (español e inglés) con un sistema de ayuda en línea en formato HTML
TMiner Monitorización Siempre podemos ver el uso de memoria de la aplicación TMiner
TMiner Infraestructura “Component-based data mining frameworks: OLAP vs. OLTP in the middle tier” Fernando Berzal, Ignacio Blanco, Juan Carlos Cubero & Nicolás Marín Communications of the ACM, December 2002
TMiner Selección de los datos
TMiner Selección de los datos Mediante el controlador JDBC adecuado se accede a la base de datos…
TMiner Selección de los datos Con TMiner podemos analizar cualquiera de los conjuntos de datos de la base de datos
TMiner El conjunto de datos
TMiner El conjunto de datos Una vez seleccionado el conjunto de datos, podemos empezar a trabajar con él
TMiner El conjunto de datos TMiner permite realizar consultas SQL
TMiner El conjunto de datos Importar datos desde ficheros…
TMiner El conjunto de datos … o exportar los datos de la base de datos
TMiner Preparación de los datos
TMiner Preparación de los datos Una vez seleccionado el conjunto de datos, podemos aplicar distintas técnicas de Data Mining
TMiner Preparación de los datos En primer lugar, seleccionamos las columnas del conjunto de datos con las que vamos a trabajar
TMiner Preparación de los datos A continuación, agrupamos los valores de cada atributo en función de cómo queramos interpretarlos
TMiner Preparación de los datos Cuando los atributos son de tipo numérico, podemos utilizar distintas técnicas de discretización
TMiner Preparación de los datos Incluso se pueden asignar etiquetas descriptivas a los conjuntos en que agrupamos los valores de los atributos
TMiner Técnicas de Data Mining
TMiner Técnicas de Data Mining Ya sólo nos queda elegir qué algoritmos utilizar, indicar valores adecuados para sus parámetros y esperar a ver los resultados que se obtienen…
TMiner Técnicas de Data Mining
TMiner Árboles de decisión Algoritmos ID3, C4.5 …
TMiner Listas de decisión Metodología STAR: Algoritmos AQ y CN2
TMiner Reglas de asociación Algoritmos Apriori y TBAR
TMiner Reglas de asociación Clasificación con reglas de asociación
Técnicas disponibles Extracción de reglas de asociación (TBAR) Modelos de clasificación Árboles de decisión ART Listas de decisión y algoritmos STAR (AQ & CN2) Clasificadores paramétricos y no paramétricos e.g. Clasificadores euclídeos y cuadráticos, k-NN, LVQ, DSM... Algoritmos de agrupamiento [clustering] e.g. K-Medias, GRASP, ISODATA...
TMiner Análizador Numérico
Técnicas de clasificación y agrupamiento Analizador Numérico Técnicas de clasificación y agrupamiento El Analizador Numérico es la parte de TMiner encargada de trabajar con números
Técnicas de clasificación y agrupamiento Analizador Numérico Técnicas de clasificación y agrupamiento Incluye técnicas de edición y condensado de datos, distintos métodos de construcción de clasificadores y múltiples algoritmos de agrupamiento
Analizador Numérico Técnicas de clasificación y agrupamiento Visualización de conjuntos de datos, estadísticas y distribuciones de clases
Analizador Numérico Técnicas de clasificación y agrupamiento Estadísticas por clases
Técnicas de clasificación y agrupamiento Analizador Numérico Técnicas de clasificación y agrupamiento
Analizador Numérico Técnicas de clasificación y agrupamiento Clasificadores paramétricos (lineales y cuadráticos)
Analizador Numérico Técnicas de clasificación y agrupamiento Clasificadores no paramétricos: k-NN
Analizador Numérico Técnicas de clasificación y agrupamiento Aprendizaje adaptativo: LVQ y DSM
Analizador Numérico Técnicas de clasificación y agrupamiento Métodos de agrupamiento: K-MEANS, GRASP, ISODATA…
Clasificación con árboles de decisión A partir del algoritmo C4.5: Reglas de división Entropía Ganancia de información Índice de Gini MaxDif Ramas ‘else’ Árboles n-arios con atributos numéricos
“ART: A hybrid classification method” Clasificación con ART ART TDIDT “ART: A hybrid classification method” Fernando Berzal, Juan Carlos Cubero, Daniel Sánchez & José María Serrano Machine Learning, 2004
Clasificación con ART
Extracción de reglas de asociación “TBAR: efficient method for association rule mining in relational databases” Fernando Berzal, Juan Carlos Cubero, Nicolás Marín & José María Serrano Data & Knowledge Engineering, 37 (2001), 47-64
Más información... Fernando Berzal Galiano fberzal@decsai.ugr.es Juan Carlos Cubero Talavera jc.cubero@decsai.ugr.es