Aplicación JAVA implementando Arboles de Decisión

Slides:



Advertisements
Presentaciones similares
ESTRUCTURA DE DATOS Unidad 04 TDA no lineales - Árboles.
Advertisements

Ejemplo 2: Reparto de 3 objetos indivisibles.
Diseño y análisis de algoritmos
Inteligencia Artificial
Árboles de decisión Tema 9 Parte teórica Minería de datos
Rocío Contreras Águila Primer Semestre 2010
Procesadores de Lenguaje
• SQL Server Analysis Services Data Mining
Investigación de Operaciones II
ESTRUCTURAS DE DATOS AVANZADAS
Métodos clasificación
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.
Definiciones: conjuntos, grafos, y árboles
Observación: Las diapositivas son sólo una herramienta para trabajar en clase (están diseñadas para corregir y completar en clase) de ninguna manera pueden.
Resolución de ecuaciones
ANÁLISIS DISCRIMINANTE
CONCEPTOS BÁSICOSDE ESTADÍSTICA.
Representación del Conocimiento
Aprendizaje Automatizado
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Algoritmo ID3.
Biograma Introducir datos en una matriz. Elegir método para máximos y mínimos. Calcular los máximos y mínimos observados. Límites.
ANALISIS DE DATOS CON EXCEL
Definiciones: conjuntos, grafos, y árboles
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Trabajo presentado por: LUIS FERNANDO OBANDO ING
UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO
Estadística I.
Hoja electrónica de calculo
áRBOL DE DECISIONES CASTILLO ORTIZ LESLY ULLANIC
Integrantes: Daniel Peña Alfredo Zuñiga
Mt. Martín Moreyra Navarrete.
Aprendizaje Automatizado Ár boles de Clasificación.
Reconocimiento de Patrones
Distribuciones derivadas del muestreo
Árboles Recomendado: 1. Nivelación Funciones
Diseño de una Base de Datos
Estadística La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos,
Parte II. Algorítmica. 5. Backtracking. 1. Análisis de algoritmos.
Matemáticas Discretas
Aprendizaje en Árboles de Decisión
Estadísticas Datos y Azar
Sesión 7: Redes Bayesianas – Inferencia
Sesión 3: Teoría de Grafos
Definiciones: conjuntos, grafos, y árboles
Investigación Educativa del
ESTADÍSTICA DESCRITIVA EMPRESARIAL
Son datos en tablas relacionadas por el contenido de ciertas columnas.
PRESENTADO POR: GUSTAVO VASQUEZ JEISON MORENO JHON FREDY PENAGOS.
UNIDAD 2 Grafos Árboles abarcadores mínimos Caminos más cortos.
Algoritmos y estructura de datos en I.O.
Sesión 6: Redes Bayesianas - Inferencia
VARIABLES ESTADISTICAS Variable es una característica (magnitud, vector o número) que puede ser medida, adoptando diferentes valores en cada uno de los.
Herramientas de Mejora de la Calidad
 Cuando una variable pasa de un valor a otro valor, se dice que dicha variable ha sufrido un INCREMENTO.
Aplicaciones Estadísticas a las Finanzas Clase 1
LUIS VILLALTA MÁRQUEZ Proceso de resolución de un nombre de dominio. –Consultas recursivas. –Consultas iterativas. –Caché y TTL
HERRAMIENTAS OFIMÁTICAS M.S.C. IVETTE HERNÁNDEZ DÁVILA
MEDIDAS DE TENDENCIA CENTRAL

Conceptos Básicos y Estadística Descriptiva
Matemáticas Discretas MISTI
Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.
INFERENCIA ESTADÍSTICA
Capítulo 5 Definición del alcance de la investigación a realizar: exploratoria, descriptiva, correlacional o explicativa.

COMPROMISOS DE LA CLASE
Aplicaciones Estadísticas a las Finanzas Clase 1
Normalización es un proceso que clasifica relaciones, objetos, formas de relación y demás elementos en grupos, en base a las características que cada.
Estadística y probabilidad
Transcripción de la presentación:

Aplicación JAVA implementando Arboles de Decisión Minería de Datos y JAVA Aplicación JAVA implementando Arboles de Decisión

Arboles de Decisión Características Son modelos usados en la minería de datos para examinar los datos e inducir las reglas para realizar predicciones. Es un árbol dirigido desde su nodo “raíz” hacia sus nodos “hojas”. Se forma a partir de una muestra de entidades catalogadas en estudio y representa una forma de clasificación de sus miembros en clases a partir de los valores de sus atributos.

Algoritmo recursivo “Divide y Vencerás” Un árbol de decisión es un clasificador que utiliza el algoritmo recursivo “Divide y Vencerás” para catalogar una entidad dentro de una población a partir de una muestra previamente clasificada. Se encuentra dentro de las técnicas de Datamining de “aprendizaje supervisado”, ya que sin la muestra previamente clasificada no es posible utilizar la técnica.

Hay 2 clasificaciones de arboles de decisión: Árboles de clasificación Árboles de regresión Usados para predecir variables discretas Usados para predecir variables continuas

Clasificación de los nodos: Raíz: es el nodo del cual parten todos los demás, no hay ningún nodo que este dirigido hacia él, o sea, no tiene nodo padre. Hoja: es un nodo del cual no salen aristas dirigidas hacia ningún otro nodo (no hay sub-arboles a partir de él). No tiene nodos hijos. El resto son nodos normales, los cuales tienen un nodo padre, y al menos 1 nodo hijo.

Resolución del Problema Se utiliza un árbol de clasificación. Se implementa el algoritmo ID3. Se utiliza Java como lenguaje de programación. El Árbol se crea a medida que se desea profundizar en sus nodos. Se separo al proyecto en 4 Capas Obtención de Muestra Cálculos de Entropía y Ganancia de Información Creación del Árbol Obtención de la Categoría

Resolución del Problema Capa: Obtención de Muestra Se obtiene de un Excel con el siguiente formato: Se introducen en una Matriz que contendrá las categorías y las columnas de los atributos. Día Estación Viento Lluvia Categoría sábado otoño fuerte no Puntual miércoles invierno leve Muy Atrasado martes Atrasado

Resolución del Problema Capa: Cálculos Entropía/IG Compuesta esencialmente por las siguientes tres funciones: Calcular la entropía de la columna categoría. Calcular la entropía de cada columna a partir de un valor dado. Calcular la ganancia de información (IG) de cada columna. El encargado de realizar estas funciones es la Matriz.

Resolución del Problema Capa: Creación del Árbol Utiliza la capa de cálculos para poder generar la raíz, los nodos y las hojas del árbol. En primer lugar obtiene la raíz (la columna de mayor IG) Luego a partir de las siguientes funciones genera los nodos y las hojas: Obtener Resultados (genera los nodos y las hojas) Obtener Resultado a partir de un valor (genera un nodo o una hoja, es utilizada por la función anterior) El encargado de realizar estas funciones es la Matriz. En la misma iteración solo se crean los nodos y las hojas de un mismo nivel del árbol.

Resolución del Problema Capas: Obtención de la Categoría A partir de un Excel con el siguiente formato se pretende categorizar una cierta cantidad de sucesos: Se realiza la creación del primer nivel del árbol, el cual incluye los nodos u hojas que dependen de la columna de mayor IG. Luego a partir del valor que se quiere categorizar y se encuentra en la columna de mayor IG, se busca entre las hojas y los nodos del nivel creado su categoria: Si es un Nodo: se crea el siguiente nivel del árbol y se itera este paso hasta llegar a una hoja. Si es una hoja: esta contiene la categoría correcta y es la que se devuelve. Día Estación Viento Lluvia Categoría sábado otoño fuerte no  ¿?

Resolución del Problema Capas: Obtención de la Categoría (cont.) Siguiendo el ejemplo anterior en la primera iteración se generara el siguiente árbol:

Resolución del Problema Capas: Obtención de la Categoría (cont.) En la segunda iteración el árbol se completara de la siguiente manera En esta iteración se frena la creación del árbol, ya que se obtuvo la categoría correcta.