Algoritmo C4.5 Equipo # 6 José Antonio Espino López

Slides:

Advertisements

Presentaciones similares

OTROS CAMPOS DE LA IA.

Advertisements

Jacqueline Chávez Cuzcano

Mariano Alcántara Eduardo

Diseño y análisis de algoritmos

METODOS, TECNICAS E INSTRUMENTOS DE RECOLECCION DE DATOS

Relaciones y diferencias entre minería de datos y estadística

Árboles de decisión Tema 9 Parte teórica Minería de datos

Integrantes: Elsy Guadalupe González frías

ESTRUCTURA DE DATOS Unidad 04 Árboles BINARIOS DE BUSQUEDA.

Algoritmos de Minería Los métodos básicos.

TEORIA DE DECISIONES Introducción.

VISUALIZACION Y SIMULACION

UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.

UNIVERSIDAD ESTATAL DE MILAGRO Curso de Nivelación y Admisión 2012

Inteligencia Artificial Adquisición automática del conocimiento

Técnicas de Capacitación

Clustering (Agrupamiento)

Análisis y Diseño orientado a objetos con UML.

SATISFACCION DE RESTRICCIONES Sección 1-3

MÉTODOS CUANTITATIVOS

Inteligencia Artificial Gonzalo Villarreal Farah

Direcciones físicas y direcciones virtuales (lógicas)

Ana Lilia Laureano Cruces UAM-A

INTELIGENCIA DE NEGOCIOS

Listas de cotejo y escalas de apreciación

Programación Lineal Entera Antonio H. Escobar Z Universidad Tecnológica de Pereira – Colombia Posgrado en Ingeniería – Maestría/Doctorado.

Aprendizaje Automatizado

REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA

Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".

Trabajo presentado por: LUIS FERNANDO OBANDO ING

UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO

Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción

PILAS, COLAS, RECURSIVIDAD.

Curso de Estadística Básica

Representando para Aprender

áRBOL DE DECISIONES CASTILLO ORTIZ LESLY ULLANIC

Importancia de Evaluar Sitios Web Diversas características y atributos de calidad de sitios Web tales como usabilidad, navegabilidad, seguridad, características.

Probabilidad y estadística

Técnicas Supervisadas Aproximación no paramétrica

Aprendizaje Automatizado Ár boles de Clasificación.

Reconocimiento de Formas en Data Mining

(Organización y Manejo de Archivos)

Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.

Estadística Descriptiva continuación

Planificación de Procesos

PRINCIPIOS DE CALIDAD 4.- Medición.

José Ángel González Fraga, Erika. M. Ramos Michel, Facultad de Telemática, Universidad de Colima V TALLER DE PROCESAMIENTO.

Capítulo 8 Análisis de Usabilidad y Inspección

Aprendizaje en Árboles de Decisión

Una introducción a la computación evolutiva

MODELOS DEL PROCESO DE DECISIÓN DE OBJETIVOS

INTRODUCCIÓN A LA INTELIGENCIA ARTIFICIAL Y LOS SISTEMAS EXPERTOS

INTRODUCCIÓN A JUEGOS (BÚSQUEDA CON ADVERSARIOS)

@ Los libros de texto ofrecen gran cantidad de recursos que sirven para planear, impartir y evaluar la labor docente. Planeación de la instrucción Evaluación.

Sistemas Expertos Integrantes Javier Farfán Katherine Jara Héctor Gatica.

Aplicaciones Estadísticas a las Finanzas Clase 1

RIESGO, RENDIMIENTO Y VALOR

Aplicación JAVA implementando Arboles de Decisión

Matemáticas Discretas MISTI

Capas de ingeniería del Software. Rosendo Antonio Manuel Ingeniería en Sistemas Computacionales.

Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.

CODIFICACION DE HUFFMAN

Algoritmos voraces Códigos de Huffman. Descripción del problema Tenemos un archivo de entrada. Asumiremos que el archivo está compuesto de bytes (enteros.

LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.

PROGRAMA DE INNOVACIÓN Y DESARROLLO TECNOLÓGICO PRODUCTIVO – CONVENIO : SENA-NEW STETIC Proyecto: Sistema de visión industrial para inspección.

Transcripción de la presentación:

Algoritmo C4.5 Equipo # 6 José Antonio Espino López Javier Eduardo Tijerina Flores Manuel Cedano Mendoza Eleazar de la Fuente Amaya Juan José Pérez González Aníbal Chiñas Carballo Algoritmo C4.5

INTELIGENCIA ARTIFICIAL Algoritmo C4.5

Historia Fue desarrollado en 1993 por JR Quinlan, como una extensión al algoritmo ID3. Para dar solución a ciertas situaciones que el algoritmo ID3 no consideraba.

Los tres tipos de pruebas posibles propuestas por el C4.5 son: La prueba "estándar" para las variables discretas. Una prueba más compleja. Si una variable A tiene valores numéricos continuos. A <= Z y A > Z.

CARACTERÍSTICAS Permite trabajar con valores continuos para los atributos, separando los posibles resultados en 2 ramas Ai<=N y Ai>N. Los árboles son menos frondosos, ya que cada hoja cubre una distribución de clases no una clase en particular. Utiliza el método "divide y vencerás" para generar el árbol de decisión inicial a partir de un conjunto de datos de entrenamiento. Es Recursivo.

Heurística Atributos Gain Ratio (proporción de ganancia) Atributos de Valores Continuos Atributos con Valores Perdidos Atributos con Aspectos Diferentes

Ventajas respecto al Algoritmo ID3 Evitar Sobreajuste de los datos. Determinar que tan profundo debe crecer el árbol de decisión. Reducir errores en la poda. Condicionar la Post-Poda. Manejar atributos continuos. Escoger un rango de medida apropiado. Manejo de datos de entrenamiento con valores faltantes. Manejar atributos con diferentes valores. Mejorar la eficiencia computacional.

Estructura de Algoritmo C4.5 El C4.5 se basa en el ID3, por lo tanto, la estructura principal de ambos métodos es la misma. C4.5 forma parte de la familia de los TDIDT (Top Down Induction Trees), junto con antecesor el ID3. C4.5 construye un árbol de decisión mediante el algoritmo "divide y vencerás" C4.5 evalúa la Información en cada caso utilizando los criterios de entropía y ganancia

Estructura General Arbol de Decisión + Nodos: Id de Atributos + Ramas: Posibles valores del atributo asociado al nodo + Hojas: Conjuntos ya clasificados de ejemplos y etiquetados con el nombre de una clase Estructura General Arbol de Decisión Raíz NodoA NodoB Set de posibles respuestas ramas Árboles de decisión

Outlook Temperature Humidity Windy Play (positive) / Don't Play (negative) sunny 85 false Don't Play 80 90 true overcast 83 78 Play rain 70 96 68 65 64 72 95 69 75

C4.5(R-{D}, C, Sl), C4.5(R-{D}, C, S2), C4.5(R-{D}, C, Sm); Atributos: conjunto de atributos no clasificadores, C: atributo clasificador, Ejemplos: conjunto de ejemplos, devuelve un árbol de decisión AtributoM atributo con mayor Proporción de Ganancia(AtributoM,Ejemplos) entre los atributos de R; Devolver un árbol con la raíz nombrada como AtributoM y con los arcos nombrados C4.5(R-{D}, C, Sl), C4.5(R-{D}, C, S2), C4.5(R-{D}, C, Sm);

Pseudocódigo de C4.5 Función C4.5 R: conjunto de atributos no clasificadores, C: atributo clasificador, S: conjunto de ejemplos, devuelve un árbol de decisión Comienzo Si S está vacío, Devolver un único nodo con Valor Falla; ‘ para formar el nodo raiz Si todos los registros de S tienen el mismo valor para el atributo clasificador, Devolver un único nodo con dicho valor; ‘un unico nodo para todos Si R está vacío, Devolver un único nodo con el valor más frecuente del atributo clasificador en los registros de S [Nota: habrá errores, es decir, registros que no estarán bien clasificados en este caso]; Si R no está vacío, D atributo con mayor Proporción de Ganancia(D,S) entre los atributos de R; Sean {dj | j=1,2,...., m} los valores del atributo D; Sean {dj | j=1,2,...., m} los subconjuntos de S correspondientes a los valores de dj respectivamente; Devolver un árbol con la raíz nombrada como D y con los arcos nombrados d1, d2,....,dm, que van respectivamente a los árboles C4.5(R-{D}, C, Sl), C4.5(R-{D}, C, S2), C4.5(R-{D}, C, Sm); Fin

Conclusión Se genera un árbol de decisión a partir de los datos mediante particiones realizadas recursivamente, aplicando la estrategia de profundidad-primero (depth-first). El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que resulta en la mayor ganancia de información. Para cada atributo discreto, se considera una prueba con n resultados, siendo n el número de valores posibles que puede tomar el atributo. Para cada atributo continuo, se realiza una prueba binaria sobre cada uno de los valores que toma el atributo en los datos.

Muchas Gracias por Su Atención Algoritmo C4.5 Continuara…

Algoritmo C4.5 Equipo # 6 José Antonio Espino López Javier Eduardo Tijerina Flores Manuel Cedano Mendoza Eleazar de la Fuente Amaya Juan José Pérez González Aníbal Chiñas Carballo Algoritmo C4.5

Aplicaciones Algoritmo C4.5

Simulador Para Volar un Avión Cessna Los datos se obtuvieron de 3 pilotos experimentados. Haciendo un plan de vuelo asignado 30 veces. Cada acción del piloto creaba un ejemplo. Se usaron 90,000 ejemplos descritos por 20 atributos. Se uso C4.5 que genero un árbol y se convirtió a C. Se insertó en el simulador y logro volar. Los resultados fueron sorprendentes en el sentido de que aparte de aprender a volar a veces tomaba decisiones mejores que las de sus ``maestros''

Aprendizaje en la WWW WebWatcher es un sistema de ayuda de localización de información. Aprender las preferencias de un usuario. Se registra, cada vez que el usuario selecciona información de la página, o enlaces. Esta información está descrita por 530 atributos boléanos indicando si una palabra en particular aparece o no en el texto.

Grúa de embarcación Manejar una grúa (6 variables, 450,000 ejemplos) Imágenes de alta calidad generadas en tiempo real. Gráficos 3D. Texturas fotográficas obtenidas en el escenario real de trabajo. Información para el usuario y el instructor en pantalla. Secuencia de arranque y parada de la grúa real. Estiba y desestiba en bodega con grapín. Trabajo con varios tipos de materiales, con diferentes densidades y comportamientos.

Sistemas expertos Cine. Mecánica. Autos. Diagnostico medico.

DEMO

Muchas Gracias por Su Atención Algoritmo C4.5