Jacqueline Chávez Cuzcano

Slides:



Advertisements
Presentaciones similares
¿PARA QUE ESTAMOS AQUÍ? LOS OBJETIVOS DE LA ENCARNACIÓN.
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
el 1, el 4 y el 9 tres cuadrados perfectos autosuficientes
ESTADISTICA A ESTADISTICA A UNMSM - FQIQ
Paso 1 Portada YO SOY EUROPEO Comisión Europea.
Complejidad Computacional
Vera Olivera, David Carlos Marín Rosales, Nicolae Harry
Redes Neuronales de Retropropagación
SISTEMAS INTELIGENTES
Selección de Características
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
M. Dolores Frías-Navarro
Aranda Fernández, Miguel Ángel García Redondo, Luis Miguel
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Programación entera En muchos problemas reales las variables sólo pueden tomar valores enteros Ejemplos: decisiones sobre inversiones, compras, arranques,
Programación entera En muchos problemas reales las variables sólo pueden tomar valores enteros Ejemplos: decisiones sobre inversiones, compras, arranques,
Introducción Programación Matemática Objetivos:
Respuestas Buscando a Nemo.
SIMULACIÓN DE MONTECARLO
Cuestiones y problemas
Los números.
ANALISIS DE IMÁGENES A PARTIR DE LA PRESENTACIÓN DE ALGUNAS IMÁGENES, PEDIR A LOS NIÑOS QUE OBSERVEN LAS ILUSTRACIONES Y QUE DESCRIBAN EN SU CUADERNO LAS.
Introducción a la minería de datos
Árboles de decisión Tema 9 Parte teórica Minería de datos
CAPÍTULO 2 Elaboración y utilización de gráficas
FRANCISCO MARÍN HERRADA
MUESTREO (NAGA´s) BOLETÍN 5020
Verificación de los Datos Santo Domingo, Marzo 2012 LLECE - TERCE.
Los números.
Resolución de Problemas
Ejemplos ALGORITMOS.
EL OSO APRENDIZ Y SUS AMIGOS
Proyecto ProMéxico Plasmas abril SECCIONES NOTICIAS PROYECTOS UNIDAD ACTÚA EVENTUALES secciones ProMéxico.
Proyecto ProMéxico Plasmas mayo SECCIONES NOTICIAS PROYECTOS UNIDAD ACTÚA EVENTUALES secciones ProMéxico.
50 principios 1. Los clientes asumen el mando.
Proyecto para Centros que trabajan una vez por semana.
CAPÍTULO 2 Elaboración y utilización de gráficas
Ecuaciones Cuadráticas
Ecuaciones y Resolución de Ecuaciones Lineales
Expresiones Racionales
Estadística Computacional I
Red Neuronal de Contrapropagación
Investigación Algorítmica
Comité Nacional de Información Bogotá, Julio 27 de 2011 Consejo Nacional de Operación de Gas Natural 1 ESTADISTICAS NACIONALES DE OFERTA Y DEMANDA DE GAS.
La ley de los grandes números
Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 7: Máquinas de Vectores Soporte Curso de doctorado impartido por Dr.
Un nuevo algoritmo incremental IADEM-0
Máquinas con Vectores de Soporte - SVM
INFORME PIPADI HOSPITAL VALL DHEBRON JUNIO 2012 – JUNIO
Programación dinámica (1)
Aqui está Señoras y Señores !!!!!
Inteligencia Artificial Adquisición automática del conocimiento
CULENDARIO 2007 Para los Patanes.
Investigación en acción
ESTADOS FINANCIEROS A DICIEMBRE DE 2013.
Ing. Jorge A. Abraham Técnicas Digitales II
Herramientas útiles para el análisis de causas
Realimentacion de la salida
SATISFACCION DE RESTRICCIONES Sección 1-3
Análisis Diseño y Desarrollo
Inteligencia Artificial Resolver problemas mediante búsqueda
ESCUELA PROFESIONAL DE INGENIERIA INDUSTRIAL CURSO: GESTION DE LA CALIDAD ING.ELIZABETH FERG 1.
Derivación de Contraejemplos para Model Checking Cuantitativo
Representación del Conocimiento
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Reconocimiento de Patrones

Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Transcripción de la presentación:

Jacqueline Chávez Cuzcano Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. error del clasificador número de características número de ejemplos Samuel Oporto Díaz Iván Aquino Morales Jacqueline Chávez Cuzcano César Pérez Pinche

PLANTEAMIENTO DEL PROBLEMA

Selección de Características La selección de características se encuentra dentro de la etapa de preparación de datos dentro de un proceso de minería de datos.

Selección de Características Encontrar un subconjunto de características Sm’ del conjunto inicial de características Sm tal que logren minimizar el error de un clasificador. Se trata de reducir la dimensionalidad de los patrones de entrada Sm. Sm’ se construye eliminando las variables redundantes o las que no aportan suficiente información al clasificador.

Selección de Características Si se evalua todo el espacio de posibles combi-naciones, el costo computacional es muy alto Si n es la cantidad de características identificadas y m es la cantidad de características deseadas, el número total de posibles subconjuntos a evaluar es: Si n = m; 2n

PROCEDIMIENTO DE SOLUCION

Proceso de Selección de Características Filtro Envolvente Híbrido B. Optima B. Sub-optima B. Aleatoria B. Heurística e: error del clasificador Clasificador

Generación del Sub-Conjunto Búsqueda exhaustiva Búsqueda secuencial hacia delante. Búsqueda secuencial hacia atrás. Búsqueda Aleatoria (BA). Búsqueda Aleatoria Optimizada (BAO) Búsqueda Mejor Primero (BMP) Búsqueda Genética (BG) Optima Sub-optima Aleatoria Heurística

Evaluación del Sub-Conjunto Filtro. Independientes del algoritmo de aprendizaje. Componente principal, entropía. Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje. Búsqueda Aleatoria, Búsqueda Aleatoria Optimizada, Búsqueda Mejor Primero, Búsqueda Genética. Híbridos. Filtro + Envolvente.

error del clasificador Criterio de Paro ¿Cuándo detener la búsqueda? : error del clasificador

ALGORITMOS

Algoritmos de Búsqueda BUSQUEDA ALEATORIA (BA) Realiza una búsqueda sobre un porcentaje de todo el espacio de sub-conjuntos posibles, seleccionados aleatoriamente. Es una búsqueda de tipo exhaustivo. BUSQUEDA ALEATORIA OPTIMIZADA (BAO) Dado un subconjunto de características, si al quitar una característica. error sube  relevante <fracaso> error baja  irrelevente <exito> Se pretende eliminar las irrelevantes.

Algoritmos de Búsqueda BUSQUEDA MEJOR PRIMERO (BMP) Usa un árbol de búsqueda, de tal forma que la característica de mejor evaluación inicial sea la primera en ser considerada como parte del subconjunto óptimo de características. BUSQUEDA GENÉTICA (BG) Hace uso de un algoritmo genético. El objetivo consiste en encontrar el sub-conjunto de características (individuos) óptimas mediante la minimización de una función objetivo (tasa de error del clasificador).

Criterio de Paro Búsqueda Aleatoria (BA)  gradiente error < umbral Búsqueda Aleatoria Optimizada (BAO)  fracasos consecutivos < umbral Búsqueda Mejor Primero (BMP)  error (l) < error (l + k) k = [1, 2, 3, 4, 5] Búsqueda Genética (BG)  minimizar el error del clasificador.

Algoritmos de Clasificación Árbol de Decisión C4.5 Naive Bayesian Aprendizaje probabilístico: Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hipótesis sea correcta. La predicción probabilística predice múltiples hipótesis ponderadas Desarrollado por Quinlan. Es un árbol de regresión. Es recursivo, y se basa en la estrategia "divide y vencerás“ Mejora del ID3.

Algoritmos de Clasificación Maquinas de Vector Soporte Red de Retropropagación Presentadas en 1992. Vapnik y Chervonenkis. Crea nuevas características linealmente separables. Busca un hiperplano que puede separar el espacio en dos partes Trabaja con datos continuos o discretos La salida puede ser vector de valores reales o discretos. Aprende por modificación de los pesos. Largo tiempo de entrenamiento Es difícil entender el significado de los pesos.

FUENTES DE DATOS

Datos UCI Repository of Machine Learning Database University of California

DISEÑO DE EXPRIMENTO

Diseño de Experimentos DATOS ADULT, BANDS, MUSHROOM Árbol de Decisión C4.5 Naive Bayesian Maquinas de Vector Soporte Red de Retropropagación Búsqueda Aleatoria Búsqueda Aleatoria Optimizada Búsqueda Mejor Primero Búsqueda Genética 48 experimentos ALGORITMO DE BUSQUEDA CLASIFICADORES ANOVA Voting K-fold Validación cruzada K = 10

RESULTADOS EXPERIMENTALES

Resultados Experimentales

Tablas de Votación (error) Puntajes en función a la tasa de error promedio del clasificador

Tablas de Votación (reducción) Puntajes en función al porcentaje de reducción promedio de las características de las bases de datos

Conclusión Voting Reducción del error No se puede concluir quién es el peor (2BA y 1BG) No se puede concluir quién es el mejor (2 BAO y 1BG) Reducción de la dimensionalidad. El peor es BAO para la data usada (3 BAO) No se puede concluir quién es el mejor (2 BG, 1 BA)

ANOVA: Error t(5%,6)=1.9432 BANDS ADULT MUSHROOM

ANOVA: Reducción t(5%,6)=1.9432 BANDS ADULT MUSHROOM

Conclusión ANOVA Reducción del error El peor es el BG para la data usada Los mejores son BAO y BA para la data usada, pero entre los no se de puede concluir una diferencia. Reducción de la dimensionalidad. El peor es el BAO para la data usada Los mejores son BA y BG para la data usada, pero entre los no se de puede concluir una diferencia.

GRACIAS

soporto@wiphala.net ivaqmo@gmail.com cesaruni24@yahoo.com.mx karinajcc@yahoo.com