Jacqueline Chávez Cuzcano Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. error del clasificador número de características número de ejemplos Samuel Oporto Díaz Iván Aquino Morales Jacqueline Chávez Cuzcano César Pérez Pinche
PLANTEAMIENTO DEL PROBLEMA
Selección de Características La selección de características se encuentra dentro de la etapa de preparación de datos dentro de un proceso de minería de datos.
Selección de Características Encontrar un subconjunto de características Sm’ del conjunto inicial de características Sm tal que logren minimizar el error de un clasificador. Se trata de reducir la dimensionalidad de los patrones de entrada Sm. Sm’ se construye eliminando las variables redundantes o las que no aportan suficiente información al clasificador.
Selección de Características Si se evalua todo el espacio de posibles combi-naciones, el costo computacional es muy alto Si n es la cantidad de características identificadas y m es la cantidad de características deseadas, el número total de posibles subconjuntos a evaluar es: Si n = m; 2n
PROCEDIMIENTO DE SOLUCION
Proceso de Selección de Características Filtro Envolvente Híbrido B. Optima B. Sub-optima B. Aleatoria B. Heurística e: error del clasificador Clasificador
Generación del Sub-Conjunto Búsqueda exhaustiva Búsqueda secuencial hacia delante. Búsqueda secuencial hacia atrás. Búsqueda Aleatoria (BA). Búsqueda Aleatoria Optimizada (BAO) Búsqueda Mejor Primero (BMP) Búsqueda Genética (BG) Optima Sub-optima Aleatoria Heurística
Evaluación del Sub-Conjunto Filtro. Independientes del algoritmo de aprendizaje. Componente principal, entropía. Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje. Búsqueda Aleatoria, Búsqueda Aleatoria Optimizada, Búsqueda Mejor Primero, Búsqueda Genética. Híbridos. Filtro + Envolvente.
error del clasificador Criterio de Paro ¿Cuándo detener la búsqueda? : error del clasificador
ALGORITMOS
Algoritmos de Búsqueda BUSQUEDA ALEATORIA (BA) Realiza una búsqueda sobre un porcentaje de todo el espacio de sub-conjuntos posibles, seleccionados aleatoriamente. Es una búsqueda de tipo exhaustivo. BUSQUEDA ALEATORIA OPTIMIZADA (BAO) Dado un subconjunto de características, si al quitar una característica. error sube relevante <fracaso> error baja irrelevente <exito> Se pretende eliminar las irrelevantes.
Algoritmos de Búsqueda BUSQUEDA MEJOR PRIMERO (BMP) Usa un árbol de búsqueda, de tal forma que la característica de mejor evaluación inicial sea la primera en ser considerada como parte del subconjunto óptimo de características. BUSQUEDA GENÉTICA (BG) Hace uso de un algoritmo genético. El objetivo consiste en encontrar el sub-conjunto de características (individuos) óptimas mediante la minimización de una función objetivo (tasa de error del clasificador).
Criterio de Paro Búsqueda Aleatoria (BA) gradiente error < umbral Búsqueda Aleatoria Optimizada (BAO) fracasos consecutivos < umbral Búsqueda Mejor Primero (BMP) error (l) < error (l + k) k = [1, 2, 3, 4, 5] Búsqueda Genética (BG) minimizar el error del clasificador.
Algoritmos de Clasificación Árbol de Decisión C4.5 Naive Bayesian Aprendizaje probabilístico: Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hipótesis sea correcta. La predicción probabilística predice múltiples hipótesis ponderadas Desarrollado por Quinlan. Es un árbol de regresión. Es recursivo, y se basa en la estrategia "divide y vencerás“ Mejora del ID3.
Algoritmos de Clasificación Maquinas de Vector Soporte Red de Retropropagación Presentadas en 1992. Vapnik y Chervonenkis. Crea nuevas características linealmente separables. Busca un hiperplano que puede separar el espacio en dos partes Trabaja con datos continuos o discretos La salida puede ser vector de valores reales o discretos. Aprende por modificación de los pesos. Largo tiempo de entrenamiento Es difícil entender el significado de los pesos.
FUENTES DE DATOS
Datos UCI Repository of Machine Learning Database University of California
DISEÑO DE EXPRIMENTO
Diseño de Experimentos DATOS ADULT, BANDS, MUSHROOM Árbol de Decisión C4.5 Naive Bayesian Maquinas de Vector Soporte Red de Retropropagación Búsqueda Aleatoria Búsqueda Aleatoria Optimizada Búsqueda Mejor Primero Búsqueda Genética 48 experimentos ALGORITMO DE BUSQUEDA CLASIFICADORES ANOVA Voting K-fold Validación cruzada K = 10
RESULTADOS EXPERIMENTALES
Resultados Experimentales
Tablas de Votación (error) Puntajes en función a la tasa de error promedio del clasificador
Tablas de Votación (reducción) Puntajes en función al porcentaje de reducción promedio de las características de las bases de datos
Conclusión Voting Reducción del error No se puede concluir quién es el peor (2BA y 1BG) No se puede concluir quién es el mejor (2 BAO y 1BG) Reducción de la dimensionalidad. El peor es BAO para la data usada (3 BAO) No se puede concluir quién es el mejor (2 BG, 1 BA)
ANOVA: Error t(5%,6)=1.9432 BANDS ADULT MUSHROOM
ANOVA: Reducción t(5%,6)=1.9432 BANDS ADULT MUSHROOM
Conclusión ANOVA Reducción del error El peor es el BG para la data usada Los mejores son BAO y BA para la data usada, pero entre los no se de puede concluir una diferencia. Reducción de la dimensionalidad. El peor es el BAO para la data usada Los mejores son BA y BG para la data usada, pero entre los no se de puede concluir una diferencia.
GRACIAS
soporto@wiphala.net ivaqmo@gmail.com cesaruni24@yahoo.com.mx karinajcc@yahoo.com