Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Jacqueline Chávez Cuzcano
Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. error del clasificador número de características número de ejemplos Samuel Oporto Díaz Iván Aquino Morales Jacqueline Chávez Cuzcano César Pérez Pinche
2
PLANTEAMIENTO DEL PROBLEMA
3
Selección de Características
La selección de características se encuentra dentro de la etapa de preparación de datos dentro de un proceso de minería de datos.
4
Selección de Características
Encontrar un subconjunto de características Sm’ del conjunto inicial de características Sm tal que logren minimizar el error de un clasificador. Se trata de reducir la dimensionalidad de los patrones de entrada Sm. Sm’ se construye eliminando las variables redundantes o las que no aportan suficiente información al clasificador.
5
Selección de Características
Si se evalua todo el espacio de posibles combi-naciones, el costo computacional es muy alto Si n es la cantidad de características identificadas y m es la cantidad de características deseadas, el número total de posibles subconjuntos a evaluar es: Si n = m; 2n
6
PROCEDIMIENTO DE SOLUCION
7
Proceso de Selección de Características
Filtro Envolvente Híbrido B. Optima B. Sub-optima B. Aleatoria B. Heurística e: error del clasificador Clasificador
8
Generación del Sub-Conjunto
Búsqueda exhaustiva Búsqueda secuencial hacia delante. Búsqueda secuencial hacia atrás. Búsqueda Aleatoria (BA). Búsqueda Aleatoria Optimizada (BAO) Búsqueda Mejor Primero (BMP) Búsqueda Genética (BG) Optima Sub-optima Aleatoria Heurística
9
Evaluación del Sub-Conjunto
Filtro. Independientes del algoritmo de aprendizaje. Componente principal, entropía. Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje. Búsqueda Aleatoria, Búsqueda Aleatoria Optimizada, Búsqueda Mejor Primero, Búsqueda Genética. Híbridos. Filtro + Envolvente.
10
error del clasificador
Criterio de Paro ¿Cuándo detener la búsqueda? : error del clasificador
11
ALGORITMOS
12
Algoritmos de Búsqueda
BUSQUEDA ALEATORIA (BA) Realiza una búsqueda sobre un porcentaje de todo el espacio de sub-conjuntos posibles, seleccionados aleatoriamente. Es una búsqueda de tipo exhaustivo. BUSQUEDA ALEATORIA OPTIMIZADA (BAO) Dado un subconjunto de características, si al quitar una característica. error sube relevante <fracaso> error baja irrelevente <exito> Se pretende eliminar las irrelevantes.
13
Algoritmos de Búsqueda
BUSQUEDA MEJOR PRIMERO (BMP) Usa un árbol de búsqueda, de tal forma que la característica de mejor evaluación inicial sea la primera en ser considerada como parte del subconjunto óptimo de características. BUSQUEDA GENÉTICA (BG) Hace uso de un algoritmo genético. El objetivo consiste en encontrar el sub-conjunto de características (individuos) óptimas mediante la minimización de una función objetivo (tasa de error del clasificador).
14
Criterio de Paro Búsqueda Aleatoria (BA) gradiente error < umbral
Búsqueda Aleatoria Optimizada (BAO) fracasos consecutivos < umbral Búsqueda Mejor Primero (BMP) error (l) < error (l + k) k = [1, 2, 3, 4, 5] Búsqueda Genética (BG) minimizar el error del clasificador.
15
Algoritmos de Clasificación
Árbol de Decisión C4.5 Naive Bayesian Aprendizaje probabilístico: Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hipótesis sea correcta. La predicción probabilística predice múltiples hipótesis ponderadas Desarrollado por Quinlan. Es un árbol de regresión. Es recursivo, y se basa en la estrategia "divide y vencerás“ Mejora del ID3.
16
Algoritmos de Clasificación
Maquinas de Vector Soporte Red de Retropropagación Presentadas en Vapnik y Chervonenkis. Crea nuevas características linealmente separables. Busca un hiperplano que puede separar el espacio en dos partes Trabaja con datos continuos o discretos La salida puede ser vector de valores reales o discretos. Aprende por modificación de los pesos. Largo tiempo de entrenamiento Es difícil entender el significado de los pesos.
17
FUENTES DE DATOS
18
Datos UCI Repository of Machine Learning Database
University of California
19
DISEÑO DE EXPRIMENTO
20
Diseño de Experimentos
DATOS ADULT, BANDS, MUSHROOM Árbol de Decisión C4.5 Naive Bayesian Maquinas de Vector Soporte Red de Retropropagación Búsqueda Aleatoria Búsqueda Aleatoria Optimizada Búsqueda Mejor Primero Búsqueda Genética 48 experimentos ALGORITMO DE BUSQUEDA CLASIFICADORES ANOVA Voting K-fold Validación cruzada K = 10
21
RESULTADOS EXPERIMENTALES
22
Resultados Experimentales
23
Tablas de Votación (error)
Puntajes en función a la tasa de error promedio del clasificador
24
Tablas de Votación (reducción)
Puntajes en función al porcentaje de reducción promedio de las características de las bases de datos
25
Conclusión Voting Reducción del error
No se puede concluir quién es el peor (2BA y 1BG) No se puede concluir quién es el mejor (2 BAO y 1BG) Reducción de la dimensionalidad. El peor es BAO para la data usada (3 BAO) No se puede concluir quién es el mejor (2 BG, 1 BA)
26
ANOVA: Error t(5%,6)=1.9432 BANDS ADULT MUSHROOM
27
ANOVA: Reducción t(5%,6)=1.9432 BANDS ADULT MUSHROOM
28
Conclusión ANOVA Reducción del error
El peor es el BG para la data usada Los mejores son BAO y BA para la data usada, pero entre los no se de puede concluir una diferencia. Reducción de la dimensionalidad. El peor es el BAO para la data usada Los mejores son BA y BG para la data usada, pero entre los no se de puede concluir una diferencia.
29
GRACIAS
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.