La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline.

Presentaciones similares


Presentación del tema: "Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline."— Transcripción de la presentación:

1 Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline Chávez Cuzcano César Pérez Pinche error del clasificador número de características número de ejemplos

2 2/45 PLANTEAMIENTO DEL PROBLEMA

3 3/45 Selección de Características La selección de características se encuentra dentro de la etapa de preparación de datos dentro de un proceso de minería de datos.

4 4/45 Selección de Características Encontrar un subconjunto de características Sm del conjunto inicial de características Sm tal que logren minimizar el error de un clasificador. Se trata de reducir la dimensionalidad de los patrones de entrada Sm. Sm se construye eliminando las variables redundantes o las que no aportan suficiente información al clasificador.

5 5/45 Selección de Características Si se evalua todo el espacio de posibles combi- naciones, el costo computacional es muy alto Si n es la cantidad de características identificadas y m es la cantidad de características deseadas, el número total de posibles subconjuntos a evaluar es: Si n = m; 2 n

6 6/45 PROCEDIMIENTO DE SOLUCION

7 7/45 Proceso de Selección de Características Filtro Envolvente Híbrido e: error del clasificador B. Optima B. Sub-optima B. Aleatoria B. Heurística Clasificador

8 8/45 Generación del Sub-Conjunto Búsqueda exhaustiva Búsqueda secuencial hacia delante. Búsqueda secuencial hacia atrás. Búsqueda Aleatoria (BA). Búsqueda Aleatoria Optimizada (BAO) Búsqueda Mejor Primero (BMP) Búsqueda Genética (BG) Optima Sub-optima Aleatoria Heurística

9 9/45 Evaluación del Sub-Conjunto Filtro. Independientes del algoritmo de aprendizaje. Componente principal, entropía. Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje. Búsqueda Aleatoria, Búsqueda Aleatoria Optimizada, Búsqueda Mejor Primero, Búsqueda Genética. Híbridos. Filtro + Envolvente.

10 10/45 Criterio de Paro ¿Cuándo detener la búsqueda? : error del clasificador

11 11/45 ALGORITMOS

12 12/45 Algoritmos de Búsqueda BUSQUEDA ALEATORIA (BA) Realiza una búsqueda sobre un porcentaje de todo el espacio de sub-conjuntos posibles, seleccionados aleatoriamente. Es una búsqueda de tipo exhaustivo. BUSQUEDA ALEATORIA OPTIMIZADA (BAO) Dado un subconjunto de características, si al quitar una característica. –error sube relevante –error baja irrelevente Se pretende eliminar las irrelevantes.

13 13/45 Algoritmos de Búsqueda BUSQUEDA MEJOR PRIMERO (BMP) Usa un árbol de búsqueda, de tal forma que la característica de mejor evaluación inicial sea la primera en ser considerada como parte del subconjunto óptimo de características. BUSQUEDA GENÉTICA (BG) Hace uso de un algoritmo genético. El objetivo consiste en encontrar el sub-conjunto de características (individuos) óptimas mediante la minimización de una función objetivo (tasa de error del clasificador).

14 14/45 Criterio de Paro Búsqueda Aleatoria (BA) gradiente error < umbral Búsqueda Aleatoria Optimizada (BAO) fracasos consecutivos < umbral Búsqueda Mejor Primero (BMP) error ( l ) < error ( l + k) k = [1, 2, 3, 4, 5] Búsqueda Genética (BG) minimizar el error del clasificador.

15 15/45 Algoritmos de Clasificación Desarrollado por Quinlan. Es un árbol de regresión. Es recursivo, y se basa en la estrategia "divide y vencerás Mejora del ID3. Árbol de Decisión C4.5Naive Bayesian Aprendizaje probabilístico: Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hipótesis sea correcta. La predicción probabilística predice múltiples hipótesis ponderadas

16 16/45 Algoritmos de Clasificación Presentadas en Vapnik y Chervonenkis. Crea nuevas características linealmente separables. Busca un hiperplano que puede separar el espacio en dos partes Maquinas de Vector Soporte Red de Retropropagación Trabaja con datos continuos o discretos La salida puede ser vector de valores reales o discretos. Aprende por modificación de los pesos. Largo tiempo de entrenamiento Es difícil entender el significado de los pesos.

17 17/45 FUENTES DE DATOS

18 18/45 Datos UCI Repository of Machine Learning Database University of California

19 19/45 DISEÑO DE EXPRIMENTO

20 20/45 Diseño de Experimentos DATOS ALGORITMO DE BUSQUEDA CLASIFICADORES ADULT, BANDS, MUSHROOM Árbol de Decisión C4.5 Naive Bayesian Maquinas de Vector Soporte Red de Retropropagación Búsqueda Aleatoria Búsqueda Aleatoria Optimizada Búsqueda Mejor Primero Búsqueda Genética 48 experimentos K-fold K = 10 Validación cruzada ANOVA Voting

21 21/45 RESULTADOS EXPERIMENTALES

22 22/45 Resultados Experimentales

23 23/45 Tablas de Votación (error) Puntajes en función a la tasa de error promedio del clasificador

24 24/45 Tablas de Votación (reducción) Puntajes en función al porcentaje de reducción promedio de las características de las bases de datos

25 25/45 Conclusión Voting Reducción del error No se puede concluir quién es el peor ( 2BA y 1BG ) No se puede concluir quién es el mejor ( 2 BAO y 1BG ) Reducción de la dimensionalidad. El peor es BAO para la data usada ( 3 BAO ) No se puede concluir quién es el mejor ( 2 BG, 1 BA )

26 26/45 ANOVA: Error t(5%,6)= BANDS ADULT MUSHROOM

27 27/45 ANOVA: Reducción t(5%,6)= BANDS ADULT MUSHROOM

28 28/45 Conclusión ANOVA Reducción del error El peor es el BG para la data usada Los mejores son BAO y BA para la data usada, pero entre los no se de puede concluir una diferencia. Reducción de la dimensionalidad. El peor es el BAO para la data usada Los mejores son BA y BG para la data usada, pero entre los no se de puede concluir una diferencia.

29 29/45 GRACIAS

30


Descargar ppt "Comparación de cuatro técnicas de selección de características envolventes para procesos de clasificación. Samuel Oporto Díaz Iván Aquino Morales Jacqueline."

Presentaciones similares


Anuncios Google