Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porEmilio Campos Muñoz Modificado hace 7 años
1
Resultados y Conclusiones Desarrollo e Implementación
Uso de la entropía condicional para selección de atributos en clasificación supervisada. Una aplicación en datos cualitativos M. del C. Romero1, Julio A. Di Rienzo2 y Alejandro Clausse3 1 Fac. Cs. Económicas, Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina 2 Estadística y Biometría, Fac. Cs. Agropecuarias, Universidad Nacional de Córdoba, Argentina 3 PLADEMA, Fac. Cs. Exactas, Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina Evaluación del método mediante: PFP: porcentaje de falsos positivos (no diferenciales reales que el método los reconoce erróneamente como diferenciales). PFN: porcentaje de falsos negativos (diferenciales reales que son reconocidos como no diferenciales). Escenarios de simulación X1, …, Xp: variables binarias independientes idénticamente distribuidas. C: grupo al cual pertenece la observación. La cantidad de valores nc = 2. Depende sólo de la variable X2 con probabilidad: 1 (dependencia perfecta), 0.9, 0.8, 0.7, 0.6 y 0.5 (independencia). Cantidad de variables (además del grupo) (p): 2, 3 y 10 Cantidad de observaciones (n): 2, 3, 4, 5, 10 y 100. Cantidad de simulaciones: Introducción Los avances tecnológicos de las últimas décadas facilitaron la creación de grandes bases de datos de alta dimensionalidad (gran cantidad de atributos, de observaciones y por la cantidad superior de atributos que de observaciones). En estos casos, se requieren consideraciones en el almacenamiento, en el mantenimiento, y sobre todo, en el procesamiento de los datos. El descubrimiento de conocimiento en bases de datos (KDD: Knowledge Discovery Databases) involucra métodos para extraer conocimiento de alto nivel a partir de grandes conjuntos de datos de bajo nivel (Fayyad et al., 1996). Lo esencial de este proceso es la minería de datos: “métodos para el descubrimiento y la extracción de patrones de relación entre atributos a partir de los datos”. La clasificación supervisada suele ser una de las técnicas más usadas en estos contextos pero, el “ruido” suele ser el responsable de que los clasificadores convencionales brinden resultados inestables en aplicaciones con una cantidad de atributos superior a la cantidad de observaciones. A esta problemática se le suma la restricción de los tipos de variables. En este trabajo, se aplica el método de selección basado en la entropía condicional presentado en Romero et al. (2013) en un contexto de datos cualitativos, en particular, binarios, y se lo evalúa mediante el porcentaje de falsos positivos y falsos negativos. Resultados y Conclusiones Entre las principales conclusiones (Tabla 1): En casos de dependencia perfecta, el PFP y el PFN son aproximadamente nulos, a partir de 10 observaciones. Para un mismo nivel de dependencia y de observaciones, el aumento de la cantidad de variables no diferenciales, incrementa ligeramente el PFN y disminuye considerablemente el PFP (mayor cantidad de no diferenciales). En general, a medida que el nivel de dependencia decrece, tanto el PFP como el PFN crece. A mayor cantidad de observaciones, menor PFN. El mismo comportamiento se observa para el PFP hasta una cantidad de observaciones aproximada igual a 5. A partir de este valor y para mayor cantidad de observaciones, el PFP se incrementa, llegando, para 100 observaciones, a valores cercanos al 100%. Los atributos se incorporan al subconjunto de atributos diferenciales si mejoran la entropía condicional y, en casos con gran cantidad de observaciones, resulta muy probable lograr mínimas mejoras con la adición de atributos irrelevantes en la distinción entre grupos (incrementando el PFP). Se requiere estudiar la “condición de corte” del algoritmo para determinar un valor umbral de mejora de la entropía. Desarrollo e Implementación Tabla 1: Promedio del Porcentaje de Falsos Positivos (PFP) y del Porcentaje de Falsos Negativos (PFN) para distintos escenarios Obs (n) Dep 2 3 4 5 10 100 2 variables 1 PFN 75.5 43.6 23.4 11.5 0.4 0.0 PFP 0.9 79.4 52.4 31.8 18.1 74.7 55.9 43.2 40.2 60.7 99.9 0.8 83.1 59.4 38.4 23.1 1.9 74.9 65.3 57.5 59.9 83.8 100.0 0.7 85.8 63.3 43.8 28.0 3.1 75.1 71.4 65.9 73.0 92.1 0.6 86.4 66.5 46.2 30.4 4.4 74.3 75.6 71.2 78.5 94.5 0.5 87.8 67.9 47.4 31.0 5.4 75.3 76.6 73.5 80.1 94.8 3 variables 43.4 24.1 12.6 0.3 37.6 21.7 12.1 6.3 0.2 79.8 53.5 33.3 21.2 1.5 38.7 29.3 26.0 27.9 52.3 82.1 62.4 42.0 29.9 3.6 39.1 35.7 36.8 42.4 85.6 67.4 48.8 5.6 40.1 39.5 43.9 53.2 85.9 86.6 71.0 54.1 40.8 7.8 40.4 42.3 48.3 58.2 90.6 87.5 72.2 55.5 41.6 8.5 40.5 43.0 49.8 91.8 10 variables 72.0 47.0 17.0 14.0 8.0 5.2 1.6 81.0 52.0 54.0 38.0 9.0 6.0 7.0 6.2 11.6 85.1 85.0 65.0 67.0 89.6 22.0 9.4 7.2 8.8 10.4 22.7 90.8 86.0 66.0 36.0 9.6 9.9 10.7 94.4 90.0 82.0 69.0 49.0 10.0 11.2 14.1 32.0 96.1 89.0 77.0 50.0 10.6 12.4 14.8 34.0 96.7 Datos Contextos con variables cualitativas: Atributos A = X1, X2, …, Xp, C conjunto finito de atributos (p+1): cantidad total de atributos X1, X2, …, Xp: atributos pertenecientes a cualquier escala de medición. La cantidad de valores de cada atributo (tamaño del lenguaje) está dada por ni, i = 1,…, p. C: atributo cualitativo que indica el grupo al cual pertenece la observación (variable de clasificación). n: cantidad de observaciones. yij: valor del atributo j-ésimo en la observación i-ésima; i = 1, …, n; j = 1, …, p X1 X2 X3 … Xp C Obser vacio nes 1 y11 y12 y13 y1p A 2 3 y31 y32 y33 y3p 4 y41 y42 y43 y4p B n yn1 yn2 yn3 ynp Método Método para generar un subconjunto de atributos que pueden considerarse diferenciales basándose en la entropía condicional (Romero et al., 2013). Entropía: cantidad media de información que es necesario proveer para no tener incertidumbre sobre una fuente determinada Entropía condicional: entropía que tiene una determinada variable C (grupo) conociendo la información que aporta otra variable X: Si la entropía (incertidumbre) del grupo disminuye por el conocimiento de algún atributo, dicho atributo es relevante para la distinción entre grupos. Algoritmo desarrollado en R usa el package entropy (Hausser y Strimmer, 2013) y consiste en agregar incrementalmente al subconjunto de atributos seleccionados aquéllos que minimicen la entropía condicional del grupo. El ciclo termina cuando se obtiene una entropía condicional igual a 0 o cuando no logra mejorarse la entropía del ciclo anterior. 𝐻 𝑋 =− 𝑖 𝑝 𝑥 𝑖 . 𝑙𝑜𝑔 2 𝑝( 𝑥 𝑖 ) X: variable aleatoria, p (xi): probabilidad de ocurrencia de cada uno de sus valores y el logaritmo en base 2 considera que la información se representará mediante código binario (bits) 𝐻 𝐶/𝑋 =− 𝑥 𝑝 𝑥 𝑦 𝑝 𝑐/𝑥 . 𝑙𝑜𝑔 2 𝑝(𝑐/𝑥) Este trabajo muestra resultados preliminares sobre el uso de la entropía condicional para la selección de atributos diferenciales. Se prevé la generación de escenarios con atributos de distintas escalas de medición para evaluar el rendimiento de la medida propuesta, el análisis de la entropía condicional final y el estudio de casos con mayor cantidad de variables que de observaciones. Referencias [1] Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P. (1996). “From Data Mining to Knowledge Discovery in Databases”. Artificial Intelligence Magazine, 17(3): [2] Hauser, J.; Strimmer, K. (2013). Package Entropy: Estimation of Entropy, Mutual Information and Related Quantities. R package, versión Versión obtenida en abril de [3] Romero, M. del C.; Di Rienzo, J.; Clausse, A. (2013). “Selección de atributos en clasificación supervisada. Uso de la entropía condicional”. IV Encuentro Iberoamericano de Biometría y XVIII Reunión Científica del Grupo Argentino de Biometría. Mar del Plata, 25 al 27 de septiembre de 2014.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.