Resultados y Conclusiones Desarrollo e Implementación

Slides:



Advertisements
Presentaciones similares
DÍA DA PAZ: O Poder dos xestos..
Advertisements

CAPACITACIÓN PARA LA APLICACIÓN Y CUMPLIMIENTO DE LA NORMATIVA
5. UNITATEA: INGURUNE HOTZAK, BEROAK ETA EPELAK
Necesidades de Interconexión y Particularidades de Operación
Ondas.
REFLEXIÓN Y REFRACCIÓN, LEY DE SNELL
INERCIA DE ROTACIONES.
1. Que es Cosmologia? 1.1 Horizontes
DEPARTAMENTO DE CIENCIAS ECONÓMICAS, ADMINISTRATIVAS Y DE COMERCIO CARRERA DE ADMINISTRACIÓN TURÍSTICA Y HOTELERA TRABAJO DE TITULACIÓN, PREVIO A LA.
UNIVERSIDAD MAYOR DE SAN ANDRÉS
“DISEÑO, CONSTRUCCIÓN E IMPLEMENTACIÓN DE UN EQUIPO MEDIDOR DE FUERZA DE IMPACTO, CON SISTEMA DE ELEVACIÓN, FRENADO Y HMI PARA EL LABORATORIO DE MECÁNICA.
FUNDAMENTOS DE PROGRAMACION DANIELA RODRIGUEZ L.
ERRORES E INCERTIDUMBRES
Asignatura: FÍSICA Carreras: Ingeniería Agronómica Bromatología.
CASO CLÍNICO DE LABORATORIO
BIG DATA + BI Creando Empresas Inteligentes con Valor
Dpto. de Física y Química
optaciano Vásquez UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO
Tesis de grado previa a la obtención del título de Ingeniería en Administración Turística y Hotelera PLAN PARA EL APROVECHAMIENTO DE LOS RECURSOS NATURALES.
Una Clase Inusual sobre Ciencia y Fe en una Universidad Secular
La Planeación y Control Financiero
MAT289 – Laboratorio de Modelación II
PROPIEDADES DE LOS NÚMEROS REALES
ANÁLISIS DEL DESEMPEÑO DE UN SISTEMA MIMO EN UN CANAL NO LINEAL COMPLEJO DIVIDIDO EN SUBBANDA CON SERIES DE VOLTERRA AUTOR: VALERIA IMBAQUINGO DIRECTOR:
DEPARTAMENTO DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y DE COMERCIO
DEPARTAMENTO DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y DE COMERCIO
ACCIONES SOBRE PUENTES DE CARRETERAS - Curso Proyecto
DESNUTRICIÓN Dr. Edgar Játiva MD. Msc..
DIMENSIÓN FRACTAL: APARICIÓN Y CÁLCULO MEDIANTE EL MÉTODO BOX COUNTING EN DISTINTOS ÁMBITOS AUTORES: CONCEPCIÓN CARMONA CHAVERO , AMINE CHAGHIR CHIKHAOUI.
AUTOR: LAURA VANESSA CEVALLOS PARRAGA
Regresión y Correlación Múltiple: El modelo de regresión múltiple.
Capitulo 6 – La historia termica del Universo
Investigación de operaciones
CARRERA DE INGENIERÍA MECÁNICA ABEDRABBO HAZBUN, ANIBAL FARUK
UNIVERSIDAD DE LAS FUERZAS ARMADAS ESPE
PROBLEMAS ARITMÉTICOS Tema 4 4º ESO Op A
Conceptos Matemáticos
Departamento de eléctrica y electrónica
Dpto. de Física y Química
6. EJEMPLOS DE REACCIONES QUÍMICAS Dpto. de Física y Química
  TRABAJO DE TITULACIÓN, PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERO EN FINANZAS –CONTADOR PÚBLICO-AUDITOR  TEMA: ESTUDIO ECONÓMICO FINANCIERO PARA LA.
Julio César Torres Varela
Principios mendelianos
Robótica Modular Libre
UNIVERSIDAD DE LAS FUERZAS ARMADAS “ESPE”
UNIVERSIDAD DE LAS FUERZAS ARMADAS ESPE
Subastas de Largo Plazo: Diseño y Resultados
The Future of Extractives Industries in LAC and The Role of STI
AUTOR Paredes Gordillo Marco Antonio
QUÍMICA/QUÍMICA GENERAL LEYES DE LOS GASES
“ANÁLISIS DE DESEMPEÑO DE MEZCLAS ASFÁLTICAS TIBIAS”
TEMA 8: ácidos y bases QUÍMICA IB.
Investigación de operaciones
Planificación y Optimización de Consultas
2.-DESCRIBIR FENOMENOS CONOCIDOS POR LAS FUNCIONES MATEMATICAS
DEPARTAMENTO DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y DE COMERCIO   CARRERA DE INGENIERÍA EN MERCADOTECNIA   TRABAJO DE TITULACIÓN, PREVIO A LA OBTENCIÓN.
DEPARTAMENTO DE CIENCIAS DE LA TIERRA Y LA CONSTRUCCIÓN CARRERA DE INGENIERÍA GEOGRÁFICA Y DEL MEDIO AMBIENTE TRABAJO DE TITULACIÓN PREVIO A LA OBTENCIÓN.
Tema 8 Las fuerzas IES Padre Manjón Prof: Eduardo Eisman.
Presentado por: Juan David Chimarro
DEPARTAMENTO DE CIENCIAS ECONÓMICAS, ADMINISTRATIVAS Y DE COMERCIO CARRERA DE INGENIERÍA COMERCIAL SISTEMA DE COOPERACIÓN DE LA FUERZA AÉREA ECUATORIANA.
LXV Reunión anual de Comunicaciones Científicas- UMA-2016 Universidad Nacional del Sur – Bahía Blanca Modelización Estructural de Series de Tiempo de.
*CN.Q Analizar disoluciones de diferente concentración, mediante la elaboración de soluciones de uso común. SOLUCIONES.
TITULO DEL CASO CLÍNICO:
DESIGNADO DE LA CARRERA DESIGANDO DEL DEPARTAMENTO
Introducción a los Polímeros
Gabriela Pazmiño Vaneza Zambrano Octubre
TESIS DE GRADO MAESTRÍA DE PLANIFICACIÓN Y DIRECCIÓN DE MARKETING TEMA: SISTEMA DE GESTIÓN DE SERVICIOS DE CAPACITACIÓN PROFESIONAL Y EMPRESARIAL BAJO.
INCERTIDUMBRE LABORATORIO FUNDAMENTOS DE MECÁNICA.
Introducción Universidad Industrial de Santander
Transcripción de la presentación:

Resultados y Conclusiones Desarrollo e Implementación Uso de la entropía condicional para selección de atributos en clasificación supervisada. Una aplicación en datos cualitativos M. del C. Romero1, Julio A. Di Rienzo2 y Alejandro Clausse3 1 Fac. Cs. Económicas, Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina 2 Estadística y Biometría, Fac. Cs. Agropecuarias, Universidad Nacional de Córdoba, Argentina 3 PLADEMA, Fac. Cs. Exactas, Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina mariadelc.romero@gmail.com Evaluación del método mediante: PFP: porcentaje de falsos positivos (no diferenciales reales que el método los reconoce erróneamente como diferenciales). PFN: porcentaje de falsos negativos (diferenciales reales que son reconocidos como no diferenciales). Escenarios de simulación X1, …, Xp: variables binarias independientes idénticamente distribuidas. C: grupo al cual pertenece la observación. La cantidad de valores nc = 2. Depende sólo de la variable X2 con probabilidad: 1 (dependencia perfecta), 0.9, 0.8, 0.7, 0.6 y 0.5 (independencia). Cantidad de variables (además del grupo) (p): 2, 3 y 10 Cantidad de observaciones (n): 2, 3, 4, 5, 10 y 100. Cantidad de simulaciones: 10000. Introducción Los avances tecnológicos de las últimas décadas facilitaron la creación de grandes bases de datos de alta dimensionalidad (gran cantidad de atributos, de observaciones y por la cantidad superior de atributos que de observaciones). En estos casos, se requieren consideraciones en el almacenamiento, en el mantenimiento, y sobre todo, en el procesamiento de los datos. El descubrimiento de conocimiento en bases de datos (KDD: Knowledge Discovery Databases) involucra métodos para extraer conocimiento de alto nivel a partir de grandes conjuntos de datos de bajo nivel (Fayyad et al., 1996). Lo esencial de este proceso es la minería de datos: “métodos para el descubrimiento y la extracción de patrones de relación entre atributos a partir de los datos”. La clasificación supervisada suele ser una de las técnicas más usadas en estos contextos pero, el “ruido” suele ser el responsable de que los clasificadores convencionales brinden resultados inestables en aplicaciones con una cantidad de atributos superior a la cantidad de observaciones. A esta problemática se le suma la restricción de los tipos de variables. En este trabajo, se aplica el método de selección basado en la entropía condicional presentado en Romero et al. (2013) en un contexto de datos cualitativos, en particular, binarios, y se lo evalúa mediante el porcentaje de falsos positivos y falsos negativos. Resultados y Conclusiones Entre las principales conclusiones (Tabla 1): En casos de dependencia perfecta, el PFP y el PFN son aproximadamente nulos, a partir de 10 observaciones. Para un mismo nivel de dependencia y de observaciones, el aumento de la cantidad de variables no diferenciales, incrementa ligeramente el PFN y disminuye considerablemente el PFP (mayor cantidad de no diferenciales). En general, a medida que el nivel de dependencia decrece, tanto el PFP como el PFN crece. A mayor cantidad de observaciones, menor PFN. El mismo comportamiento se observa para el PFP hasta una cantidad de observaciones aproximada igual a 5. A partir de este valor y para mayor cantidad de observaciones, el PFP se incrementa, llegando, para 100 observaciones, a valores cercanos al 100%. Los atributos se incorporan al subconjunto de atributos diferenciales si mejoran la entropía condicional y, en casos con gran cantidad de observaciones, resulta muy probable lograr mínimas mejoras con la adición de atributos irrelevantes en la distinción entre grupos (incrementando el PFP). Se requiere estudiar la “condición de corte” del algoritmo para determinar un valor umbral de mejora de la entropía. Desarrollo e Implementación Tabla 1: Promedio del Porcentaje de Falsos Positivos (PFP) y del Porcentaje de Falsos Negativos (PFN) para distintos escenarios Obs (n) Dep 2 3 4 5 10 100 2 variables 1 PFN 75.5 43.6 23.4 11.5 0.4 0.0 PFP 0.9 79.4 52.4 31.8 18.1 74.7 55.9 43.2 40.2 60.7 99.9 0.8 83.1 59.4 38.4 23.1 1.9 74.9 65.3 57.5 59.9 83.8 100.0 0.7 85.8 63.3 43.8 28.0 3.1 75.1 71.4 65.9 73.0 92.1 0.6 86.4 66.5 46.2 30.4 4.4 74.3 75.6 71.2 78.5 94.5 0.5 87.8 67.9 47.4 31.0 5.4 75.3 76.6 73.5 80.1 94.8 3 variables 43.4 24.1 12.6 0.3 37.6 21.7 12.1 6.3 0.2 79.8 53.5 33.3 21.2 1.5 38.7 29.3 26.0 27.9 52.3 82.1 62.4 42.0 29.9 3.6 39.1 35.7 36.8 42.4 85.6 67.4 48.8 5.6 40.1 39.5 43.9 53.2 85.9 86.6 71.0 54.1 40.8 7.8 40.4 42.3 48.3 58.2 90.6 87.5 72.2 55.5 41.6 8.5 40.5 43.0 49.8 91.8 10 variables 72.0 47.0 17.0 14.0 8.0 5.2 1.6 81.0 52.0 54.0 38.0 9.0 6.0 7.0 6.2 11.6 85.1 85.0 65.0 67.0 89.6 22.0 9.4 7.2 8.8 10.4 22.7 90.8 86.0 66.0 36.0 9.6 9.9 10.7 94.4 90.0 82.0 69.0 49.0 10.0 11.2 14.1 32.0 96.1 89.0 77.0 50.0 10.6 12.4 14.8 34.0 96.7 Datos Contextos con variables cualitativas:   Atributos A = X1, X2, …, Xp, C conjunto finito de atributos (p+1): cantidad total de atributos X1, X2, …, Xp: atributos pertenecientes a cualquier escala de medición. La cantidad de valores de cada atributo (tamaño del lenguaje) está dada por ni, i = 1,…, p. C: atributo cualitativo que indica el grupo al cual pertenece la observación (variable de clasificación). n: cantidad de observaciones. yij: valor del atributo j-ésimo en la observación i-ésima; i = 1, …, n; j = 1, …, p X1 X2 X3 … Xp C Obser vacio nes 1 y11 y12 y13 y1p A 2 3 y31 y32 y33 y3p 4 y41 y42 y43 y4p B n yn1 yn2 yn3 ynp Método Método para generar un subconjunto de atributos que pueden considerarse diferenciales basándose en la entropía condicional (Romero et al., 2013). Entropía: cantidad media de información que es necesario proveer para no tener incertidumbre sobre una fuente determinada Entropía condicional: entropía que tiene una determinada variable C (grupo) conociendo la información que aporta otra variable X: Si la entropía (incertidumbre) del grupo disminuye por el conocimiento de algún atributo, dicho atributo es relevante para la distinción entre grupos. Algoritmo desarrollado en R usa el package entropy (Hausser y Strimmer, 2013) y consiste en agregar incrementalmente al subconjunto de atributos seleccionados aquéllos que minimicen la entropía condicional del grupo. El ciclo termina cuando se obtiene una entropía condicional igual a 0 o cuando no logra mejorarse la entropía del ciclo anterior. 𝐻 𝑋 =− 𝑖 𝑝 𝑥 𝑖 . 𝑙𝑜𝑔 2 𝑝( 𝑥 𝑖 )  X: variable aleatoria, p (xi): probabilidad de ocurrencia de cada uno de sus valores y el logaritmo en base 2 considera que la información se representará mediante código binario (bits) 𝐻 𝐶/𝑋 =− 𝑥 𝑝 𝑥 𝑦 𝑝 𝑐/𝑥 . 𝑙𝑜𝑔 2 𝑝(𝑐/𝑥) Este trabajo muestra resultados preliminares sobre el uso de la entropía condicional para la selección de atributos diferenciales. Se prevé la generación de escenarios con atributos de distintas escalas de medición para evaluar el rendimiento de la medida propuesta, el análisis de la entropía condicional final y el estudio de casos con mayor cantidad de variables que de observaciones. Referencias [1] Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P. (1996). “From Data Mining to Knowledge Discovery in Databases”. Artificial Intelligence Magazine, 17(3): 37-54. [2] Hauser, J.; Strimmer, K. (2013). Package Entropy: Estimation of Entropy, Mutual Information and Related Quantities. R package, versión 1.2.0. Versión obtenida en abril de 2013. http://strimmerlab.org/software/entropy [3] Romero, M. del C.; Di Rienzo, J.; Clausse, A. (2013). “Selección de atributos en clasificación supervisada. Uso de la entropía condicional”. IV Encuentro Iberoamericano de Biometría y XVIII Reunión Científica del Grupo Argentino de Biometría. Mar del Plata, 25 al 27 de septiembre de 2014.