Resultados y Conclusiones Desarrollo e Implementación

Slides:

Advertisements

Presentaciones similares

DÍA DA PAZ: O Poder dos xestos..

Advertisements

CAPACITACIÓN PARA LA APLICACIÓN Y CUMPLIMIENTO DE LA NORMATIVA

5. UNITATEA: INGURUNE HOTZAK, BEROAK ETA EPELAK

Necesidades de Interconexión y Particularidades de Operación

REFLEXIÓN Y REFRACCIÓN, LEY DE SNELL

INERCIA DE ROTACIONES.

1. Que es Cosmologia? 1.1 Horizontes

DEPARTAMENTO DE CIENCIAS ECONÓMICAS, ADMINISTRATIVAS Y DE COMERCIO CARRERA DE ADMINISTRACIÓN TURÍSTICA Y HOTELERA TRABAJO DE TITULACIÓN, PREVIO A LA.

UNIVERSIDAD MAYOR DE SAN ANDRÉS

“DISEÑO, CONSTRUCCIÓN E IMPLEMENTACIÓN DE UN EQUIPO MEDIDOR DE FUERZA DE IMPACTO, CON SISTEMA DE ELEVACIÓN, FRENADO Y HMI PARA EL LABORATORIO DE MECÁNICA.

FUNDAMENTOS DE PROGRAMACION DANIELA RODRIGUEZ L.

ERRORES E INCERTIDUMBRES

Asignatura: FÍSICA Carreras: Ingeniería Agronómica Bromatología.

CASO CLÍNICO DE LABORATORIO

BIG DATA + BI Creando Empresas Inteligentes con Valor

Dpto. de Física y Química

optaciano Vásquez UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

Tesis de grado previa a la obtención del título de Ingeniería en Administración Turística y Hotelera PLAN PARA EL APROVECHAMIENTO DE LOS RECURSOS NATURALES.

Una Clase Inusual sobre Ciencia y Fe en una Universidad Secular

La Planeación y Control Financiero

MAT289 – Laboratorio de Modelación II

PROPIEDADES DE LOS NÚMEROS REALES

ANÁLISIS DEL DESEMPEÑO DE UN SISTEMA MIMO EN UN CANAL NO LINEAL COMPLEJO DIVIDIDO EN SUBBANDA CON SERIES DE VOLTERRA AUTOR: VALERIA IMBAQUINGO DIRECTOR:

DEPARTAMENTO DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y DE COMERCIO

DEPARTAMENTO DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y DE COMERCIO

ACCIONES SOBRE PUENTES DE CARRETERAS - Curso Proyecto

DESNUTRICIÓN Dr. Edgar Játiva MD. Msc..

DIMENSIÓN FRACTAL: APARICIÓN Y CÁLCULO MEDIANTE EL MÉTODO BOX COUNTING EN DISTINTOS ÁMBITOS AUTORES: CONCEPCIÓN CARMONA CHAVERO , AMINE CHAGHIR CHIKHAOUI.

AUTOR: LAURA VANESSA CEVALLOS PARRAGA

Regresión y Correlación Múltiple: El modelo de regresión múltiple.

Capitulo 6 – La historia termica del Universo

Investigación de operaciones

CARRERA DE INGENIERÍA MECÁNICA ABEDRABBO HAZBUN, ANIBAL FARUK

UNIVERSIDAD DE LAS FUERZAS ARMADAS ESPE

PROBLEMAS ARITMÉTICOS Tema 4 4º ESO Op A

Conceptos Matemáticos

Departamento de eléctrica y electrónica

Dpto. de Física y Química

6. EJEMPLOS DE REACCIONES QUÍMICAS Dpto. de Física y Química

TRABAJO DE TITULACIÓN, PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERO EN FINANZAS –CONTADOR PÚBLICO-AUDITOR TEMA: ESTUDIO ECONÓMICO FINANCIERO PARA LA.

Julio César Torres Varela

Principios mendelianos

Robótica Modular Libre

UNIVERSIDAD DE LAS FUERZAS ARMADAS “ESPE”

UNIVERSIDAD DE LAS FUERZAS ARMADAS ESPE

Subastas de Largo Plazo: Diseño y Resultados

The Future of Extractives Industries in LAC and The Role of STI

AUTOR Paredes Gordillo Marco Antonio

QUÍMICA/QUÍMICA GENERAL LEYES DE LOS GASES

“ANÁLISIS DE DESEMPEÑO DE MEZCLAS ASFÁLTICAS TIBIAS”

TEMA 8: ácidos y bases QUÍMICA IB.

Investigación de operaciones

Planificación y Optimización de Consultas

2.-DESCRIBIR FENOMENOS CONOCIDOS POR LAS FUNCIONES MATEMATICAS

DEPARTAMENTO DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y DE COMERCIO CARRERA DE INGENIERÍA EN MERCADOTECNIA TRABAJO DE TITULACIÓN, PREVIO A LA OBTENCIÓN.

DEPARTAMENTO DE CIENCIAS DE LA TIERRA Y LA CONSTRUCCIÓN CARRERA DE INGENIERÍA GEOGRÁFICA Y DEL MEDIO AMBIENTE TRABAJO DE TITULACIÓN PREVIO A LA OBTENCIÓN.

Tema 8 Las fuerzas IES Padre Manjón Prof: Eduardo Eisman.

Presentado por: Juan David Chimarro

DEPARTAMENTO DE CIENCIAS ECONÓMICAS, ADMINISTRATIVAS Y DE COMERCIO CARRERA DE INGENIERÍA COMERCIAL SISTEMA DE COOPERACIÓN DE LA FUERZA AÉREA ECUATORIANA.

LXV Reunión anual de Comunicaciones Científicas- UMA-2016 Universidad Nacional del Sur – Bahía Blanca Modelización Estructural de Series de Tiempo de.

*CN.Q Analizar disoluciones de diferente concentración, mediante la elaboración de soluciones de uso común. SOLUCIONES.

TITULO DEL CASO CLÍNICO:

DESIGNADO DE LA CARRERA DESIGANDO DEL DEPARTAMENTO

Introducción a los Polímeros

Gabriela Pazmiño Vaneza Zambrano Octubre

TESIS DE GRADO MAESTRÍA DE PLANIFICACIÓN Y DIRECCIÓN DE MARKETING TEMA: SISTEMA DE GESTIÓN DE SERVICIOS DE CAPACITACIÓN PROFESIONAL Y EMPRESARIAL BAJO.

INCERTIDUMBRE LABORATORIO FUNDAMENTOS DE MECÁNICA.

Introducción Universidad Industrial de Santander

Transcripción de la presentación:

Resultados y Conclusiones Desarrollo e Implementación Uso de la entropía condicional para selección de atributos en clasificación supervisada. Una aplicación en datos cualitativos M. del C. Romero1, Julio A. Di Rienzo2 y Alejandro Clausse3 1 Fac. Cs. Económicas, Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina 2 Estadística y Biometría, Fac. Cs. Agropecuarias, Universidad Nacional de Córdoba, Argentina 3 PLADEMA, Fac. Cs. Exactas, Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina mariadelc.romero@gmail.com Evaluación del método mediante: PFP: porcentaje de falsos positivos (no diferenciales reales que el método los reconoce erróneamente como diferenciales). PFN: porcentaje de falsos negativos (diferenciales reales que son reconocidos como no diferenciales). Escenarios de simulación X1, …, Xp: variables binarias independientes idénticamente distribuidas. C: grupo al cual pertenece la observación. La cantidad de valores nc = 2. Depende sólo de la variable X2 con probabilidad: 1 (dependencia perfecta), 0.9, 0.8, 0.7, 0.6 y 0.5 (independencia). Cantidad de variables (además del grupo) (p): 2, 3 y 10 Cantidad de observaciones (n): 2, 3, 4, 5, 10 y 100. Cantidad de simulaciones: 10000. Introducción Los avances tecnológicos de las últimas décadas facilitaron la creación de grandes bases de datos de alta dimensionalidad (gran cantidad de atributos, de observaciones y por la cantidad superior de atributos que de observaciones). En estos casos, se requieren consideraciones en el almacenamiento, en el mantenimiento, y sobre todo, en el procesamiento de los datos. El descubrimiento de conocimiento en bases de datos (KDD: Knowledge Discovery Databases) involucra métodos para extraer conocimiento de alto nivel a partir de grandes conjuntos de datos de bajo nivel (Fayyad et al., 1996). Lo esencial de este proceso es la minería de datos: “métodos para el descubrimiento y la extracción de patrones de relación entre atributos a partir de los datos”. La clasificación supervisada suele ser una de las técnicas más usadas en estos contextos pero, el “ruido” suele ser el responsable de que los clasificadores convencionales brinden resultados inestables en aplicaciones con una cantidad de atributos superior a la cantidad de observaciones. A esta problemática se le suma la restricción de los tipos de variables. En este trabajo, se aplica el método de selección basado en la entropía condicional presentado en Romero et al. (2013) en un contexto de datos cualitativos, en particular, binarios, y se lo evalúa mediante el porcentaje de falsos positivos y falsos negativos. Resultados y Conclusiones Entre las principales conclusiones (Tabla 1): En casos de dependencia perfecta, el PFP y el PFN son aproximadamente nulos, a partir de 10 observaciones. Para un mismo nivel de dependencia y de observaciones, el aumento de la cantidad de variables no diferenciales, incrementa ligeramente el PFN y disminuye considerablemente el PFP (mayor cantidad de no diferenciales). En general, a medida que el nivel de dependencia decrece, tanto el PFP como el PFN crece. A mayor cantidad de observaciones, menor PFN. El mismo comportamiento se observa para el PFP hasta una cantidad de observaciones aproximada igual a 5. A partir de este valor y para mayor cantidad de observaciones, el PFP se incrementa, llegando, para 100 observaciones, a valores cercanos al 100%. Los atributos se incorporan al subconjunto de atributos diferenciales si mejoran la entropía condicional y, en casos con gran cantidad de observaciones, resulta muy probable lograr mínimas mejoras con la adición de atributos irrelevantes en la distinción entre grupos (incrementando el PFP). Se requiere estudiar la “condición de corte” del algoritmo para determinar un valor umbral de mejora de la entropía. Desarrollo e Implementación Tabla 1: Promedio del Porcentaje de Falsos Positivos (PFP) y del Porcentaje de Falsos Negativos (PFN) para distintos escenarios Obs (n) Dep 2 3 4 5 10 100 2 variables 1 PFN 75.5 43.6 23.4 11.5 0.4 0.0 PFP 0.9 79.4 52.4 31.8 18.1 74.7 55.9 43.2 40.2 60.7 99.9 0.8 83.1 59.4 38.4 23.1 1.9 74.9 65.3 57.5 59.9 83.8 100.0 0.7 85.8 63.3 43.8 28.0 3.1 75.1 71.4 65.9 73.0 92.1 0.6 86.4 66.5 46.2 30.4 4.4 74.3 75.6 71.2 78.5 94.5 0.5 87.8 67.9 47.4 31.0 5.4 75.3 76.6 73.5 80.1 94.8 3 variables 43.4 24.1 12.6 0.3 37.6 21.7 12.1 6.3 0.2 79.8 53.5 33.3 21.2 1.5 38.7 29.3 26.0 27.9 52.3 82.1 62.4 42.0 29.9 3.6 39.1 35.7 36.8 42.4 85.6 67.4 48.8 5.6 40.1 39.5 43.9 53.2 85.9 86.6 71.0 54.1 40.8 7.8 40.4 42.3 48.3 58.2 90.6 87.5 72.2 55.5 41.6 8.5 40.5 43.0 49.8 91.8 10 variables 72.0 47.0 17.0 14.0 8.0 5.2 1.6 81.0 52.0 54.0 38.0 9.0 6.0 7.0 6.2 11.6 85.1 85.0 65.0 67.0 89.6 22.0 9.4 7.2 8.8 10.4 22.7 90.8 86.0 66.0 36.0 9.6 9.9 10.7 94.4 90.0 82.0 69.0 49.0 10.0 11.2 14.1 32.0 96.1 89.0 77.0 50.0 10.6 12.4 14.8 34.0 96.7 Datos Contextos con variables cualitativas: Atributos A = X1, X2, …, Xp, C conjunto finito de atributos (p+1): cantidad total de atributos X1, X2, …, Xp: atributos pertenecientes a cualquier escala de medición. La cantidad de valores de cada atributo (tamaño del lenguaje) está dada por ni, i = 1,…, p. C: atributo cualitativo que indica el grupo al cual pertenece la observación (variable de clasificación). n: cantidad de observaciones. yij: valor del atributo j-ésimo en la observación i-ésima; i = 1, …, n; j = 1, …, p X1 X2 X3 … Xp C Obser vacio nes 1 y11 y12 y13 y1p A 2 3 y31 y32 y33 y3p 4 y41 y42 y43 y4p B n yn1 yn2 yn3 ynp Método Método para generar un subconjunto de atributos que pueden considerarse diferenciales basándose en la entropía condicional (Romero et al., 2013). Entropía: cantidad media de información que es necesario proveer para no tener incertidumbre sobre una fuente determinada Entropía condicional: entropía que tiene una determinada variable C (grupo) conociendo la información que aporta otra variable X: Si la entropía (incertidumbre) del grupo disminuye por el conocimiento de algún atributo, dicho atributo es relevante para la distinción entre grupos. Algoritmo desarrollado en R usa el package entropy (Hausser y Strimmer, 2013) y consiste en agregar incrementalmente al subconjunto de atributos seleccionados aquéllos que minimicen la entropía condicional del grupo. El ciclo termina cuando se obtiene una entropía condicional igual a 0 o cuando no logra mejorarse la entropía del ciclo anterior. 𝐻 𝑋 =− 𝑖 𝑝 𝑥 𝑖 . 𝑙𝑜𝑔 2 𝑝( 𝑥 𝑖 ) X: variable aleatoria, p (xi): probabilidad de ocurrencia de cada uno de sus valores y el logaritmo en base 2 considera que la información se representará mediante código binario (bits) 𝐻 𝐶/𝑋 =− 𝑥 𝑝 𝑥 𝑦 𝑝 𝑐/𝑥 . 𝑙𝑜𝑔 2 𝑝(𝑐/𝑥) Este trabajo muestra resultados preliminares sobre el uso de la entropía condicional para la selección de atributos diferenciales. Se prevé la generación de escenarios con atributos de distintas escalas de medición para evaluar el rendimiento de la medida propuesta, el análisis de la entropía condicional final y el estudio de casos con mayor cantidad de variables que de observaciones. Referencias [1] Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P. (1996). “From Data Mining to Knowledge Discovery in Databases”. Artificial Intelligence Magazine, 17(3): 37-54. [2] Hauser, J.; Strimmer, K. (2013). Package Entropy: Estimation of Entropy, Mutual Information and Related Quantities. R package, versión 1.2.0. Versión obtenida en abril de 2013. http://strimmerlab.org/software/entropy [3] Romero, M. del C.; Di Rienzo, J.; Clausse, A. (2013). “Selección de atributos en clasificación supervisada. Uso de la entropía condicional”. IV Encuentro Iberoamericano de Biometría y XVIII Reunión Científica del Grupo Argentino de Biometría. Mar del Plata, 25 al 27 de septiembre de 2014.