Clasificación Multi-etiqueta Gradual

Slides:



Advertisements
Presentaciones similares
DÍA DA PAZ: O Poder dos xestos..
Advertisements

CAPACITACIÓN PARA LA APLICACIÓN Y CUMPLIMIENTO DE LA NORMATIVA
5. UNITATEA: INGURUNE HOTZAK, BEROAK ETA EPELAK
Necesidades de Interconexión y Particularidades de Operación
Ondas.
REFLEXIÓN Y REFRACCIÓN, LEY DE SNELL
INERCIA DE ROTACIONES.
1. Que es Cosmologia? 1.1 Horizontes
DEPARTAMENTO DE CIENCIAS ECONÓMICAS, ADMINISTRATIVAS Y DE COMERCIO CARRERA DE ADMINISTRACIÓN TURÍSTICA Y HOTELERA TRABAJO DE TITULACIÓN, PREVIO A LA.
UNIVERSIDAD MAYOR DE SAN ANDRÉS
“DISEÑO, CONSTRUCCIÓN E IMPLEMENTACIÓN DE UN EQUIPO MEDIDOR DE FUERZA DE IMPACTO, CON SISTEMA DE ELEVACIÓN, FRENADO Y HMI PARA EL LABORATORIO DE MECÁNICA.
FUNDAMENTOS DE PROGRAMACION DANIELA RODRIGUEZ L.
ERRORES E INCERTIDUMBRES
Asignatura: FÍSICA Carreras: Ingeniería Agronómica Bromatología.
CASO CLÍNICO DE LABORATORIO
BIG DATA + BI Creando Empresas Inteligentes con Valor
Dpto. de Física y Química
optaciano Vásquez UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO
Tesis de grado previa a la obtención del título de Ingeniería en Administración Turística y Hotelera PLAN PARA EL APROVECHAMIENTO DE LOS RECURSOS NATURALES.
Una Clase Inusual sobre Ciencia y Fe en una Universidad Secular
La Planeación y Control Financiero
MAT289 – Laboratorio de Modelación II
PROPIEDADES DE LOS NÚMEROS REALES
ANÁLISIS DEL DESEMPEÑO DE UN SISTEMA MIMO EN UN CANAL NO LINEAL COMPLEJO DIVIDIDO EN SUBBANDA CON SERIES DE VOLTERRA AUTOR: VALERIA IMBAQUINGO DIRECTOR:
DEPARTAMENTO DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y DE COMERCIO
DEPARTAMENTO DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y DE COMERCIO
ACCIONES SOBRE PUENTES DE CARRETERAS - Curso Proyecto
DESNUTRICIÓN Dr. Edgar Játiva MD. Msc..
DIMENSIÓN FRACTAL: APARICIÓN Y CÁLCULO MEDIANTE EL MÉTODO BOX COUNTING EN DISTINTOS ÁMBITOS AUTORES: CONCEPCIÓN CARMONA CHAVERO , AMINE CHAGHIR CHIKHAOUI.
AUTOR: LAURA VANESSA CEVALLOS PARRAGA
Regresión y Correlación Múltiple: El modelo de regresión múltiple.
Capitulo 6 – La historia termica del Universo
Investigación de operaciones
CARRERA DE INGENIERÍA MECÁNICA ABEDRABBO HAZBUN, ANIBAL FARUK
UNIVERSIDAD DE LAS FUERZAS ARMADAS ESPE
PROBLEMAS ARITMÉTICOS Tema 4 4º ESO Op A
Conceptos Matemáticos
Departamento de eléctrica y electrónica
Dpto. de Física y Química
6. EJEMPLOS DE REACCIONES QUÍMICAS Dpto. de Física y Química
  TRABAJO DE TITULACIÓN, PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERO EN FINANZAS –CONTADOR PÚBLICO-AUDITOR  TEMA: ESTUDIO ECONÓMICO FINANCIERO PARA LA.
Julio César Torres Varela
Principios mendelianos
Robótica Modular Libre
UNIVERSIDAD DE LAS FUERZAS ARMADAS “ESPE”
UNIVERSIDAD DE LAS FUERZAS ARMADAS ESPE
Subastas de Largo Plazo: Diseño y Resultados
The Future of Extractives Industries in LAC and The Role of STI
AUTOR Paredes Gordillo Marco Antonio
QUÍMICA/QUÍMICA GENERAL LEYES DE LOS GASES
“ANÁLISIS DE DESEMPEÑO DE MEZCLAS ASFÁLTICAS TIBIAS”
TEMA 8: ácidos y bases QUÍMICA IB.
Investigación de operaciones
Planificación y Optimización de Consultas
2.-DESCRIBIR FENOMENOS CONOCIDOS POR LAS FUNCIONES MATEMATICAS
DEPARTAMENTO DE CIENCIAS ECONÓMICAS ADMINISTRATIVAS Y DE COMERCIO   CARRERA DE INGENIERÍA EN MERCADOTECNIA   TRABAJO DE TITULACIÓN, PREVIO A LA OBTENCIÓN.
DEPARTAMENTO DE CIENCIAS DE LA TIERRA Y LA CONSTRUCCIÓN CARRERA DE INGENIERÍA GEOGRÁFICA Y DEL MEDIO AMBIENTE TRABAJO DE TITULACIÓN PREVIO A LA OBTENCIÓN.
Tema 8 Las fuerzas IES Padre Manjón Prof: Eduardo Eisman.
Presentado por: Juan David Chimarro
DEPARTAMENTO DE CIENCIAS ECONÓMICAS, ADMINISTRATIVAS Y DE COMERCIO CARRERA DE INGENIERÍA COMERCIAL SISTEMA DE COOPERACIÓN DE LA FUERZA AÉREA ECUATORIANA.
LXV Reunión anual de Comunicaciones Científicas- UMA-2016 Universidad Nacional del Sur – Bahía Blanca Modelización Estructural de Series de Tiempo de.
*CN.Q Analizar disoluciones de diferente concentración, mediante la elaboración de soluciones de uso común. SOLUCIONES.
TITULO DEL CASO CLÍNICO:
DESIGNADO DE LA CARRERA DESIGANDO DEL DEPARTAMENTO
Introducción a los Polímeros
Gabriela Pazmiño Vaneza Zambrano Octubre
TESIS DE GRADO MAESTRÍA DE PLANIFICACIÓN Y DIRECCIÓN DE MARKETING TEMA: SISTEMA DE GESTIÓN DE SERVICIOS DE CAPACITACIÓN PROFESIONAL Y EMPRESARIAL BAJO.
INCERTIDUMBRE LABORATORIO FUNDAMENTOS DE MECÁNICA.
Introducción Universidad Industrial de Santander
Transcripción de la presentación:

Clasificación Multi-etiqueta Gradual VII Encuentro Cuba-México de Métodos Numéricos y Optimización EMNO2018 Clasificación Multi-etiqueta Gradual Autores: Ernesto Parra Inza Carlos Morell Pérez José María Sigarreta Almira

Introducción Clasificación Multi-etiqueta Gradual Uno de los problemas a estudiar dentro de la Inteligencia Artificial es la Clasificación a diferentes niveles. La clasificación convencional trata de asociar una instancia a una clase En la Clasificación Multietiqueta, los conjuntos de clases no son excluyentes entre sí, y por tanto puede haber instancias a las que se les asocie más de una etiqueta a la vez.

Introducción En la siguiente ilustración se muestra de manera gráfica la definición de clasificación y clasificación multietiqueta.

Introducción Un ejemplo de Clasificación Multietiqueta es el que se ilustra.

Introducción Clasificación Multi-etiqueta Gradual Por otro lado en la Clasificación Multietiqueta Gradual(Graded Multilabel Classication, MLC ), los conjuntos de clases tampoco son excluyentes entre sí, y por tanto puede haber instancias a las que se les asocie más de una etiqueta a la vez, pero en lugar de tener valores binarios {1; 0}, se tienen grados de pertenencia de cada clase o etiqueta a la instancia.

Introducción

Introducción W. Cheng, K. Dembczynski, and E. Hüllermeier, (2010) “Graded multi-label classification: The ordinal case”, Proceedings of the 27th International Conference on Machine Learning. C. Brinker, E. Loza Mencía, and J. Fürnkranz, (2014) “Graded multilabel classification by pairwise comparisons,” TU Darmstadt, Tech. La clasificación multi-etiqueta gradual fue descrita y obtuvo una solución por primera vez en el trabajo de Cheng y otros, donde reducen la problemática de clasificación multi- etiqueta gradual a multi-etiqueta combinando aprendizaje basado en instancias con regresión logística. Luego Christian Brinker y otros, introducen una nueva solución utilizando comparación por pares mostrando mejores resultados que los obtenidos anteriormente por Cheng.

MULAM Introducción Problema En trabajos anteriores del Dr. Morrell, se implementaron los algoritmos de comparación por pares propuestos por Brinker (2014) para la Biblioteca MULAN, pero actualmente el herramienta dedicada al modelado y solución de problemas de tipo Clasificación en el cluster Spark de la UCLV (PySpark) no contiene ninguna implementación para el tratamiento de la Clasificación Multietiqueta Gradual y resulta necesario un marco de trabajo con dicha utilidad. Problema

Objetivo: Introducción Establecer un marco de trabajo para la Clasificación Multietiqueta Gradual (Graded Multilabel Classification) compatible con Spark.

Clasificación Sean 𝑋: conjunto de datos 𝑥=( 𝑥 1 … 𝑥 𝑛 ): instancias de 𝑋 (𝑥 ∈ 𝑋 ) 𝜆: clase Se tiene que decidir si 𝑥 ∈𝜆 Por esta razón 𝑥 1 , …, 𝑥 𝑛 son los valores para los rasgos 𝐴={ 𝑎 1 , …, 𝑎 𝑛 } del conjunto de datos 𝑋. Así, el clasificador de manera general sería: 𝐻 : 𝑋 → 𝑀, 𝑥 →1 si 𝑥 ∈𝜆 ó 0 en otro caso con 𝑀= 0,1. Tal que 𝐻 max o min un parámetro determinado. El problema de clasificación binaria es la forma más simple de un problema de clasificación, se tiene un conjunto de datos, donde x son las instancias de este conjunto y landa la clase (…..)

Clasificación Multi-etiqueta Sean 𝐿= 𝜆 𝑖 :𝑖=1, …, 𝑛 : conjunto de etiquetas D= 𝐷 𝑘 :𝑘=1, …, 𝑚 : conjunto de datos multilabel 𝐷 𝑘 = 𝑥 𝑘 , 𝑦 𝑘 : datos multilabel 𝑥 𝑘 : vector de atributos de la instancia 𝑘. 𝑦 𝑘 ∈L: subconjunto de etiquetas asociadas a la instancia El objetivo radica en encontrar una función 𝐻 :𝐷 →𝐿 tal que 𝐻 max o min un parámetro determinado. En un problema de clasificación multilabel se tiene (…..)

Clasificación Multi-etiqueta Métodos para la MLC Por transformación de Problemas Por adaptación de algoritmos Relevancia Binaria Transformación por Pares Ranking Agrupación de Etiquetas Multiclasificación SVM Árboles de Decisión Redes Neuronales Métodos Probabilísticos Algoritmos Biospirados KNN En la literatura se hace referencia a numerosos métodos para la clasificación multilabel Estos métodos se derivan de los métodos para la clasificación en clases y se dividen en dos grandes grupos (….) Los métodos para la clasificación multietiqueta gradual que se implementan en este trabajo se originan a partir de los problemas de transformación por pares

Clasificación Multi-etiqueta Gradual Sean 𝐿= 𝜆 𝑖 :𝑖=1, …, 𝑛 : conjunto de etiquetas D= 𝐷 𝑘 :𝑘=1, …, 𝑚 : conjunto de datos multilabel 𝐷 𝑘 = 𝑥 𝑘 , 𝑦 𝑘 : datos multilabel 𝑥 𝑘 : vector de atributos de la instancia 𝑘. 𝑦 𝑘 ∈L: subconjunto de etiquetas asociadas a la instancia 𝐿 𝑥 : subconjunto borroso de 𝐿 asociado a la instancia 𝑥. 𝐿 𝑥 (𝜆): función de pertenencia que retorna el grado de pertenencia de la etiqueta 𝜆∈𝐿 en el conjunto borroso 𝐿 𝑥 Se utilizará una escala ordinal de grados de pertenencia, que es, un conjunto finito ordenado de grados de pertenencia. Más generalmente, se asume que 𝑀 = 𝑚 0 , 𝑚 1 , . . . .. 𝑚 𝑘 , donde 𝑚 0 < 𝑚 1 <, . . . < 𝑚 𝑘 ( 𝑚 0 =0 𝑦 𝑚 𝑘 =1) El objetivo es entrenar un mapa 𝐻 : 𝑋 → 𝐹(𝐿), donde 𝐹(𝐿) es la clase de subconjuntos borrosos de 𝐿 (con grados de pertenencia en 𝑀) En un problema de GMLC se tienen los mismos elementos que en la MLC además de

Clasificación Multi-etiqueta Gradual GMLC Joined CLR Full CLR Horizontal CLR En la bibliografía consultada se tiene referencia de algoritmos para la GMLC, estos tres algoritmos son los que mejores resultados arrojaron, de aquí que se seleccionaran para su implementación en SPARK.

Horizontal CLR

Full CLR

Joined CLR

Resultados 4 Métricas 4 Conjuntos de Datos gradedMLC Full CLR Horizontal CLR Joined CLR gradedMLC 4 Métricas 4 Conjuntos de Datos Luego de su implementación se utilizaron 4 Data Set para analizar 4 métricas y probar la funcionalidad de dichos algoritmos.

Hamming Loss Denota la desviación media de los grados predichos para la etiqueta con los que realmente posee.

Vertical 0-1 Loss Esta métrica mide el porcentaje de etiquetas con grados incorrectamente asignados. Contrariamente a la Hamming Loss, no considera el tamaño de la diferencia de grados.

C-Index Esta métrica mide el error del ranking por pares entre un par de etiquetas de dos conjuntos diferentes. Esencialmente, cuenta el número de pares de etiquetas incorrectamente ordenados con diferente grado en el ranking.

One Error Rank Loss Compara el grado real de la etiqueta más altamente rankeada con el grado más alto de todas las etiquetas de una instancia.

1953 informes de radiología de texto libres. Resultados 1930 instancias que representan las preferencias laborales de estudiantes al graduarse. 1953 informes de radiología de texto libres. BeLaE_m5 BeLaE_m10 Movies Medical Los 4 data set que se utilizaron fueron los siguientes: Tomado un conjunto de datos de una guía de programas de TV denominada TVSpielfilm.

Resultados Horizontal CLR Métricas\Conj.Datos BeLaE_m5 BeLaE_m10 Medical Movies Spark MUL. Hamming Loss 0.1819 0.1724 0.2124 0.2582 One Error Loss 0.0667 0.0928 0.0931 0.1608 Zero One Loss 0.6354 0.5912 0.6823 0.6379 CIndex 0.1643 0.2087 0.2189 0.2399 Las siguientes tablas muestran la comparación entre los algoritmos implementados para la biblioteca MULAM y los implementados para Spark

Vertical Hamming Distance Resultados Full CLR Métricas\Conj.Datos BeLaE_m5 BeLaE_m10 Medical Movies Spark MUL. Vertical Hamming Distance 0.3229 0.3351 0.3327 0.7380 One Error Loss 0.0787 0.1051 0.0909 0.1116 Zero One Loss 0.6975 0.7697 0.7163 0.9426 CIndex 0.1867 0.2225 0.2294 0.2540

Resultados Joined CLR Métricas\Conj.Datos BeLaE_m5 BeLaE_m10 Medical Movies Spark MUL. Hamming Loss 0.1617 0.2073 0.2726 One Error Loss 0.0667 0.0928 0.0931 0.1608 Zero One Loss 0.5677 0.5611 0.6656 0.6619 CIndex 0.1643 0.2087 0.2189 0.2399

Resultados MULAM Al analizar los valores obtenidos en las métricas valoradas, los algoritmos implementados para Spark arrojaron los mismos resultados que los implementados en la biblioteca Spark. La implementación en Spark permitió ejecutar dichos algoritmos en el clúster de la UCLV y redujo el tiempo de ejecución.

Conclusiones En el presente proyecto se estableció un marco referencial sobre Clasificación Multietiqueta Gradual recolectándose los artículos y documentos que centraban su atención en el tema hasta la fecha. Debido a la escasa bibliografía con que cuenta esta rama de la clasificación solo se encontraron 6 artículos, de los cuales, solo dos ofrecían soluciones. Se utilizaron tre métodos propuestos en uno de estos artículos por la Universidad Técnica de Darmstadt en Alemania que contienen algoritmos basados en métodos de transformación para reducir el problema gradual a uno más simple, específicamente Ranking de etiquetas calibradas, que demostraron ser mejores que los desarrollados hasta la fecha.

Conclusiones Al comparar los valores de las métricas para los métodos en Spark e integrados a MULAN, sobre cada uno de los cuatro conjuntos de datos se obtuvieron iguales resultados. La creación del nuevo paquete supuso una mejora a PySpark, pues amplió su radio de solución de problemas permitiéndole la capacidad de manejar también los vinculados a Clasificación Multietiqueta Gradual.

Recomendaciones 1- Enriquecer el paquete con nuevos clasificadores y métricas.

Clasificación Multi-etiqueta Gradual VII Encuentro Cuba-México de Métodos Numéricos y Optimización EMNO2018 Clasificación Multi-etiqueta Gradual