Business Analytics Computer Security MSc. Christian Camilo Urcuqui López
Agenda Presentación Alianza CAOBA ¿Qué es? Proyectos Business Analytics Contexto Beneficios Seguridad de la computación Actualidad Problema Proyecto de investigación Conclusiones y trabajo a futuro
Alianza CAOBA Por invitación directa del Ministerio de Tecnologías de la Información y las Comunicaciones y el Departamento Administrativo de Ciencia, Tecnología e Innovación –Colciencias-, diferentes empresas del sector público y el sector privado de Colombia, se unieron con el propósito de fortalecer la generación de soluciones de análisis de información. Gracias a este acuerdo, nació el Centro de Excelencia y apropiación en Big Data y Data Analytics – Alianza CAOBA -, el cual tiene como objetivo generar soluciones en diversos sectores industriales, gubernamentales y académicos. Este centro está constituido por las empresas Grupo Bancolombia, Grupo Nutresa, IBM de Colombia, SAS Institute Colombia, EMC Information Systems Colombia, Cluster CREATIC, Departamento Nacional de Planeación (DNP) y las Universidades ICESI, EAFIT, los Andes y la Pontificia Universidad Javeriana, que actúa como ejecutor del proyecto. Alianza CAOBA combina la capacidad de investigación de las universidades, la oferta de productos líderes mundiales en tecnología con el objetivo de generar servicios y soluciones innovadoras que agreguen valor a los sectores estratégicos del país. Este centro de excelencia apoya el uso de las tecnologías de Big Data y Data Analytics, a través de diferentes frentes que incluyen la formación del talento humano, la investigación aplicada y el desarrollo de productos cuya propuesta de valor está fundamentada en la generación de soluciones alrededor de las tecnologías del BD&DA.
Alianza CAOBA Este centro está constituido por las empresas Grupo Bancolombia, Grupo Nutresa, IBM de Colombia, SAS Institute Colombia, EMC Information Systems Colombia, Cluster CREATIC, Departamento Nacional de Planeación (DNP) y las Universidades ICESI, EAFIT, los Andes y la Pontificia Universidad Javeriana, que actúa como ejecutor del proyecto. Alianza CAOBA combina la capacidad de investigación de las universidades, la oferta de productos líderes mundiales en tecnología con el objetivo de generar servicios y soluciones innovadoras que agreguen valor a los sectores estratégicos del país.
Alianza CAOBA Misión Investigación aplicada a problemas relevantes para el país Consultoría para la apropiación de tecnologías, metodologías y herramientas de análisis y procesamiento de Big Data Contribuir en la apropiación de las temáticas asociadas a Big Data y Data Analytics en el país Apoyo de iniciativas de emprendimiento y spin-offs colombianos
Business Analytics Figura 1. Analytics [1] ¿Que es Business Analytic? Business Analytics es el conjunto de técnicas estadísticas, que utiliza la practica de la exploración iterativa y metódica de datos de una organización con énfasis en el análisis estadístico. Business Analytics es utilizado por las empresas comprometidas con la toma de decisiones basadas en datos. Sin embargo el éxito de la implementación de esta técnica depende de la calidad de los datos, los analistas calificados que entiendan las tecnologías y el negocio, para los cuales toda la estadística cuenta con un grupo de expertos y un compromiso de la organización para la adopción de decisiones basadas en datos. En el momento en el que deja de ser suficiente analizar la información registrada por la empresa en su aplicación de gestión y empiezan a entrar en juego otras fuentes (redes sociales, resultados de campañas de marketing, visitas a la web, información demográfica, tendencias del sector...) esta herramienta BUSINESS ANALYTICS es necesario disponer de técnicas y herramientas que permitan analizar de forma conjunta todos los datos, con el fin de encontrar relaciones entre ellos y detectar tendencias. Aquí es donde trabajan las aplicaciones de BA: crean estrategias más precisas orientadas al futuro, mejoran la eficiencia, aumentan la rentabilidad, la satisfacción y lealtad del cliente. Figura 1. Analytics [1]
Beneficios Apoyar la toma de decisiones Descubrimientos científicos Registros mejor detallados Detección de anomalías y fraudes Identificación de nuevos mercados
Figura 1. Ciclo de vida de la analítica Hay que agregar el data extraction para que estén los datos en el mismo formato y contexto Data aggregation and representation que ayuda a tener un conjunto de varios dataset en uno solo Data visualization ayuda a tener un panorama general de los datos Figura 1. Ciclo de vida de la analítica
Seguridad de la computación
Figura 2. Reporte de seguridad 2016, Symantec [2] Problema Figura 2. Reporte de seguridad 2016, Symantec [2]
Problema
Problema El software convencional de seguridad requiere en su proceso de identificación, de un esfuerzo humano que implica tiempo y recursos.
Problema
Problema Toma de decisiones Tiempo Falsos positivos Información sensible Problemas que afectan tanto a personas, a organizaciones y al medio ambiente
Motivación Uno de los caminos más prometedores es la aplicación de algoritmos de machine learning que permita ser más eficiente la labor de identificación de nuevas amenazas [3] Exploratorio (examinar datos sin hipótesis previa) confirmatorio (examinar datos con una hipótesis previa) Data analysis
Figura 1. Ciclo de vida de la analítica Hay que agregar el data extraction para que estén los datos en el mismo formato y contexto Data aggregation and representation que ayuda a tener un conjunto de varios dataset en uno solo Data visualization ayuda a tener un panorama general de los datos Figura 1. Ciclo de vida de la analítica
Pregunta ¿Como clasificar para Android un software benigno y un maligno? ¿Como identificar una página web con contenido maligno?
Contexto Sistema operativo para dispositivos móviles Cuenta con más de mil millones de usuarios activos Código abierto basado en el kernel de Linux
Malware Software malicioso, son desarrollos que tienen como propósito perjudicar a los usuarios que lo utilizan. Virus Trojan horse Spyware Worms Root-kit Keylogger Ransomware
Malware Alterar el buen funcionamiento del dispositivo. Obtener información sensible de los usuarios. Primer troyano para Android en 2010
Figura 1. Ciclo de vida de la analítica Hay que agregar el data extraction para que estén los datos en el mismo formato y contexto Data aggregation and representation que ayuda a tener un conjunto de varios dataset en uno solo Data visualization ayuda a tener un panorama general de los datos Figura 1. Ciclo de vida de la analítica
Android Las aplicaciones se encuentran compiladas en un archivo Android Application Package (APK). Código fuente (archivos .dex) Recursos AndroidManifest.xml Tráfico web IoT, Android Things
Figura 3. Permisos de Android
Figura 1. Ciclo de vida de la analítica Hay que agregar el data extraction para que estén los datos en el mismo formato y contexto Data aggregation and representation que ayuda a tener un conjunto de varios dataset en uno solo Data visualization ayuda a tener un panorama general de los datos Figura 1. Ciclo de vida de la analítica
Exploración Tabla 1. Permisos accedidos por las aplicaciones Aplicaciones Sanas >= 10 Malware >= 100 ACCESS_COARSE_LOCATION WRITE_SMS ACCESS_FINE_LOCATION WRITE_EXTERNAL_STORAGE ACCESS_NETWORK_STATE RECEIVE_BOOT_COMPLETED ACCESS_WIFI_STATE READ_SMS BLUETOOTH READ_PHONE_STATE CAMERA INTERNET CHANGE_WIFI_STATE GET_ACCOUNTS READ_CONTACTS READ_EXTERNAL_STORAGE VIBRATE WAKE_LOCK Tabla 1. Permisos accedidos por las aplicaciones
Figura 1. Ciclo de vida de la analítica Hay que agregar el data extraction para que estén los datos en el mismo formato y contexto Data aggregation and representation que ayuda a tener un conjunto de varios dataset en uno solo Data visualization ayuda a tener un panorama general de los datos Figura 1. Ciclo de vida de la analítica
Figura 4. Dilbert – Machine Learning [4] Modelos Analíticos http://dilbert.com/strip/2013-02-02 Figura 4. Dilbert – Machine Learning [4]
Machine Learning
Machine Learning Definición El aprendizaje de máquina es la ciencia que hace parte de la Inteligencia artificial que permite a los computadores aprender, sin ser programados de forma explicita [5].
Machine Learning ¿Qué se puede hacer [6]? Clasificación: predecir la categoría de un ítem Regresión: predecir un valor continuo Detección de excepciones: encontrar anomalías Clustering: encontrar grupos de elementos similares Refuerzo: siguiente acción a tomar Asociaciones: encontrar reglas de concurrencia Secuencias: encontrar secuencias de eventos Resumen: simplificar la representación de información Visualización: facilitar la comprensión y el descubrimiento
Machine Learning Inteligencia artificial – Machine Learning Busca que un sistema tenga la capacidad de aprender en entornos variables sin ser programado de forma explícita. Aprendizaje supervisado Aprendizaje no supervisado Aprendizaje por refuerzo
Metodología Aprendizaje supervisado Lista de permisos: AndroidManifest.xml Dataset Matriz binaria
Metodología 𝑅 𝑖 = 1&, 𝑆𝑖 𝑒𝑙 𝑎𝑛𝑎𝑙𝑖𝑧𝑎𝑑𝑜𝑟 𝑑𝑒𝑡𝑒𝑐𝑡ó 𝑢𝑛 𝑝𝑒𝑟𝑚𝑖𝑠𝑜 𝑎𝑐𝑐𝑒𝑑𝑖𝑑𝑜 0,𝐸𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜 𝐶 𝑖 = 1&, 𝑆𝑖 𝑒𝑙 𝑎𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑠 𝑚𝑎𝑙𝑖𝑐𝑖𝑜𝑠𝑜 0,𝐸𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Metodología Del dataset binario se crearon dos particiones 71 % para el entrenamiento 29 % para las pruebas Se entrenaron y verificaron los siguientes clasificadores de Machine Learning: Naive Bayes, Bagging, KNeighbors, Support Vector Machines (SVM), Stochastic Gradient Descent (SGD) y Decisión Tree
Figura 1. Ciclo de vida de la analítica Hay que agregar el data extraction para que estén los datos en el mismo formato y contexto Data aggregation and representation que ayuda a tener un conjunto de varios dataset en uno solo Data visualization ayuda a tener un panorama general de los datos Figura 1. Ciclo de vida de la analítica
Medidas de evaluación 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦= # 𝑑𝑎𝑡𝑜𝑠 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎𝑚𝑒𝑛𝑡𝑒 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑠 # 𝑑𝑎𝑡𝑜𝑠 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑠 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛= 𝑉𝑃 𝑉𝑃+𝐹𝑃 𝑅𝑒𝑐𝑎𝑙𝑙= 𝑉𝑃 𝑉𝑃+𝐹𝑁 Verdadero Positivo Falso Positivo Negativo Verdadero Negativo TABLA I. MATRIZ DE CONFUSIÓN
Resultados Algoritmo Metricas de desempeño Precision Recall f1 - score Accuracy 1 NaiveBayes 0,9 0,76 0,79 0,88 0,84 0,82 0,83 Bagging 0,94 0,93 0,91 Kneighbors 0,95 SVM 0,92 SGD DecisionTree TABLA 2. RESULTADO EN EL DESEMPEÑO INDIVIDUAL DE LOS 6 CLASIFICADORES [7]
Figura 4. Marco de trabajo para análisis de malware en Android [8] Resultados Figura 4. Marco de trabajo para análisis de malware en Android [8]
Seguridad de la computación
Complejidad Volumen, velocidad, variedad, valor y veracidad
Big Data Analytics
Conclusiones y trabajo futuro Tiempos significativos en la adquisición, limpieza y preparación de los dataset Emplear otras técnicas de inteligencia artificial Estudiar distintos métodos y características para representar un ataque cibernético Aplicar un marco de trabajo de Big Data Crear un marco de trabajo (línea de defensa) que integre analizadores con inteligencia artificial.
Conclusiones y trabajo futuro El Data analytics sirve de apoyo en la detección de malware que podría mejorar los procesos de una empresa de seguridad
Referencias [1] Kher, A. How to Start a Career in Analytics for Free.https://akshaykher.wordpress.com/2015/08/18/how-to-start-a- career-in-analytics-for-free-3/. [2] ISTR, Internet Security Threat Report, Volume 21, 2016. Symantec. [3] Chan, P. K. & Lippmann, R. P. (2006). Machine learning for computer security. The Journal of Machine Learning Research, 7, 2669-2672. [4] Scott, A. http://dilbert.com/strip/2013-02-02 [5] Andrew, Ng. Stanford University. (2014).
Referencias [6] Javier, D. Diplomado de analítica y grandes volúmenes de datos. Universidad Icesi. (2017). [7] Lopez, C. C. U., & Cadavid, A. N. (2016, April). Machine learning classifiers for android malware analysis. In Communications and Computing (COLCOM), 2016 IEEE Colombian Conference on (pp. 1-6). IEEE. [8] Urcuqui-López, C., & Cadavid, A. N. (2016). Framework for malware analysis in Android. Sistemas & Telemática, 14(37), 45-56.
Christian Camilo Urcuqui López ¡Muchas gracias! Contacto: Christian Camilo Urcuqui López ccurcuqui@icesi.edu.co