Identificación de tráfico de red basado en Aprendizaje Automático

Slides:



Advertisements
Presentaciones similares
METODOS DE PROGRAMACION I Ing. Vania Flores Pinto.
Advertisements

Departamento de Lenguajes y Sistemas Informáticos escuela técnica superior de ingeniería informática Extendiendo NDT para la catalogación de Requisitos.
3. Organización de proyectos. Estructura y cultura.
Técnicas de Estimación. La estimación de lo que costara el desarrollo del software es una actividad importante, ya que una característica que debe tener.
SAX2 Intrusion Detection System. Sax2 de Ax3soft es un sistema profesional para la detección y prevención de intrusos que ejecuta la captura de paquetes.
Este programa es público ajeno a cualquier partido político. Queda prohibido su uso para fines distintos a los establecidos en el programa. Investigación.
Sistema de reconocimiento facial para la detección de individuos Alumno: Pablo Pellecchia Profesora: Ana Darcacha Universidad de Palermo.
1 Ingeniería del conocimiento Sesión 1 ¿Por qué estudiar aprendizaje automático?
Técnica didáctica basada en el diseño de problemas reales y un método para encontrar la solución a los mismos. Busca desarrollar en los estudiantes habilidades.
DECISION CLOUD: SISTEMA DE GESTIÓN DE SERVICIO AL CLIENTE E INTEGRACIÓN DE APLICACIONES, BASADO EN LA ARQUITECTURA ORIENTADA A MICROSERVICIOS, PARA DECISIÓN.
Análisis Financiero Clase 1 Prof.: Eduardo Castillo Cruz
¿POR QUÉ APRENDER UN TEMA ESPECÍFICO DE LA MATEMÁTICA
INTELIGENCIA ARTIFICIAL
Unidad 2 Capítulo I Descripción general
Límites de crédito Optimizados Business Solutions Manager
MI63C- Dinámica y Control de Procesos
LAS REDES SOCIALES CURSO: 6ºA COLEGIO:CEIP ARCO IRIS JOSE Mª Y LAURA T
Diagnóstico de mercado
Comparación de Modelos Neuronales Utilizadas en la Toma de Decisiones
UNIDAD I: TEORIA Y MODELOS DE SIMULACION
introducción Ingeniería de software
En la siguiente presentación veremos algunos términos que debemos conocer para iniciar la educación virtual.
ANÁLISIS DE RIESGOS DE SISTEMAS DE INFORMACIÓN
TengoPlan4u TFM Máster en ingeniería informática
Modelado de Sistemas Eloy Edmundo Rodríguez Vázquez
Evaluar los resultados de la solución aplicada
CATEGORÍAS TAXONÓMICAS DE LA INVESTIGACIÓN
TÍTULO DEL PROYECTO Plataformas Computacionales de Entrenamiento, Experimentación, Gestión y Mitigación de Ataques a la Ciberseguridad.
EL32D- Análisis y Modelación de Sistemas Dinámicos
Simulación y tipos de simulación
MAESTRANTES: Christian Ruiz B. Iveth Tello H.
Capa Aplicación: File Transfer Protocol
Soft Computing y Sistemas Complejos para entender la influencia social en apps freemium Manuel Chica Serrano Doctor en Ciencias.
STIRRING STILL THE CITY SOUL AND ITS METASPACES RAOUL BUNSHOTEN
Muestra Magna de Prácticas Profesionales
OFDM óptimo para smart grid
La Gestión y el Control de Procesos
Equipos y Servicios de la red
Introducción a la Investigación de Mercados
Protocolos Protocolos de red.
1.2. Desarrollo de Software
Brinda Soporte Presencial
Automatización y control en el sector hotelero
Actividades en Big Data
Estilo de título A Objetivos de Aprendizaje:
Software Educativo Daniela Andrea Rincon Ramírez
LAS VARIABLES EN LA INVESTIGACIÓN
Áreas de aplicación de simulación
Jorge Esteban Tobón, Ricardo Bolaños, Carlos Andrés Cano
MSc. Lisett Pérez Quintero Ing. Jorge Carrera Ortega
Almacenamiento Cloud Arquitectura del Computador Santiago Vanegas
Técnicas de Comunicación Colectiva sobre QsNet
El modelo sistémico Un instrumento de Planificación para Sistemas Complejos, y un Modelo de Sensibilidad.
“Algoritmos en Inteligencia Artificial” Rogelio Ferreira Escutia
Métodos Cuantitativos
Grupo de estudio de Dinámica de Sistemas UNIVERSIDAD DEL QUINDÍO
Lingüística computacional
Sistema Automático de Defensa.
EL DISEÑO METODOLÓGICO
Inteligencia Artificial
SQL1 7/9 Baloian Acceso a Bases de Datos
Analítica de Datos en Medidores Inteligentes para Determinar Patrones de Consumo/Producción para Mejorar la Eficiencia Energética y Evitar Robo de Energía.
DETECTOR PREDICTIVO DE CONEXIONES FRAUDULENTAS
UNIDAD 2 MODELO DE DATOS.
AUTOR: SALGADO ESCOBAR STALIN SEBASTIAN DIRECTOR: ING. JOSE SANCHO
SISTEMA ROBÓTICO MÓVIL AUTÓNOMO COOPERATIVO PARA MAPEO 2D DE OBSTÁCULOS Y NIVELES DE TEMPERATURA EN UN AMBIENTE CONTROLADO Autor: Illanes Tibanlombo,
Aprendizaje en Agente Autónomos
Software Educativo Se llama Software Educativo a cualquier programa computacional cuyas características estructurales y funcionales sirvan de apoyo.
UNIVERSIDAD AUTÓNOMA DE SINALOA FACULTAD DE INFORMÁTICA CULIACÁN
Escuela Nacional Preparatoria
Transcripción de la presentación:

Identificación de tráfico de red basado en Aprendizaje Automático Santiago Egea Gómez (santiago.egea@alumnos.uva.es) Universidad de Valladolid Jornadas Técnicas RedIRIS – 15 de Junio 2017 Servicios y Redes de Comunicación

¿Qué es el Aprendizaje Automático? Concepto y definición Árboles de decisión Algoritmos ensamblados Servicios y Redes de Comunicación

Concepto y definición Rama de la IA Sistema o fenómeno a modelar ENTRADA X RESPUESTA Y Rama de la IA Objetivo: Otorgar a las máquinas la capacidad de aprender por sí solas Servicios y Redes de Comunicación

Concepto y definición Tipos de problemas de Aprendizaje Automático: Aprendizaje Supervisado: Se conoce “Y” Aprendizaje No Supervisado No se conoce “Y” Clasificación Y son valores discretos o categoría Regresión Y puede tomar valores continuos Clustering Identificación de grupos (Y) en función de semejanzas Identificación de tráfico de red Predicción de precio de una vivienda Sistemas de búsqueda de pajeras Servicios y Redes de Comunicación

Árboles de Decisión PROBLEMA DE CLASIFICACIÓN SUPERVISADO Servicios y Redes de Comunicación

Árboles de Decisión POSIBLE SOLUCIÓN Servicios y Redes de Comunicación

Objetivo: minimizar 𝐺𝐼𝑁𝐼 𝐼𝑁𝐷𝐸𝑋= 𝐾 𝑝 𝑚𝑘 1− 𝑝 𝑚𝑘 Árboles de Decisión Objetivo: minimizar 𝐺𝐼𝑁𝐼 𝐼𝑁𝐷𝐸𝑋= 𝐾 𝑝 𝑚𝑘 1− 𝑝 𝑚𝑘 Servicios y Redes de Comunicación

Árboles de Decisión Servicios y Redes de Comunicación

Algoritmos Ensamblados Algoritmos complejos formados por algoritmos base que cooperan en base a estrategias de entrenamiento y clasificación. Ejemplo: OnevsRest Servicios y Redes de Comunicación

Identificación de tráfico en redes Herramientas Ventajas del Aprendizaje Automático Servicios y Redes de Comunicación

Herramientas Identificación basada en puertos: Well-Known ports (IANA): FTP Data (20), Telnet (23), HTTP (80), … Técnica muy simple Precisiones reportadas: 50% - 70% Aplicaciones que usan puertos dinámicos: P2P… Ej: Coral Reef Servicios y Redes de Comunicación

Herramientas Deep Packet Inspection (DPI): Identificación basada en patrones extraídos de la capa de aplicación. Servicios y Redes de Comunicación

Herramientas Fortalezas y Debilidades de DPI: Aplicaciones DPI: Alta precisión Granularidad fina Baja eficiencia computacional Mantenimiento tedioso Tráfico encriptado Vulnera la privacidad del cliente Aplicaciones DPI: L7-Filter PACE nDPI Servicios y Redes de Comunicación

Herramientas Otras soluciones: Híbridas: Puertos-DPI Basadas en el comportamiento del usuario (BLINC) Basada en inspección de IPs conocidas e interacciones DNS Servicios y Redes de Comunicación

Ventajas del Aprendizaje Automático Buen ratio entre precisión y complejidad computacional Respeto a la privacidad del usuario Capaz de identificar tráfico encriptado Aún quedan muchas líneas por cerrar Servicios y Redes de Comunicación

Identificación de tráfico basado en Aprendizaje Automático Concepto “Early Traffic Classification” Metodología Comparación de algoritmos ensamblados Servicios y Redes de Comunicación

Metodología Servicios y Redes de Comunicación

Resultados Overall Accuracy Byte Accuracy Training Time   Overall Accuracy Byte Accuracy Training Time Classificatio n time DT 0.95310 0.93077 4.33370 0.03834 OneVsRest 0.96681 0.95995 10.55774 0.11443 OneVsOne 0.95384 0.95169 12.78923 0.52626 RF 0.95962 0.95390 7.81902 0.49980 Bagging 0.95467 0.95002 14.49463 0.42822 ExtraTrees 0.95492 0.94860 4.26417 0.61417 OuputCode 0.97396 0.96047 23.63508 0.20806 ADA 0.95587 0.94488 4,11500 0,41584 Servicios y Redes de Comunicación

Resultados Overall Accuracy Byte Accuracy Training Time   Overall Accuracy Byte Accuracy Training Time Classificatio n time DT 0.95310 0.93077 4.33370 0.03834 OneVsRest 0.96681 0.95995 10.55774 0.11443 OneVsOne 0.95384 0.95169 12.78923 0.52626 RF 0.95962 0.95390 7.81902 0.49980 Bagging 0.95467 0.95002 14.49463 0.42822 ExtraTrees 0.95492 0.94860 4.26417 0.61417 OuputCode 0.97396 0.96047 23.63508 0.20806 ADA 0.95587 0.94488 4,11500 0,41584 TDTC 0,97604 0,97317 3.87237 0.06602 Servicios y Redes de Comunicación

Tailored Decision Tree Chain - TDTC Características del problema: Clases altamente desbalanceadas Clases más fácil de identificar que otras Servicios y Redes de Comunicación

Conclusiones Se confirman las ventajas en términos de precisión de los algoritmos de ensamblados Se confirma la penalización en términos de latencia de estos algoritmos TDTC. Se consigue retener las ventajas en precisión mientras que se mantiene una latencia aceptable Servicios y Redes de Comunicación

Futuras Líneas Colección de atributos robustos Identificación de tráfico temprana Experimentación Online Auto-entrenamiento Servicios y Redes de Comunicación

Muchas Gracias GRUPO DE SERVICIOS Y REDES DE COMUNICACIÓN