Identificación de aplicaciones de red mediante técnicas de aprendizaje automático Jornadas Técnicas de RedIRIS 2007 Pere Barlet-Ros Eva Codina Josep Solé-Pareta.

Slides:



Advertisements
Presentaciones similares
Ayudar a proteger y a administrar contenidos Obtener información y ampliar los conocimientos Información disponible, siempre conectados Organización transparente.
Advertisements

Enrutamiento, Movilidad y Calidad de Servicio en IPv6
Introducción a Netflow
IDS SISTEMAS DE DETECCIÓN DE INTRUSOS
Coste operacional en virtualización de infraestructuras
Jornadas Técnicas RedIRIS 2003
Cognos Data Integration
DATA MINING MINERIA DE DATOS Gersom Costas.
Laboratorio virtual de Control por Computador
Objetivos Desarrollar software funcional multi-modelo sobre distintas plataformas para el estudio de sistemas complejos de cómputo de alto rendimiento.
Instituto Politécnico Nacional
UNIVERSIDAD TECNOLÓGICA ISRAEL CARRERA DE SISTEMAS INFORMÁTICOS
Nanci Abarca Pablo Cruz Gabriela Palacios Cisne Sarmiento
Trabajo de programas de simulación de redes
Unidad 7 MPLS: Multiprotocol Label Switching
DETECCIÓN DE INTRUSOS rodríguez García Juan Carlos 3812
X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES
SILVIA BEATRIZ GAVILANES NARANJO KELLY VERÓNICA CARVAJAL CUJI
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
Desarrollo de software para prácticas (SocMat) y entorno web de información ENCUENTRO SOBRE APLICACIÓN DE LAS NUEVAS TECNOLOGÍAS EN LA MEJORA DE LA ENSEÑANZA.
Inferencia de Árboles Multicast
Introducción a los protocolos de enrutamiento dinámico
JORNADAS TÉCNICAS RED IRIS 2004 Grupo de Interconexión de Redes de Banda Ancha, ITACA Universidad Politécnica de Valencia Toledo, de octubre de 2004.
Inteligencia Artificial Adquisición automática del conocimiento
Software La buena programación no se aprende de generalidades, sino viendo cómo los programas significativos pueden hacerse claros, “fáciles” de leer,
Diseño de un Sistema de Control en Tiempo Real para el Kernel del Sistema Operativo utilizando MatLab-SimuLink Por: MARCO ANTONIO ESPINEL CANGUI DIRECTOR:
Janny David Vilac Salazar David Alejandro Gallo Moya
Curso Introductorio Unidad I: Conceptos básicos (Actualizado el ) Curso creado por : Libro de Clases Electrónico (LCE)
Denisse Cayetano – Christian Rivadeneira
1/27 Optimización de Internet con Software Libre Jack Daniel Cáceres Meza
Procedimiento sistemático para desarrollar un centro de trabajo
HERRAMIENTAS CASE.
CAPA DE RED CARACTERÍSTICAS DE LA RED
INTELIGENCIA DE NEGOCIOS
Contexto en el proceso general
ELEMENTOS ACTIVOS DE LAS REDES
Mejoras y Nuevas Características de ISA Server 2004 Chema Alonso MVP Windows Server Security
1.Firewall 2.Herramientas de detección de intrusión 3.Recuperación de datos PREVENCIÓN/DETECCIÓN Y RECUPERACIÓN ALARCON BELLO MIGUEL ANGEL.
DEPARTAMENTO DE INGENIERÍA INFORMÁTICA
Weka.
Creación del diseño de red
Ing. Karen Torrealba de Oblitas
CONCEPTOS DE NUEVOS SISTEMAS 1. Un sistema de manejo de información 1. Un sistema de manejo de información Desde la perspectiva del usuario final todas.
Integrantes: Daniel Peña Alfredo Zuñiga
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
66.69 Criptografía y Seguridad Informática FIREWALL.
Seguridad Informática
DETECCION DE INTRUSOS.. Presentado por: Maury Leandro González Deivy Escobar Christian Herrera Yoiner Gomez Marlon Góngora.
© 2014 Cisco Systems, Inc. Todos los derechos reservados.Información confidencial de Cisco Presentation_ID 1 Capítulo 11: Traducción de direcciones de.
Universidad Central de Venezuela Facultad de Ciencias Postgrado en Ciencias de la Computación Sistemas Distribuidos Albany Márquez.
Javier Rodríguez Granados
Analizador en tiempo real de calidad de servicio en redes IP Abel Navarro Nuñez Universidad Politécnica de Catalunya 5 de Noviembre de 2003.
Importancia en la efectividad del:
GAP GAP Parallel Architectures Group Grupo de Arquitecturas Paralelas Jornada d’Arquitectures per a Càlcul i Comunicacions Avançades, Feb.04 Valencia Metodología.
Información cualitativa sobre el uso de los objetos de aprendizaje Núria Ferran y Julià Minguillón Universitat Oberta de Catalunya II Simposio Pluridisciplinar.
Sistemas Expertos Integrantes Javier Farfán Katherine Jara Héctor Gatica.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Introducción a los Sistemas Inteligentes
Introducción a los protocolos de enrutamiento dinámico
DISEÑO CURRICULAR Presentado por: Cesar Augusto Sáenz María Alejandra Hernández 1.contenidos curriculares de competencia.
UN GRAN SISTEMA DISTRIBUIDO.  Heterogeneidad: Esta plataforma está diseñada para correr diferentes sistemas operativos (Windows XP, Windows.
Sistemas de Información Administrativa Ttramestre MAY - AGO 2008 Catedrático: MC. Pedro Martínez Lucio MC. Pedro Martínez.
FIREWALLS, Los cortafuegos
Investigación preliminar  Entender la naturaleza del problema  Definir el alcance y las restricciones o limitaciones del sistema  Identificar los beneficios.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Autora: Angelines Turón Turón Tutora: Mª Gloria Sánchez Torrubia SISTEMA DE AYUDA A LA ENSEÑANZA PARA RESOLUCIÓN DE MAPAS DE KARNAUGH.
DISEÑO DE LAN. Elementos de un Sistemas de Comunicación Emisor Receptor Canal Protocolo de enlace Otros dispositivos (modem, adaptadores, controladores.
Protección de un servicio Web 1.Autenticación. 2.Gestión de usuarios y grupos. 3.Gestión de servicios. 4.Gestión de sistema de ficheros. 5.Firewall. 6.Prevención.
Transcripción de la presentación:

Identificación de aplicaciones de red mediante técnicas de aprendizaje automático Jornadas Técnicas de RedIRIS 2007 Pere Barlet-Ros Eva Codina Josep Solé-Pareta {pbarlet, ecodina, pareta}@ac.upc.edu http://www.ccaba.upc.edu/smartxac Agradecimientos: Este trabajo ha sido financiado parcialmente por el CESCA (convenio SMARTxAC) y el MEC (TSI2005-07520-C03-02 y TEC2005-08051-C03-01)

Índice Introducción Identificación de aplicaciones de red Monitorización pasiva de red Sistema SMARTxAC Identificación de aplicaciones de red Técnicas tradicionales Método basado en técnicas de aprendizaje automático Evaluación y resultados Precisión de identificación Porcentaje de clasificación Conclusiones Resumen del método propuesto Conclusiones y trabajos futuros

Monitorización pasiva Monitorización pasiva de red Permite observar el tráfico de un enlace en tiempo real Es no intrusiva Requiere acceso físico a la red Utilidad para los operadores y administradores de red Soporte al dimensionado, evaluación rendimiento, … Localización y diagnóstico de fallos, anomalías, ... Tareas de seguridad: detección intrusiones, ataques, … Ejemplos Tcpdump, Intel CoMo, AT&T Gigascope, Snort, etc. SMARTxAC: Monitorización continua de la Anella Científica

SMARTxAC Sistema de Monitorización y Análisis de Tráfico para la Anella Científica (SMARTxAC) Convenio de colaboración CESCA-UPC Operativo desde julio de 2003 Características Plataforma de monitorización de bajo coste Monitorización continua de la Anella Científica en tiempo real Detección de anomalías y usos irregulares Las instituciones puedan conocer su uso de la red Monitorización de 2 enlaces GbEth Enlace entre la Anella Científica y RedIRIS Tráfico actual: > 2 Gbps / > 300 Kpps

Anella Científica Punto de captura 2 x GigE full-dúplex

Características principales Monitorización pasiva Captura completa (no hay muestreo) Equipamiento: 2 x DAG 4.3GE + divisores ópticos Software de captura propio: captura + agregación de flujos Análisis de tráfico Análisis completo del tráfico en tiempo real Sólo captura de cabeceras: Rendimiento Encriptación Privacidad, confidencialidad Almacenamiento permanente Visualización de resultados Interfaz gráfica basada en web Generación de gráficas bajo demanda

Escenario de trabajo RedIRIS Servidor web (APACHE+PHP) ANELLA CIENTÍFICA (GbE) GÉANT Internet Global ESPANIX Juniper M-20 (RedIRIS) 2 Gbps REDIRIS Otros nodos regionales RedIRIS RedIRIS (Madrid) CISCO 6513 (Anella Científica) 1 Gbps 1 Red privada Red privada 1 Gbps Conexión a Internet Servidor web (APACHE+PHP) Sistema de análisis de tráfico (Linux) Plataforma de captura (DAG 4.3GE + GPS)

Índice Introducción Identificación de aplicaciones de red Monitorización pasiva de red Sistema SMARTxAC Identificación de aplicaciones de red Técnicas tradicionales Método basado en técnicas de aprendizaje automático Evaluación y resultados Precisión de identificación Porcentaje de clasificación Conclusiones Resumen del método propuesto Conclusiones y trabajos futuros

Identificación de aplicaciones de red Clasificación del tráfico a nivel de aplicación Es de especial interés para los operadores de red Políticas de QoS, servicio diferenciado, etc. Tradicionalmente realizada utilizando núm. puerto Tabla estática de traducción (p.ej. well-known ports) No requiere inspección del contenido Computacionalmente simple Métodos tradicionales ya no son válidos Aplicaciones basadas en web, túneles, puertos dinámicos, … Comportamiento de los usuarios, evasión cortafuegos, … Clasificación incompleta e incorrecta

Ejemplo utilizando núm. puerto SMARTxAC: Anella Científica 2006 Porcentaje de tráfico por aplicación Evolución temporal del tráfico por aplicación

Alternativas y requerimientos Alternativa: reconocimiento por patrones (firmas) Costoso computacionalmente Requiere contenido de los paquetes Problemas Privacidad Encriptación de la conexión Ofuscación del protocolo Requerimientos de nuestro método Identificación precisa y completa Aplicación en tiempo real en enlaces de alta velocidad Sin inspección del contenido de los paquetes Aplicable en el sistema SMARTxAC

Aprendizaje automático Aprendizaje automático inductivo Rama de la inteligencia artificial Permite a las computadoras extraer conocimiento A partir de ejemplos (conjunto entrenamiento) Aprendizaje automático no supervisado Encontrar mejor partición entre similitudes de los ejemplos Aprendizaje automático supervisado Seleccionar atributos para predecir la clase de cada objeto Conjunto entrenamiento: <objeto, clase objeto> Objeto: Representado a partir de un vector de atributos Clase: Valor a predecir (obtenido “manualmente”)

Método propuesto Identificación basada en el algoritmo C4.5 Desarrollado por Ross Quinlan como extensión del ID3 Basado en la construcción de un árbol de clasificación Selección de atributos para maximizar ganancia información Conjunto de entrenamiento Flujos de tráfico real Pares <atributos flujo, aplicación> Vector de atributos contiene características de los flujos La aplicación se identifica “manualmente”

Atributos utilizados Requerimientos Ejemplo de atributos (total: 25) Extracción en tiempo real No dependan del contenido de los paquetes Ejemplo de atributos (total: 25) Contadores de paquetes y bytes por flujo Duración flujo Longitud mín./med./máx. paquetes Tamaño inicial, mín./med./máx. ventana TCP Mín./med./máx. interarrival time paquetes del flujo Paquetes con flags PUSH, URG, DF, … activados Incremento medio IPID Estimación SO (origen y destino) También puertos y protocolo (pero no de la forma tradicional) …

Fase de entrenamiento (I) Captura del tráfico de entrenamiento Conjunto representativo del entorno a monitorizar Agregación por flujos (a nivel de transporte) Extracción de atributos Clasificación manual de los flujos de entrenamiento Análisis off-line del contenido de los paquetes Utilizando técnicas de reconocimiento por patrones (L7-filter) Inspección manual del resto de flujos Alternativa Generar tráfico sintéticamente en un entorno controlado Identificación manual no es necesaria Soluciona problemas de privacidad o encriptación

Fase de entrenamiento (II) Generación del árbol de clasificación Algoritmo C4.5 Entrada: flujos de entrenamiento clasificados Salida: árbol de clasificación (contiene únicamente atributos) Software utilizado: Weka Universidad de Waikato (Nueva Zelanda) Software libre (licencia GNU GPL) Escrito en Java http://www.cs.waikato.ac.nz/ml/weka

Implantación del árbol de clasificación Implementación en el sistema SMARTxAC Clasificación del tráfico por flujos Extracción en tiempo real de atributos (único requerimiento) Clasificación de cada flujo utilizando el árbol de clasificación Computacionalmente simple y aplicable en tiempo real No es necesario: Análisis del contenido de los paquetes Reconocimiento de patrones Confiar únicamente en los números de puerto Inspección manual de los flujos Pero sí es necesario … Reentrenamiento del sistema cada cierto tiempo Aparición de nuevas aplicaciones o cambios en las existentes

Índice Introducción Identificación de aplicaciones de red Monitorización pasiva de red Sistema SMARTxAC Identificación de aplicaciones de red Técnicas tradicionales Método basado en técnicas de aprendizaje automático Evaluación y resultados Precisión de identificación Porcentaje de clasificación Conclusiones Resumen del método propuesto Conclusiones y trabajos futuros

Escenario de prueba Punto de captura 2 x GigE full-dúplex

Precisión por grupo de aplicación 99,62 90,32 97,86 95,43 95,20 96,87 97,22 80,73 92,98 90,14 98,40 99,88 84,56 96,20 97,14 0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00 80,00 90,00 100,00 Precisión (%) DNS FTP GAMES IRC MAIL MULTIMEDIA NETFS NETWORK NEWS OTHERS P2P TELNET UNIX WWW TOTAL Grupo de aplicación

Porcentaje de tráfico por aplicación (I) Núm. puerto Aprendizaje automático

Porcentaje de tráfico por aplicación (II) Núm. puerto Aprendizaje automático

Índice Introducción Identificación de aplicaciones de red Monitorización pasiva de red Sistema SMARTxAC Identificación de aplicaciones de red Técnicas tradicionales Método basado en técnicas de aprendizaje automático Evaluación y resultados Precisión de identificación Porcentaje de clasificación Conclusiones Resumen del método propuesto Conclusiones y trabajos futuros

Resumen del método propuesto Captura del conjunto de entrenamiento Flujos reales representativos del entorno a monitorizar Alternativamente generados artificialmente Extracción de atributos de los flujos de entrenamiento Clasificación manual flujo  aplicación Reconocimiento de patrones e inspección manual Puede simplificarse utilizando conjunto entrenamiento artificial en 1) Construcción del árbol de clasificación C4.5 P.ej. utilizando el software Weka Implantación del árbol generado en 4) en el sistema de monitorización de red Reentrenamiento del sistema cada cierto tiempo Empezando desde el paso 1) Para adaptarlo a nuevas aplicaciones o cambios

Conclusiones y trabajos futuros Identificación tradicional basada en los núm. de puerto Clasificación imprecisa y errónea Identificación basada en reconocimiento de patrones No aplicable en tiempo real en enlaces de alta velocidad Requiere la captura e inspección de contenidos No aplicable con encriptación o ofuscación del protocolo Propuesta basada en aprendizaje automático Aplicable en tiempo real No requiere contenido de los paquetes Resultados experimentales muestran precisión > 95% Trabajos futuros Validación con conjuntos de datos más extensos Automatización de la fase de entrenamiento

Identificación de aplicaciones de red mediante técnicas de aprendizaje automático Jornadas Técnicas de RedIRIS 2007 Pere Barlet-Ros Eva Codina Josep Solé-Pareta {pbarlet, ecodina, pareta}@ac.upc.edu http://www.ccaba.upc.edu/smartxac Agradecimientos: Este trabajo ha sido financiado parcialmente por el CESCA (convenio SMARTxAC) y el MEC (TSI2005-07520-C03-02 y TEC2005-08051-C03-01)