Predicción de fallos en redes bancarias mediante Machine Learning

Slides:



Advertisements
Presentaciones similares
Jacqueline Chávez Cuzcano
Advertisements

Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 7: Máquinas de Vectores Soporte Curso de doctorado impartido por Dr.
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
Red de Minería y Aprendizaje Grupo de Aprendizaje Automático Universidad de Oviedo en Gijón Selección de Atributos en Aprendizaje.
Javier Benavides Pañeda
LEONARDO LÓPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADA PARALELO: 261.
REGRESIÓN Y CORRELACIÓN  REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA.
Ing. VITELIO ASENCIOS TARAZONA. Dentro de los modelos causales o asociativos encontramos el análisis de regresión o regresión lineal, que es un método.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
1 Investigación y estudio de la materia viva 5 Biología 2º BACHILLERATO El método científico en biología Aspectos que definen el CONOCIMIENTO CIENTÍFICO.
Manuel Maldonado López
“Retos clave en el levantamiento de encuestas
El Método Científico.
Bases de Datos (BD) Santiago Velilla Marco
M. Molero, E. Moya de Guerra, O. Moreno
Integral indefinida y métodos de integración
Universidad Católica del Maule
Una introducción a Deep Learning
PROYECTO FINAL DE CARRERA Ingeniería Aeronáutica DESARROLLO DE OPTIMIZADOR DE FORMA 2D BASADO EN CÓDIGO DE ELEMENTOS FINITOS CON MALLADOS CARTESIANOS.
Método Científico.
Autor: Araya P., Ruz G., Palomino H.
ESTADÍSTICA II Ing. Danmelys Perozo MSc.
(Ajustar tamaño de letra para que ocupe dos líneas máximo)
Trabajo de Investigación del software Deep Blue
Capítulo 6 Regresión no lineal
Acerca del uso de métricas de calidad de Wikipedia
Método Cienítifico.
Investigación Operativa 1
Presentado por: Diana Marcela Zarrate Iván González Gómez
EDWIN SANTIAGO YACELGA MALDONADO SANGOLQUÍ – ECUADOR 2016
Carlos López and Elías Kaplan
TEMA II. ESTUDIO DE MERCADO 2.2 El muestreo estadístico en la investigación de mercados. Métodos de pronósticos de corto plazo.
CONCEPTOS PRELIMINARES (Cont)
Búsqueda por profundidad iterativa
Pronósticos, Series de Tiempo y Regresión Capítulo 1: Introducción a los Pronósticos.
TIPOS DE INVESTIGACIÓN De: Bolívar V Jorge A CI:
Mis carreras preferidas
Investigación educativa Integrantes Condori Alicia García patricia Pinell Gabriela Romero paúl Aguilar jhonny.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
MUESTREO ALEATORIO ESTRATIFICADO - MAE Especialista Ramiro Duran.
Agentes que planifican. 1. Introduccion En la actualidad todas la mayoría de actividades en un empresa o compañía, como en el hogar o el medio ambiente.
Modalidades de la Investigacion
REPUBLICA BOLIVARIANA DE VENEZUELA INSTITUTO UNIVERSITARIO POLITECNICO SANTIAGO MARIÑO EXTENSION SAN CRISTOBAL ESCUELA DE ARQUITECTURA Realizado por: Vivas.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
La Investigación Científica
ETAPAS DE LA INVESTIGACIÓN EN SALUD
Fundamentos de la Programación I
Plantilla Presentación TFG
Presentación del Curso Curso de Seguridad Informática Dr. Jorge Ramió Aguirre Universidad Politécnica de Madrid Material Docente de Libre Distribución.
FUNDAMENTOS DE PROGRAMACIÓN. INTRODUCCIÓN  Conceptos: Informática, Ordenador, Programa, Dato, Bit, Byte, Hardware, Software, Lenguaje de Programación,
PROYECTO DE GRADUACIÓN
Lingüística computacional
“Conceptos Básicos de Java”
TEORIA DE GRAFOS UNIVERSIDAD PRIVADA DOMINGO SAVIO.
Regresión (II).
Inteligencia Artificial
Predicción II (predicción modelos ARMA)
ELEMENTO EXPLICACIÓN PREGUNTAS/EJEMPLOS TITULO
Presentación del Curso Curso de Seguridad Informática Dr. Jorge Ramió Aguirre Universidad Politécnica de Madrid Material Docente de Libre Distribución.
PROYECTO DE GRADUACIÓN
COCOMO (1) COCOMO Es un modelo sencillo. Cocomo puede ser aplicado a tres tipos de proyectos software. Esto nos da una impresión general del proyecto.
Pipelining Peligros de control.
Regresión lineal Electivo Estadística IV°Medio 2019.
Curso Redes (IS20) -Capítulo 5 1 Redes (IS20) Ingeniería Técnica en Informática de Sistemas Práctica 3- Estudio de tráfico sobre LAN
PROYECTO DE GRADUACIÓN
ESTRUCTURA DE LOS SISTEMAS OPERATIVOS CHACALIAZA BOZA MARGARET AMARLLY.
ESTRUCTURA DE LOS SISTEMAS OPERATIVOS CHACALIAZA BOZA MARGARET AMARLLY.
“Mayor eficiencia y flexibilidad en el Datacenter: Virtualización en red”
Transcripción de la presentación:

Predicción de fallos en redes bancarias mediante Machine Learning José Manuel Navarro González Center for Open Middleware Departamento de Ingeniería de Sistemas Telepáticos Universidad Politécnica de Madrid

¿Quién soy? Ingeniero de Telecomunicación. +3 años en investigación de Machine Learning aplicado Doctorando en UPM. Sin background teórico en ML: “Introduction to Machine Learning”, Ethem Alpaydin. “Practical Data Science with R”, Nina Zumel y John Mount.

¿Dónde trabajo?

Enfoque Datos reales Incremental en complejidad Dos públicos objetivos: Novatos: aprender estructura básica de proyecto de Data Science (y fallos a evitar). Expertos: encontrar todos los fallos posibles :-)

e.g.

L3P3

Índice Presentación del proyecto Dataset Soluciones Otros métodos Conclusiones Trabajo Futuro

Online Failure Prediction 1. El proyecto L3P3 Problema + Objetivo: predecir fallos en sistemas distribuidos pertenecientes al grupo bancario. clasificación binaria Solución + Online Failure Prediction

1. El proyecto L3P3 Objetivo: Predecir fallos en sistema distribuido Enfoque: Clasificación Binaria Métricas objetivo: puntuación F y recall

Tipos de eventos críticos 2. Dataset SCF Totta Nodos 52 21 Tiempo 127 días 177 días Eventos 55061 35372 Tipos de eventos 82 87 Eventos críticos 92 3243 Tipos de eventos críticos 3 4 Predecimos todos porque podemos y porque el cliente no ha especificado que solo quiera uno

Enfoque basado en ventanas 3. Soluciones Enfoque basado en ventanas

3. Soluciones Preproceso Dataset Observación Predicción Hora A B C D 10:53 No 10:55 Si 10:57 10:58 Hora Evento 10:53 A 10:55 B 10:57 D 10:58 C 11:03 11:06 11:07 11:08 Usamos dataset 1: SCF Sólo intentar predecir eventos en el sistema! NO con nodo Predicción Hora A B C D 10:53 Si 10:55 10:57 No 10:58

3. Soluciones:1er intento Single Variable Models Dependiente False True Independiente 24 67 Resultados :(

3. Soluciones: 2º intento :( Regresión Logística Resultados Unión con Elastic Net: demasiadas variables e interés por seleccionarlas! Resultados :(

3. Soluciones: 3er intento Regresión Logística con regularización Muchos eran 0! Error cuadrático medio Pérdida logarítmica (?) Beneficio selección automática de variables Resultados Problema Puntuaciones casi binarias :|

3. Soluciones: 3er intento Regresión Logística con regularización y muestreo estratificado Resultados Buenos resultados pero lentitud! :) Problema Lentitud

3. Soluciones: 3er intento Regresión Logística con regularización, muestreo estratificado y filtrado de ceros* Ahora si! Pero falta corregir la fórmula de regresión logística del paquete glmnet para que sea matemáticamente óptimo 1 Resultados :) 1 *Basado en: King, Gary, and Langche Zeng. 2001. “Logistic Regression In Rare Events Data.”

Paquete utilizado: glmnet 3.1 1ª Solución Rojo: conceptual Azul: lo que hace el código Paquete utilizado: glmnet

3.1 Resultados 1ª solución Cuatro experimentos: Observación 5 min / Predicción 5 min Observación 30 min / Predicción 5 min Observación 5 min / Predicción 30 min Observación 30 min / Predicción 30 min Mejores resultados: 5/5.

Aumentando la utilidad: adición de localidad 3.1 Soluciones Aumentando la utilidad: adición de localidad Hora Evento Nodo 10:53 A 1 10:55 B 3 4 10:57 D 10:58 C 2 11:03 5 11:06 11:07 11:08 Hora Evento 10:53 A-1 10:55 B-3 A-4 10:57 D-1 10:58 C-2 11:03 A-5 11:06 B-2 11:07 C-4 11:08

3.1 Soluciones Tres experimentos distintos 1. Modelar cada nodo por separado 2. Cambiar el dataset de entrada 3. No cambiar el dataset de entrada

3.1 Soluciones Otros datos disponibles Experimentos 1. Media* + desviación Recursos: CPU Memoria Disco Red 2. Diferenciación de recursos Resultados Series temporales muestreadas cada 5 minutos. Similares a anterior * https://github.com/twitter/BreakoutDetection

Cambio de dataset Totta

Paquete utilizado: randomForest 4. Otros métodos Random Forests Lentos y precisos Paquete utilizado: randomForest

Cojonudo

Support Vector Machines 4. Otros métodos Support Vector Machines Rápido, fallan muchos Paquete utilizado: e1071

Pocos modelos

Bajo recall!!! Mala elección de kernel?

4. Conclusiones Performance Tiempo de computación RF ENLR SVM Sería muy interesante analizar por qué funcionan así matemáticamente, pero me falta conocimiento ENLR SVM Tiempo de computación

5. Trabajo Futuro ENLR, Random Forests y SVM sin poda de ceros. Fine tuning de Random Forests y SVM. Adquisición de datos de niveles lógicos superiores. Modelado de niveles superiores. Correlación de niveles superiores.

Resumen Predicción de fallos en sistema distribuido Alta dispersión de datos Alta dimensionalidad Tres modelos presentados: Regresión logística regularizada Random Forests Máquinas de vector soporte