María José Loor Martínez Fernando Xavier Loor Mera

Slides:

Advertisements

Presentaciones similares

Agenda ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop.

Advertisements

Auditoria de Recursos Humanos.

TIPOS DE INVESTIGACIÓN

Tesistas: Percy Balbín James Ponce

Franco Huertas, Joel Francisco

AGENTE ASPIRADOR INTELIGENCIA ARTIFICIAL Y ROBÓTICA Alumnos

Introducción a la minería de datos

DISEÑO DE EXPERIMENTOS

Control Interno Informático. Concepto

Copyright © 2008 LOMA Reclutando a los Mejores para Obtener Resultados Financieros Ing. Luis Freire, FLMI, PFSL, LCIC, UND, ACS Gerente Regional America.

Técnicas para la elaboración de un instrumento

El tiempo de vida Todos los seguros de vida dependen fundamentalmente del tiempo de vida del asegurado. Por ello, la medición del riesgo debe comenzar.

Requisitos para Validación del Sistema de Planificación y Control de Gestión PMG 2003 Dirección de Presupuestos Ministerio de Hacienda Patricia Montes.

Stuart Pérez A12729.

GESTIÓN DE LOS COSTOS DEL PROYECTO

SEGMENTACION DE MERCADO

LA CONDUCTA DENTRO DE LAS ORGANIZACIONES: GRUPOS E INFLUENCIA INTERPERSONAL TEMA 4.

MEJORA DE PROCESOS.

MI PROGRAMA DE FORMACION

Diapositiva No. 1 Observatorio Industrial de la Provincia de Córdoba Noviembre de 2008.

Técnico en programación de Software

MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.

Sistema Para GENERAR gráficas a partir de logs tcpdump usando Hadoop

. Cap.9 GESTION DE LA CONFIGURACION DEL SOFTWARE ( GCS/SCM.

XLIV Asamblea Anual de FELABAN 9 de noviembre de 2010 Inclusión social y educación financiera Mario Bergara.

RIESGOS FINANCIEROS FACULTAD DE CIENCIAS CARRERA: ING. EN CIENCIAS ECONÓMICAS Y FINANCIERAS PERIODO: Ing. Marcela Guachamín.

DEFINICIÓN, MEDIO AMBIENTE, MERCADO Y PÚBLICOS.

Dirección de la Productividad

¿Cómo hacer más rentables nuestras decisiones?. Rentabilidad Monto de cada préstamo $ Costo Fijo Total $ Gastos Adm por crédito $ 130 Tasa.

Capítulo 3 Etapas de un Proyecto de simulación

SEGMENTACIÓN DEL MERCADO

Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.

INTRODUCCIÓN A LA COMPUTACIÓN

Mejora del desempeño de procesos

Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".

Población y Muestra.

Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.

Instituto Tecnológico de La Paz Ing. Fernando Ortiz Ahumada.

Gestión del Mantenimiento en el Sector Eléctrico Mario O. Oliveira José H. Reversat Leonardo U. Iurinic Víctor H. Iurinic Facultad de Ingeniería, Universidad.

Programacion Web Practica 1 Estudio de la aplicación distribuida: Apache Hadoop.

REQUERIMIENTOS DE SOFTWARE

MONITOREO Y CONTROL DE ENERGÉTICOS

Integrantes: Jorge Herrera M. Carlos Rodríguez R..

Análisis de los datos.

CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS

INTRODUCCIÓN A LA INGENIERÍA DEL SOFTWARE

MÉTODOS DE EVALUACIÓN DEL DESEMPEÑO

Ing. Noretsys Rodríguez. Definición de Conceptos  Falla: Ocurre cuando un programa no se comporta de manera adecuada. Es una propiedad estadística de.

Dominios de control para la información y tecnologías (cobit) Pamela Pacheco Aviles.

Maracaibo, 26 de Mayo de 2006 Universidad del Zulia Facultad de Ingeniería División de Postgrado Maestría en Computación Aplicada Universidad del Zulia.

TIPOS DE PRUEBAS DEL SOFTWARE

DISEÑO CURRICULAR Presentado por: Cesar Augusto Sáenz María Alejandra Hernández 1.contenidos curriculares de competencia.

Haga clic para cambiar el estilo de título Haga clic para modificar el estilo de texto del patrón Segundo nivel Tercer nivel Cuarto nivel Quinto nivel.

Sistemas de Información Administrativa Ttramestre MAY - AGO 2008 Catedrático: MC. Pedro Martínez Lucio MC. Pedro Martínez.

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.

ADMINISTRACIÓN DE REDES Planes de Migración. Migración En tecnología de información y comunicación, la migración es el proceso de la transferencia desde.

Estadística Conceptos Básicos.

ESTADÍSTICA DESCRIPTIVA

Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.

ANALISIS DE SISTEMAS PROFESOR HECTOR ARCIA.

Optativa II Carlos Quilumbaqui. ¿Qué es Big Data? Big Data son grandes en cantidad, se capturan a un índice rápido, y son estructurados o no estructurados,

Procesos de Planeación

INDUSTRIAS DEL PETROLEO, PETROQUÍMICAS Y DEL GAS NATURAL ASEGURAMIENTO DE LA PRODUCCIÓN Y ADMINISTRACIÓN DE LA CONFIABILIDAD ISO/CD Date: 2005 –

El diseño de la interfaz de usuario requiere el estudio de las personas y el conocimiento tecnológico adecuado.

BASES DE DATOS DISTRIBUIDAS M.C.C. María Guadalupe Villanueva Carrasco INGENIERIA EN SISTEMAS COMPUTACIONALES.

PRUEBA PILOTO DE UN MODELO DE INTERVENCION PARA DISMINUIR EL ÍNDICE DE REPROBACIÓN EN EL INSTITUTO TECNOLÓGICO DE AGUASCALIENTES.

Verificación y Validación del Software

VERIFICACIÓN Y VALIDACIÓN DE SISTEMAS 3.10 Fase de manejo de requerimientos 4.1 Modelado de pruebas en UML Ponente: ing. Alejandro tapia vazquez.

Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.

Transcripción de la presentación:

María José Loor Martínez Fernando Xavier Loor Mera Modelo predictivo de deserción de clientes de un banco usando librería Mahout del framework HADOOP María José Loor Martínez Fernando Xavier Loor Mera

Introducción Análisis de lealtad y deserción de clientes. Analizar el comportamiento transaccional de los clientes que han abandonado la empresa. Obtener un modelo que permita predecir futuros clientes desertores. Los costos que incurre en mantener a un cliente son menores que la adquisición de nuevos.

Alcance y Limitaciones Muchas razones a considerar para que un cliente cancele sus productos y servicios, por este motivo se ha limitado el alcance de este proyecto a la parte transaccional. Limitaciones El tamaño de la muestra. Información confidenciales. Tiempo.

Deserción de clientes Abandono de clientes ya sea voluntario o involuntario. Desertor, si el cliente tuvo un producto en un periodo de tiempo y ha cancelado todos los productos y servicios. Objetivo: Clientes con alto potencial de abandono. Clientes que vale la pena retener.

HADOOP Sistema de almacenamiento y procesamiento de datos. HDFS MapReduce Sistema de almacenamiento y procesamiento de datos. Escalable Tolerante a fallos Distribuido. Procesamiento distribuido de grandes conjuntos de datos. Soportado por dos componentes: HDFS (Hadoop Distributed File System) MapReduce.

Hadoop Distributed File System Sistema de archivos distribuido, escalable y portátil. HDFS divide en piezas y las distribuye entre los diferentes servidores. Cada servidor almacena un fragmento del conjunto completo de datos Cada parte de los datos se replica en más de un servidor. HDFS fue diseñado para gestionar archivos muy grandes.

Hadoop Distributed File System Data File Name Node La data es dividida en fragmentos y se distribuye entre los diferentes servidores Cada fragmento de los datos se replica en más de un servidor.

MapReduce Framework que soporta la computación en paralelo sobre grandes colecciones de datos en clústeres de computadoras. MapReduce divide el procesamiento en dos fases Map Reduce. Compuesto por: Nodo maestro JobTracker Nodo esclavo TaskTracker.

MapReduce Master Esclavo Datos de Entrada Fase Map Salida Archivo 0 Master Fragmento 0 Fragmento 1 Fragmento 2 Fragmento 3 Fragmento 4 Archivo 1 Asignación Reduce Asignación Map Lee Escribe localmente Leer remotamente Escribir Datos de Entrada Fase Map Archivos Intermedios Fase Reduce Datos de Salida

Mahout Librería escalable y abierta a implementación. Divide sus algoritmos en tres áreas principales: Filtros colaborativos (recomendadores), Clustering Clasificación. Algoritmos de Clasificación permiten pronosticar futuros eventos en base a los datos históricos. Un sistema de clasificación se divide en tres partes: Entrenamiento del modelo, Evaluación del modelo, Implementación del modelo.

ANÁLISIS DE LA SOLUCIÓN Entrenamiento del modelo Definición variable objetivo Recolección datos históricos Definición variables predictivas Selección del algoritmo de aprendizaje Evaluación del modelo Ejecutar datos de prueba Ajustar datos Usar el modelo en producción

Entrenamiento del modelo Definición de la variable objetivo Recolección de datos históricos Definición de variables predictivas Selección de algoritmo de aprendizaje Usar el algoritmo seleccionado para entrenar el modelo

DEFINICIÓN DE LA VARIABLES OBJETIVO Deserción

Recolección de datos históricos El comportamiento del cliente identifica cuales partes de los servicios del banco son usados y cuan a menudo. Comportamiento La percepción del cliente es definida por la forma en que el cliente aprecia el servicio. Percepción Información demográfica del cliente son las variables más usadas, como edad, nivel de educación, estatus social, información geográfica. Información demográfica Las variables macro económicas identifica cambios económicos en la sociedad, las diferencias en las experiencias del cliente y como afecta en el servicio. Variables Macro Económicas

Definición de variables predictivas Base de datos: 4,750 clientes inactivos. Cliente Inactivo: es el cliente que durante el periodo de 12 meses ha cancelado voluntariamente sus productos y servicios con el banco. Dos tipos de datos: Información demográfica: edad, género, ciudad, dependencia salarial, y tiempo de vida en el banco. Comportamiento transaccional: periodo de Enero a Julio del 2010. Productos: cuentas de ahorros, cuentas corrientes, pólizas de acumulación, créditos, créditos para autos y créditos para casas.

Definición de variables predictivas Descripción AGE Edad del cliente BANK_AGE Tiempo de vida del cliente en el banco SEX Género del cliente DEPENDENCY Dependencia salarial del cliente NOPROD_t Número de productos activos en t TRXAUT_t Transacciones correspondiente a créditos de auto en t TRXCAS_t Transacciones correspondiente a créditos de casa en t TRXCC_t Transacciones correspondiente a cuentas corrientes en t TRXCA_t Transacciones correspondiente a cuentas ahorros en t TRXCRE_t Transacciones correspondiente a créditos financieros en t TRXPOL_t Transacciones correspondiente a pólizas en t NOTRX_IN_t Número de depósitos en t NOTRX_OUT_t Número de retiros en t NOTRX_PRE_t Número de transacciones presenciales en t NOTRX_VIR_t Número de transacciones virtuales en t

Definición de variables predictivas 57% de clientes pertenece al género masculino, y el 43% al género femenino. Un gran porcentaje de clientes fluctúa entre el rango de 25 y 35 años de edad.

Definición de variables predictivas El 23% de los clientes desertores tienen un tiempo promedio de vida en el banco de 2 años.

Definición de variables predictivas El número de transacciones disminuye en el tiempo. El producto cuenta de ahorros tiene una participación significativa en el número de productos activos. Se puede deducir que el comportamiento transaccional de un cliente desertor es de forma decreciente.

SELECCIÓN DE ALGORITMO Algoritmos de Clasificación: Regresión Logística La regresión logística es usada en una situación cuando la variable objetivo es un estado que puede o no suceder. Cuantificar la importancia de la relación existente entre las variables predictivas y la variable objetivo. Clasificar individuos dentro de las categorías (presente/ausente) de la variable objetivo.

Entrenamiento del modelo Algoritmo trainlogistic $ bin/mahout trainlogistic --input /home/hadoop/baseClientes.csv --output ./model --target churn --categories 2 --predictors AGE BANK_AGE SEX DEPENDENCY--types numeric --features 16 --passes 100 Datos de entrada Modelo resultante Variable Objetivo Variables Predictivas Variables de Ajuste Modelo resultante: churn ~ 5.701*Intercept Term + -1.513*AGE + 7.885*BANK_AGE + 1.852*SEX + 5.701*DEPENDENCY Intercept Term 5.70054 AGE -1.51264 BANK_AGE 7.88537 SEX 1.85234 DEPENDENCY 5.70054

Variable de Evaluación EVALUACIÓN DEL MODELO Algoritmo runlogistic $ bin/mahout runlogistic --input /home/hadoop/baseClientes.csv --model ./model --auc Datos de entrada Modelo resultante Variable de Evaluación La salida es el valor de AUC Medida utilizada para determinar la calidad del modelo.

Pruebas y Resultados Cuatro diferentes modelos de regresión logística fueron entrenados y evaluados.: Evaluación de los modelos: Los resultados de la evaluación de los dos primeros modelos, los cuales consideraban únicamente un solo tipo de variables, no son muy significativos. Modelo 1 Modelo 2 Modelo 3 Modelo 4 AUC 0.56 0.37 0.62 0.68

Pruebas y Resultados En la validación se utilizó una muestra de 1,000 clientes. Modelo Numero de clientes desertores Número correcto de predicción de clientes desertores Porcentaje predicho de clientes desertores Modelo 3 830 794 94% Modelo 4 813 97%

Conclusiones El modelo fue entrenado con una pequeña muestra de datos. Aunque el valor de evaluación AUC, no fue de 1 para describir un modelo perfecto, ambos clasificaron correctamente a los clientes desertores. Si la definición de deserción se basa en otros factores como: los reclamos o la rentabilidad del cliente, entonces el modelo se debería redefinir. El rendimiento del sistema de clasificación en producción dependerá de los datos de entrada.

Recomendaciones Recolectar más muestras a través del tiempo con el fin de hacer más datos de entrenamiento. Se sugiere tomar los datos históricos de hasta seis meses de anterioridad. El objetivo es mantener la consistencia con los datos de entrada y prototipo del modelo predictivo. En futuros análisis se puede identificar las características de los clientes de los clientes desertores.