La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

María José Loor Martínez Fernando Xavier Loor Mera MODELO PREDICTIVO DE DESERCIÓN DE CLIENTES DE UN BANCO USANDO LIBRERÍA MAHOUT DEL FRAMEWORK HADOOP.

Presentaciones similares


Presentación del tema: "María José Loor Martínez Fernando Xavier Loor Mera MODELO PREDICTIVO DE DESERCIÓN DE CLIENTES DE UN BANCO USANDO LIBRERÍA MAHOUT DEL FRAMEWORK HADOOP."— Transcripción de la presentación:

1 María José Loor Martínez Fernando Xavier Loor Mera MODELO PREDICTIVO DE DESERCIÓN DE CLIENTES DE UN BANCO USANDO LIBRERÍA MAHOUT DEL FRAMEWORK HADOOP

2 Análisis de lealtad y deserción de clientes. Analizar el comportamiento transaccional de los clientes que han abandonado la empresa. Obtener un modelo que permita predecir futuros clientes desertores. Los costos que incurre en mantener a un cliente son menores que la adquisición de nuevos. INTRODUCCIÓN

3 Muchas razones a considerar para que un cliente cancele sus productos y servicios, por este motivo se ha limitado el alcance de este proyecto a la parte transaccional. Limitaciones El tamaño de la muestra. Información confidenciales. Tiempo. ALCANCE Y LIMITACIONES

4 Abandono de clientes ya sea voluntario o involuntario. Desertor, si el cliente tuvo un producto en un periodo de tiempo y ha cancelado todos los productos y servicios. Objetivo: Clientes con alto potencial de abandono. Clientes que vale la pena retener. DESERCIÓN DE CLIENTES

5 Sistema de almacenamiento y procesamiento de datos. Escalable Tolerante a fallos Distribuido. Procesamiento distribuido de grandes conjuntos de datos. Soportado por dos componentes: HDFS (Hadoop Distributed File System) MapReduce. HADOOP HDFSMapReduce

6 Sistema de archivos distribuido, escalable y portátil. HDFS divide en piezas y las distribuye entre los diferentes servidores. Cada servidor almacena un fragmento del conjunto completo de datos Cada parte de los datos se replica en más de un servidor. HDFS fue diseñado para gestionar archivos muy grandes. HADOOP DISTRIBUTED FILE SYSTEM

7 Data File Name Node La data es dividida en fragmentos y se distribuye entre los diferentes servidores Cada fragmento de los datos se replica en más de un servidor.

8 Framework que soporta la computación en paralelo sobre grandes colecciones de datos en clústeres de computadoras. MapReduce divide el procesamiento en dos fases Map Reduce. Compuesto por: Nodo maestro JobTracker Nodo esclavo TaskTracker. MAPREDUCE

9 Datos de Entrada Fase Map Archivos Intermedios Fase ReduceDatos de Salida Esclavo Salida Archivo 0 Master Fragmento 0 Fragmento 1 Fragmento 2 Fragmento 3 Fragmento 4 Esclavo Salida Archivo 1 Asignación Reduce Asignación Map Lee Escribe localmente Leer remotamente Escribir MAPREDUCE

10 Librería escalable y abierta a implementación. Divide sus algoritmos en tres áreas principales: Filtros colaborativos (recomendadores), Clustering Clasificación. Algoritmos de Clasificación permiten pronosticar futuros eventos en base a los datos históricos. Un sistema de clasificación se divide en tres partes: Entrenamiento del modelo, Evaluación del modelo, Implementación del modelo. MAHOUT

11 Entrenamiento del modelo Definición variable objetivo Recolección datos históricos Definición variables predictivas Selección del algoritmo de aprendizaje Entrenamiento del modelo Evaluación del modelo Ejecutar datos de prueba Ajustar datos Usar el modelo en producción ANÁLISIS DE LA SOLUCIÓN

12 Definición de la variable objetivo Recolección de datos históricos Definición de variables predictivas Selección de algoritmo de aprendizaje Usar el algoritmo seleccionado para entrenar el modelo ENTRENAMIENTO DEL MODELO

13 DEFINICIÓN DE LA VARIABLES OBJETIVO Deserción

14 RECOLECCIÓN DE DATOS HISTÓRICOS El comportamiento del cliente identifica cuales partes de los servicios del banco son usados y cuan a menudo. Comportamiento La percepción del cliente es definida por la forma en que el cliente aprecia el servicio. Percepción Información demográfica del cliente son las variables más usadas, como edad, nivel de educación, estatus social, información geográfica. Información demográfica Las variables macro económicas identifica cambios económicos en la sociedad, las diferencias en las experiencias del cliente y como afecta en el servicio. Variables Macro Económicas

15 DEFINICIÓN DE VARIABLES PREDICTIVAS Base de datos: 4,750 clientes inactivos. Cliente Inactivo: es el cliente que durante el periodo de 12 meses ha cancelado voluntariamente sus productos y servicios con el banco. Dos tipos de datos: Información demográfica: edad, género, ciudad, dependencia salarial, y tiempo de vida en el banco. Comportamiento transaccional: periodo de Enero a Julio del Productos: cuentas de ahorros, cuentas corrientes, pólizas de acumulación, créditos, créditos para autos y créditos para casas.

16 DEFINICIÓN DE VARIABLES PREDICTIVAS VariableDescripción AGEEdad del cliente BANK_AGETiempo de vida del cliente en el banco SEXGénero del cliente DEPENDENCYDependencia salarial del cliente NOPROD_tNúmero de productos activos en t TRXAUT_tTransacciones correspondiente a créditos de auto en t TRXCAS_tTransacciones correspondiente a créditos de casa en t TRXCC_tTransacciones correspondiente a cuentas corrientes en t TRXCA_tTransacciones correspondiente a cuentas ahorros en t TRXCRE_tTransacciones correspondiente a créditos financieros en t TRXPOL_tTransacciones correspondiente a pólizas en t NOTRX_IN_tNúmero de depósitos en t NOTRX_OUT_tNúmero de retiros en t NOTRX_PRE_tNúmero de transacciones presenciales en t NOTRX_VIR_tNúmero de transacciones virtuales en t

17 DEFINICIÓN DE VARIABLES PREDICTIVAS 57% de clientes pertenece al género masculino, y el 43% al género femenino. Un gran porcentaje de clientes fluctúa entre el rango de 25 y 35 años de edad.

18 DEFINICIÓN DE VARIABLES PREDICTIVAS El 23% de los clientes desertores tienen un tiempo promedio de vida en el banco de 2 años.

19 DEFINICIÓN DE VARIABLES PREDICTIVAS El número de transacciones disminuye en el tiempo. El producto cuenta de ahorros tiene una participación significativa en el número de productos activos. Se puede deducir que el comportamiento transaccional de un cliente desertor es de forma decreciente.

20 SELECCIÓN DE ALGORITMO Algoritmos de Clasificación: Regresión Logística La regresión logística es usada en una situación cuando la variable objetivo es un estado que puede o no suceder. Cuantificar la importancia de la relación existente entre las variables predictivas y la variable objetivo. Clasificar individuos dentro de las categorías (presente/ausente) de la variable objetivo.

21 Algoritmo trainlogistic ENTRENAMIENTO DEL MODELO $ bin/mahout trainlogistic --input /home/hadoop/baseClientes.csv --output./model --target churn --categories 2 --predictors AGE BANK_AGE SEX DEPENDENCY--types numeric --features 16 --passes 100 $ bin/mahout trainlogistic --input /home/hadoop/baseClientes.csv --output./model --target churn --categories 2 --predictors AGE BANK_AGE SEX DEPENDENCY--types numeric --features 16 --passes 100 Datos de entrada Modelo resultante Variable Objetivo Variables Predictivas Variables de Ajuste Modelo resultante: churn ~ 5.701*Intercept Term *AGE *BANK_AGE *SEX *DEPENDENCY Intercept Term AGE BANK_AGE SEX DEPENDENCY churn ~ 5.701*Intercept Term *AGE *BANK_AGE *SEX *DEPENDENCY Intercept Term AGE BANK_AGE SEX DEPENDENCY

22 $ bin/mahout runlogistic --input /home/hadoop/baseClientes.csv --model./model --auc $ bin/mahout runlogistic --input /home/hadoop/baseClientes.csv --model./model --auc Algoritmo runlogistic EVALUACIÓN DEL MODELO Datos de entrada Modelo resultante Variable de Evaluación La salida es el valor de AUC Medida utilizada para determinar la calidad del modelo.

23 Cuatro diferentes modelos de regresión logística fueron entrenados y evaluados.: Evaluación de los modelos: Los resultados de la evaluación de los dos primeros modelos, los cuales consideraban únicamente un solo tipo de variables, no son muy significativos. PRUEBAS Y RESULTADOS Modelo 1Modelo 2Modelo 3Modelo 4 AUC

24 En la validación se utilizó una muestra de 1,000 clientes. PRUEBAS Y RESULTADOS Modelo Numero de clientes desertores Número correcto de predicción de clientes desertores Porcentaje predicho de clientes desertores Modelo % Modelo %

25 El modelo fue entrenado con una pequeña muestra de datos. Aunque el valor de evaluación AUC, no fue de 1 para describir un modelo perfecto, ambos clasificaron correctamente a los clientes desertores. Si la definición de deserción se basa en otros factores como: los reclamos o la rentabilidad del cliente, entonces el modelo se debería redefinir. El rendimiento del sistema de clasificación en producción dependerá de los datos de entrada. CONCLUSIONES

26 Recolectar más muestras a través del tiempo con el fin de hacer más datos de entrenamiento. Se sugiere tomar los datos históricos de hasta seis meses de anterioridad. El objetivo es mantener la consistencia con los datos de entrada y prototipo del modelo predictivo. En futuros análisis se puede identificar las características de los clientes de los clientes desertores. RECOMENDACIONES


Descargar ppt "María José Loor Martínez Fernando Xavier Loor Mera MODELO PREDICTIVO DE DESERCIÓN DE CLIENTES DE UN BANCO USANDO LIBRERÍA MAHOUT DEL FRAMEWORK HADOOP."

Presentaciones similares


Anuncios Google