Diplomado "Gestión de Negocios con Data Warehouse y Data Mining". Clase 3 Proceso KDD José Antonio Lipari A.
Proceso KDD Knowledge Discovery in Databases Transformación Datos Datos se-leccionados Preprocesamiento Datos pre-procesados Datos transformados Data Mining Patrones Interpretación y Evaluación Selección “KDD es el proceso no-trivial de identificar patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos“
Proceso KDD Knowledge Discovery in Databases Novedoso: que sea un aporte para el sistema o para el usuario Valido: que sea repetible a futuro con nuevos datos KDD Útil:que pueda traducirse en acciones concretas Comprensible: que se entienda es básico para cumplir las 3 características anteriores.
Proceso KDD Knowledge Discovery in Databases Selección: Acordar objetivo del proyecto KDD y acordar con usuario variables relevantes para cumplir con el objetivo Exploración de datos a fin de chequear bondad de la información (datos erróneos, faltantes, sin consolidar) Elección de bases de datos a utilizar y variables relevantes Evaluar creación de Data Mart o Flat table y acumulación de información histórica
Proceso KDD Knowledge Discovery in Databases Preprocesamiento: Identificar datos que se utilizarán y tienen problemas (erróneos, faltantes o fuera de rango) Decidir modo de enfrentar datos con problemas: Eliminar registros, imputar registros Desarrollo de modelos de imputación de registros con problemas
Proceso KDD Knowledge Discovery in Databases Transformación: Analizar correlación entre variables (en general variables muy correlacionadas no aportan información) Reuniones con los entendidos en el negocio, para discutir correlaciones encontradas Creación de nuevas variables e indicadores que podrían ser útiles para lograr el objetivo del proyecto KDD
Proceso KDD Knowledge Discovery in Databases Data Mining: Generación de muestreos aleatorios de ser necesario División de datos en Entrenamiento Validación y Testeo Desarrollo de modelos predictivos utilizando variadas técnicas y definiendo parámetros del algoritmo de acuerdo a los conocimientos del modelador
Proceso de KDD Knowledge Discovery in Databases Interpretación y evaluación: Se utiliza la base de testeo para verificar que el modelo es capaz de hacer una predicción Se evalúa el nivel de la predicción con una visión clara de gestión que se realizará Se interpretan los resultados en conjunto con expertos del negocio
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra INICIO El primer paso, implícito necesario en el proceso KDD es definir el objetivo final El objetivo es identificar dentro de la base de Cuenta correntistas un conjunto de clientes interesados en adquirir una crédito de consumo Definir este objetivo es importante porque el proyecto debiera ser evaluado en función de este objetivo. Por ejemplo, aumentar las colocaciones del banco en 10% respecto a igual período del año pasado.
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra SELECCIÓN ¿Preguntarse cuales de los datos disponibles por el banco podrían ser útiles para predecir la compra o adquisición de un crédito de consumo, y aún más importante, que datos relevantes no están disponibles y hay que solicitar? Responder a esto probablemente requiera de algo de visión de negocio y experiencia en construcción de otros modelos
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra SELECCIÓN Campo Estado Edad OK Monto credito Uso Línea C Comuna donde Vive Solo hay un string con dirección Saldo Promedio CC Renta Está desactualizada alto% Endeudamiento en Sbif OK, considerar no están incluidas casas comerciales Fecha última solicitud de Crédito NO está disponible
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra SELECCIÓN 0% Datos Missing
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra SELECCIÓN 20% Datos Missing
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra SELECCIÓN Campo Estado Acción Edad Problemas carga Solicitar corrección de datos a administrador Monto Crédito OK Nada Uso Línea C Indefinición Dar coherencia, agregar campo posesión de productos Comuna donde Vive Solo hay un string con dirección Solicitar extracción campo Comuna Saldo Promedio CC Renta Está desactualizada alto% Solicitar renta estimada Riesgo Endeudamiento en Sbif OK, considerar no están incluidas casas comerciales Solicitar Infor casas Comerciales Fecha última solicitud de Crédito NO está disponible Solicitar carga en sistemas de datos Adicionalmente, si se pretende utilizar esta información períodicamente se requerirá la construcción de Un flat table con las modificaciones solicitadas y que se cargue períodicamente a través de ETL (extraction tranformation, load) que acumule información con historia.
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra SELECCIÓN MES 1 MES 2 MES 3 MES N Historia acumulada de N meses en formato y contenido apropiado para análisis Actualización periódica de el último tablón DW ETL
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra PREPROCESAMIENTO Se analizan las respuestas frente a solicitudes de cambio de datos y se procede a modificar los datos deacuerdo a los objetivos planteados por el proyecto. Campo Respuesta de responsable de datos Acción Data Mining Edad Problema corregido Nada Monto Credito OK Uso Línea C No es posible corregir Se imputan missisng con “NA” Comuna donde Vive No es posible corregir en corto plazo Se programa identificador de comuna dentro de glosa Saldo Promedio CC Renta Se entrega estimación de Riesgo Endeudamiento en Sbif La información de casas comerciales no está disponible Nada, se renuncia a esa información Fecha última solicitud de Crédito Se cargará a partir del próximo mes Se considera se existecia para análisis futuros
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra TRANSFORMACION Se analizan los Datos corregidos y se buscan relaciones “interesantes” que según experiencia de gente de negocios y data mining podrían mejorar las correlaciones. Por ejemplo: Construcción de variables derivadas RAZON_ ENDEUDAMIENTO = ENDEUDAMIENTO/ RENTA
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra DATA MINING Se construye una base orientada a conseguir el objetivo definido, esto implica definir la variable objetivo, una vez definida ésta, se aplican técnicas como sobremuestreo , muestreo aletorio etc para optimizar el manejo de datos. En este caso, es un modelo supervisado de clasificación Eliminar Variable Objetivo Variables predictoras Identificador
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra DATA MINING Se construye una base orientada a conseguir el objetivo definido, esto implica definir la Variable objetivo, una vez definida ésta, se aplican técnicas como sobremuestreo , muestreo aletorio etc para optimizar el manejo de datos. En este caso, es un modelo supervisado de clasificación Validación 5.000 10.000 Base Total Entrenamiento 5.000
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra DATA MINING Se construye un modelo predictivo utilizando variadas técnicas de Data Mining, en la práctica el modelo buscará separar las bases en el perfil de los que compran vs el perfil de los que no compran utilizando las variables contenidas en la base de entrenamiento Validación Variadas técnicas: Árboles de decisión Redes neuronales Regresiones SVM Modelo Predictivo Entrenamiento
Aplicación de proceso KDD. Caso Práctico. Predicción de Compra Una interpretación de este modelo podría llevar a la conclusión de que el perfil del cliente que se endeuda es alguien con tendencia a endeudarse y mas bien joven. INTERPRETACION DE RESULTADOS Nota: Las tendencias aquí presentadas son únicamente referenciales, creadas a modo de ejemplo para la clase. Compra 50% No compra 50% Compra 30% No compra 70% Compra 75% No compra 25% Razon _endeudamiento >7 Hace sentido el resultado Compra 40% No compra 60% Compra 90% No compra 10% Edad <38 años
FIN