La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".

Presentaciones similares


Presentación del tema: "Diplomado "Gestión de Negocios con Data Warehouse y Data Mining"."— Transcripción de la presentación:

1 Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Clase 3 Proceso KDD José Antonio Lipari A.

2 Proceso KDD Knowledge Discovery in Databases
Transformación Datos Datos se-leccionados Preprocesamiento Datos pre-procesados Datos transformados Data Mining Patrones Interpretación y Evaluación Selección “KDD es el proceso no-trivial de identificar patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos“

3 Proceso KDD Knowledge Discovery in Databases
Novedoso: que sea un aporte para el sistema o para el usuario Valido: que sea repetible a futuro con nuevos datos KDD Útil:que pueda traducirse en acciones concretas Comprensible: que se entienda es básico para cumplir las 3 características anteriores.

4 Proceso KDD Knowledge Discovery in Databases
Selección: Acordar objetivo del proyecto KDD y acordar con usuario variables relevantes para cumplir con el objetivo Exploración de datos a fin de chequear bondad de la información (datos erróneos, faltantes, sin consolidar) Elección de bases de datos a utilizar y variables relevantes Evaluar creación de Data Mart o Flat table y acumulación de información histórica

5 Proceso KDD Knowledge Discovery in Databases
Preprocesamiento: Identificar datos que se utilizarán y tienen problemas (erróneos, faltantes o fuera de rango) Decidir modo de enfrentar datos con problemas: Eliminar registros, imputar registros Desarrollo de modelos de imputación de registros con problemas

6 Proceso KDD Knowledge Discovery in Databases
Transformación: Analizar correlación entre variables (en general variables muy correlacionadas no aportan información) Reuniones con los entendidos en el negocio, para discutir correlaciones encontradas Creación de nuevas variables e indicadores que podrían ser útiles para lograr el objetivo del proyecto KDD

7 Proceso KDD Knowledge Discovery in Databases
Data Mining: Generación de muestreos aleatorios de ser necesario División de datos en Entrenamiento Validación y Testeo Desarrollo de modelos predictivos utilizando variadas técnicas y definiendo parámetros del algoritmo de acuerdo a los conocimientos del modelador

8 Proceso de KDD Knowledge Discovery in Databases
Interpretación y evaluación: Se utiliza la base de testeo para verificar que el modelo es capaz de hacer una predicción Se evalúa el nivel de la predicción con una visión clara de gestión que se realizará Se interpretan los resultados en conjunto con expertos del negocio

9 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
INICIO El primer paso, implícito necesario en el proceso KDD es definir el objetivo final El objetivo es identificar dentro de la base de Cuenta correntistas un conjunto de clientes interesados en adquirir una crédito de consumo Definir este objetivo es importante porque el proyecto debiera ser evaluado en función de este objetivo. Por ejemplo, aumentar las colocaciones del banco en 10% respecto a igual período del año pasado.

10 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN ¿Preguntarse cuales de los datos disponibles por el banco podrían ser útiles para predecir la compra o adquisición de un crédito de consumo, y aún más importante, que datos relevantes no están disponibles y hay que solicitar? Responder a esto probablemente requiera de algo de visión de negocio y experiencia en construcción de otros modelos

11 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN Campo Estado Edad OK Monto credito Uso Línea C Comuna donde Vive Solo hay un string con dirección Saldo Promedio CC Renta Está desactualizada alto% Endeudamiento en Sbif OK, considerar no están incluidas casas comerciales Fecha última solicitud de Crédito NO está disponible

12 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN 0% Datos Missing

13 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN 20% Datos Missing

14 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN Campo Estado Acción Edad Problemas carga Solicitar corrección de datos a administrador Monto Crédito OK Nada Uso Línea C Indefinición Dar coherencia, agregar campo posesión de productos Comuna donde Vive Solo hay un string con dirección Solicitar extracción campo Comuna Saldo Promedio CC Renta Está desactualizada alto% Solicitar renta estimada Riesgo Endeudamiento en Sbif OK, considerar no están incluidas casas comerciales Solicitar Infor casas Comerciales Fecha última solicitud de Crédito NO está disponible Solicitar carga en sistemas de datos Adicionalmente, si se pretende utilizar esta información períodicamente se requerirá la construcción de Un flat table con las modificaciones solicitadas y que se cargue períodicamente a través de ETL (extraction tranformation, load) que acumule información con historia.

15 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
SELECCIÓN MES 1 MES 2 MES 3 MES N Historia acumulada de N meses en formato y contenido apropiado para análisis Actualización periódica de el último tablón DW ETL

16 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
PREPROCESAMIENTO Se analizan las respuestas frente a solicitudes de cambio de datos y se procede a modificar los datos deacuerdo a los objetivos planteados por el proyecto. Campo Respuesta de responsable de datos Acción Data Mining Edad Problema corregido Nada Monto Credito OK Uso Línea C No es posible corregir Se imputan missisng con “NA” Comuna donde Vive No es posible corregir en corto plazo Se programa identificador de comuna dentro de glosa Saldo Promedio CC Renta Se entrega estimación de Riesgo Endeudamiento en Sbif La información de casas comerciales no está disponible Nada, se renuncia a esa información Fecha última solicitud de Crédito Se cargará a partir del próximo mes Se considera se existecia para análisis futuros

17 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
TRANSFORMACION Se analizan los Datos corregidos y se buscan relaciones “interesantes” que según experiencia de gente de negocios y data mining podrían mejorar las correlaciones. Por ejemplo: Construcción de variables derivadas RAZON_ ENDEUDAMIENTO = ENDEUDAMIENTO/ RENTA

18 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
DATA MINING Se construye una base orientada a conseguir el objetivo definido, esto implica definir la variable objetivo, una vez definida ésta, se aplican técnicas como sobremuestreo , muestreo aletorio etc para optimizar el manejo de datos. En este caso, es un modelo supervisado de clasificación Eliminar Variable Objetivo Variables predictoras Identificador

19 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
DATA MINING Se construye una base orientada a conseguir el objetivo definido, esto implica definir la Variable objetivo, una vez definida ésta, se aplican técnicas como sobremuestreo , muestreo aletorio etc para optimizar el manejo de datos. En este caso, es un modelo supervisado de clasificación Validación 5.000 10.000 Base Total Entrenamiento 5.000

20 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
DATA MINING Se construye un modelo predictivo utilizando variadas técnicas de Data Mining, en la práctica el modelo buscará separar las bases en el perfil de los que compran vs el perfil de los que no compran utilizando las variables contenidas en la base de entrenamiento Validación Variadas técnicas: Árboles de decisión Redes neuronales Regresiones SVM Modelo Predictivo Entrenamiento

21 Aplicación de proceso KDD. Caso Práctico. Predicción de Compra
Una interpretación de este modelo podría llevar a la conclusión de que el perfil del cliente que se endeuda es alguien con tendencia a endeudarse y mas bien joven. INTERPRETACION DE RESULTADOS Nota: Las tendencias aquí presentadas son únicamente referenciales, creadas a modo de ejemplo para la clase. Compra 50% No compra 50% Compra 30% No compra 70% Compra 75% No compra 25% Razon _endeudamiento >7 Hace sentido el resultado Compra 40% No compra 60% Compra 90% No compra 10% Edad <38 años

22 FIN


Descargar ppt "Diplomado "Gestión de Negocios con Data Warehouse y Data Mining"."

Presentaciones similares


Anuncios Google