Copyright © 2009, SAS Institute Inc. All rights reserved. Bienvenidos al Encuentro de DataCleansing
Copyright © 2009, SAS Institute Inc. All rights reserved. Temario Revisión de técnicas de Data Cleansing Ejemplo Práctico de DC en Banca (hands-on) Discusión pros y contras de distintas técnicas Conclusiones
Copyright © 2009, SAS Institute Inc. All rights reserved. Proposito del Encuentro En esta charla tenemos como propósito contestar tres preguntas fundamentales 1 - Porque? Porque debo pensar en un proceso de DQ? 2 - Como? Cuales son los pasos de un proceso de Data Quality completo? 3 - Para Que? Porque la importancia y Cuales son las aplicaciones de un proceso de DQ?
Copyright © 2009, SAS Institute Inc. All rights reserved. 1 – Porque? Vivimos en la era de la información y la información es poder Información = Datos + Proceso Nos concentraremos en los datos Definicion de Data Cleansing Proceso por el cual se realiza la detección y corrección / eliminacion de datos corruptos o inexactos en un conjunto de registros, tabla o base de datos.
Copyright © 2009, SAS Institute Inc. All rights reserved. 2 - Como? El Ciclo de Calidad de Datos 1 - Analizar 2 - Mejorar 3 - Controlar Profile Calidad Integracion Enriquecimiento Monitoreo
Copyright © 2009, SAS Institute Inc. All rights reserved. Datos de Prueba IDDireccionLocalidadProvinciaCP 1Av. Rivadavia 2035 piso 3 dpto 4cap FedCapital federal Avenida. J B. Justo ° d fc aut de bs ascaptal 3V. Liniers 31 5to piso 234 Capital1174 4calle 22 numero 36 La plata casa 22cipollettiRio Negro 6mza 4 lote 33 44RosarioSta. Fe e/ 7 y d Buenos Aires1900 8RN. 11 KM. 350sta teresitaBuenos Aires
Copyright © 2009, SAS Institute Inc. All rights reserved. Perfilado de datos existentes para evaluar problemas de la calidad. El Ciclo de Calidad de Datos Analizar
Copyright © 2009, SAS Institute Inc. All rights reserved. Profiling de los Datos de Prueba Profile de Campo ProvinciaProfile de Campo Direccion
Copyright © 2009, SAS Institute Inc. All rights reserved. Tres Componentes: 1. Calidad 2. Integración 3. Enriquecimiento La fase de mejora incluye procesos para corregir, consolidar y enriquecer los datos. El Ciclo de Calidad de Datos Mejorar la Calidad de los Datos
Copyright © 2009, SAS Institute Inc. All rights reserved. Matching Standarización Descomposición (Parsing) Generación de Reglas de Negocio Mejorar la Calidad de Datos Fase de Calidad
Copyright © 2009, SAS Institute Inc. All rights reserved. 1.Calidad – Standarizacion IDDireccionLocalidadProvinciaCP 1 AV RIVADAVIA 2035 PISO 3 DPTO 4Ciudad Autonoma de Buenos Aires AV J B JUSTO ° D FCiudad Autonoma de Buenos Aires 3V LINIERS 31 5to PISO 234 Ciudad Autonoma de Buenos Aires1174 4CALLE 22 NUMERO 36 La plata1885 5MANZANA 37 CASA 22CipollettiRio Negro 6MZA 4 LOTE 33 44RosarioSanta Fe ENTRE 7 y D Buenos Aires1900 8RN 11KM 350Santa TeresitaBuenos Aires
Copyright © 2009, SAS Institute Inc. All rights reserved. 1.Calidad – Parsing IDDireccionTipoCalleNombreCalleNumeroPisoDptoObservaciones 1AV RIVADAVIA 2035 PISO 3 DPTO 4AVRIVADAVIA AV J B JUSTO ° d FAVJ B JUSTO287010F 3V LINIERS 31 5to PISO 234 V LINIERS CALLE 22 NUMERO 36CALLE2236 5MANZANA 37 CASA 22MANZANA3722 6MZA 4 LOTE 33 44MZA ENTRE 7 y D DENTRE 7 y 8 8RN 11 KM 350RN11350
Copyright © 2009, SAS Institute Inc. All rights reserved. La consolidación de registros unifica múltiples registros en un único registro “mejor”. Mejorar la Calidad de Datos Fase de Integración / Mejora
Copyright © 2009, SAS Institute Inc. All rights reserved. Verificación de Direcciones Georeferenciación País Teléfonos Códigos de Area Nombres y Apellidos Mejorar la Calidad de Datos Fase de Enriquecimiento
Copyright © 2009, SAS Institute Inc. All rights reserved. Enriquecimiento Base a Normalizar Base de Referencia Reglas de Negocio Base Normalizada Base a Revisar
Copyright © 2009, SAS Institute Inc. All rights reserved. Enriquecimiento Reglas de Negocio: Dentro de las reglas de Negocio tenemos los diferentes criterios que vamos a usar para normalizar y validar nuestras base, como asi tambien los criterios para otrogarle puntaje a los resultados de acuerdo con su precision y el tipo de base, esto quiere decir, dependiendo de la antiguedad, procedencia de la base, calidad incial de los datos Reglas Datos Normales Reglas De La Plata Reglas De Manzana Sin Reglas Coincide un 100% Coincide un 80% Coincide un 60% Reglas De Negocios
Copyright © 2009, SAS Institute Inc. All rights reserved. Enriquecimiento Aqui tenemos los datos enriquecidos y calificados. Encontramos 2 datos para la Av Rivadavia en Capital Federal. Encontramos 2 datos para la calle Av 55 en la Plata y Gran La Plata. Es un dato que no pudimos validar.
Copyright © 2009, SAS Institute Inc. All rights reserved. Interfaz de Diseño de rutinas de Calidad
Copyright © 2009, SAS Institute Inc. All rights reserved. Monitoreo de Reglas de Negocio El Ciclo de Calidad de Datos Control
Copyright © 2009, SAS Institute Inc. All rights reserved. Captura de Datos (ej. Aplicaciones Transaccionales) Data Marts Aplicaciones de BI 1 2 EDW 3 ODS 4 5 Calidad de Datos Dónde puedo aplicarlos en mi sistema? Construcción de Operational Data Stores Construcción de Data Warehouse Corporativo Construcción de Data Marts departamentales
Copyright © 2009, SAS Institute Inc. All rights reserved. Invoca un Job de Perfilado de Datos Invoca un Web Service en tiempo real vía XML Devuelve datos vericados al proceso ETL Integración con procesos Batch
Copyright © 2009, SAS Institute Inc. All rights reserved. Calidad de Datos Calidad de Datos embebida en procesos batch, near real-time y real-time. Reglas invocables desde colas de mensajes y Web Services. Múltiples diccionarios disponibles (Entre ellos Castellano). Metadatos compartidos por toda la Plataforma SAS. Definición de reglas reutilizables de calidad y enriquecimiento de datos. Perfilado de datos y monitoreo permanente de calidad de datos.
Copyright © 2009, SAS Institute Inc. All rights reserved. Integración con otras aplicaciones
Copyright © 2009, SAS Institute Inc. All rights reserved. Aplicaciones del DataCleansing Modelado predictivo Reportes Olap Reportes Standarts Sistemas Transaccionales Campañas de Marketing Directo Riesgo Crediticio Call Centers 3 - Para Que?
Copyright © 2009, SAS Institute Inc. All rights reserved.