Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porDavid Barbero Medina Modificado hace 9 años
1
Copyright © 2009, SAS Institute Inc. All rights reserved. Bienvenidos al Encuentro de DataCleansing
2
Copyright © 2009, SAS Institute Inc. All rights reserved. Temario Revisión de técnicas de Data Cleansing Ejemplo Práctico de DC en Banca (hands-on) Discusión pros y contras de distintas técnicas Conclusiones
3
Copyright © 2009, SAS Institute Inc. All rights reserved. Proposito del Encuentro En esta charla tenemos como propósito contestar tres preguntas fundamentales 1 - Porque? Porque debo pensar en un proceso de DQ? 2 - Como? Cuales son los pasos de un proceso de Data Quality completo? 3 - Para Que? Porque la importancia y Cuales son las aplicaciones de un proceso de DQ?
4
Copyright © 2009, SAS Institute Inc. All rights reserved. 1 – Porque? Vivimos en la era de la información y la información es poder Información = Datos + Proceso Nos concentraremos en los datos Definicion de Data Cleansing Proceso por el cual se realiza la detección y corrección / eliminacion de datos corruptos o inexactos en un conjunto de registros, tabla o base de datos.
5
Copyright © 2009, SAS Institute Inc. All rights reserved. 2 - Como? El Ciclo de Calidad de Datos 1 - Analizar 2 - Mejorar 3 - Controlar Profile Calidad Integracion Enriquecimiento Monitoreo
6
Copyright © 2009, SAS Institute Inc. All rights reserved. Datos de Prueba IDDireccionLocalidadProvinciaCP 1Av. Rivadavia 2035 piso 3 dpto 4cap FedCapital federal10000 2Avenida. J B. Justo 2870 10° d fc aut de bs ascaptal 3V. Liniers 31 5to piso 234 Capital1174 4calle 22 numero 36 La plata1885 5m@nzana 37 casa 22cipollettiRio Negro 6mza 4 lote 33 44RosarioSta. Fe2000 755 e/ 7 y 8 239 4 d Buenos Aires1900 8RN. 11 KM. 350sta teresitaBuenos Aires
7
Copyright © 2009, SAS Institute Inc. All rights reserved. Perfilado de datos existentes para evaluar problemas de la calidad. El Ciclo de Calidad de Datos Analizar
8
Copyright © 2009, SAS Institute Inc. All rights reserved. Profiling de los Datos de Prueba Profile de Campo ProvinciaProfile de Campo Direccion
9
Copyright © 2009, SAS Institute Inc. All rights reserved. Tres Componentes: 1. Calidad 2. Integración 3. Enriquecimiento La fase de mejora incluye procesos para corregir, consolidar y enriquecer los datos. El Ciclo de Calidad de Datos Mejorar la Calidad de los Datos
10
Copyright © 2009, SAS Institute Inc. All rights reserved. Matching Standarización Descomposición (Parsing) Generación de Reglas de Negocio Mejorar la Calidad de Datos Fase de Calidad
11
Copyright © 2009, SAS Institute Inc. All rights reserved. 1.Calidad – Standarizacion IDDireccionLocalidadProvinciaCP 1 AV RIVADAVIA 2035 PISO 3 DPTO 4Ciudad Autonoma de Buenos Aires 10000 2AV J B JUSTO 2870 10° D FCiudad Autonoma de Buenos Aires 3V LINIERS 31 5to PISO 234 Ciudad Autonoma de Buenos Aires1174 4CALLE 22 NUMERO 36 La plata1885 5MANZANA 37 CASA 22CipollettiRio Negro 6MZA 4 LOTE 33 44RosarioSanta Fe2000 755 ENTRE 7 y 8 239 4 D Buenos Aires1900 8RN 11KM 350Santa TeresitaBuenos Aires
12
Copyright © 2009, SAS Institute Inc. All rights reserved. 1.Calidad – Parsing IDDireccionTipoCalleNombreCalleNumeroPisoDptoObservaciones 1AV RIVADAVIA 2035 PISO 3 DPTO 4AVRIVADAVIA203534 2AV J B JUSTO 2870 10° d FAVJ B JUSTO287010F 3V LINIERS 31 5to PISO 234 V LINIERS315234 4CALLE 22 NUMERO 36CALLE2236 5MANZANA 37 CASA 22MANZANA3722 6MZA 4 LOTE 33 44MZA433 44 755 ENTRE 7 y 8 239 4 D 552394DENTRE 7 y 8 8RN 11 KM 350RN11350
13
Copyright © 2009, SAS Institute Inc. All rights reserved. La consolidación de registros unifica múltiples registros en un único registro “mejor”. Mejorar la Calidad de Datos Fase de Integración / Mejora
14
Copyright © 2009, SAS Institute Inc. All rights reserved. Verificación de Direcciones Georeferenciación País Teléfonos Códigos de Area Nombres y Apellidos Mejorar la Calidad de Datos Fase de Enriquecimiento
15
Copyright © 2009, SAS Institute Inc. All rights reserved. Enriquecimiento Base a Normalizar Base de Referencia Reglas de Negocio Base Normalizada Base a Revisar
16
Copyright © 2009, SAS Institute Inc. All rights reserved. Enriquecimiento Reglas de Negocio: Dentro de las reglas de Negocio tenemos los diferentes criterios que vamos a usar para normalizar y validar nuestras base, como asi tambien los criterios para otrogarle puntaje a los resultados de acuerdo con su precision y el tipo de base, esto quiere decir, dependiendo de la antiguedad, procedencia de la base, calidad incial de los datos Reglas Datos Normales Reglas De La Plata Reglas De Manzana Sin Reglas Coincide un 100% Coincide un 80% Coincide un 60% Reglas De Negocios
17
Copyright © 2009, SAS Institute Inc. All rights reserved. Enriquecimiento Aqui tenemos los datos enriquecidos y calificados. Encontramos 2 datos para la Av Rivadavia en Capital Federal. Encontramos 2 datos para la calle Av 55 en la Plata y Gran La Plata. Es un dato que no pudimos validar.
18
Copyright © 2009, SAS Institute Inc. All rights reserved. Interfaz de Diseño de rutinas de Calidad
19
Copyright © 2009, SAS Institute Inc. All rights reserved. Monitoreo de Reglas de Negocio El Ciclo de Calidad de Datos Control
20
Copyright © 2009, SAS Institute Inc. All rights reserved. Captura de Datos (ej. Aplicaciones Transaccionales) Data Marts Aplicaciones de BI 1 2 EDW 3 ODS 4 5 Calidad de Datos Dónde puedo aplicarlos en mi sistema? Construcción de Operational Data Stores Construcción de Data Warehouse Corporativo Construcción de Data Marts departamentales
21
Copyright © 2009, SAS Institute Inc. All rights reserved. Invoca un Job de Perfilado de Datos Invoca un Web Service en tiempo real vía XML Devuelve datos vericados al proceso ETL Integración con procesos Batch
22
Copyright © 2009, SAS Institute Inc. All rights reserved. Calidad de Datos Calidad de Datos embebida en procesos batch, near real-time y real-time. Reglas invocables desde colas de mensajes y Web Services. Múltiples diccionarios disponibles (Entre ellos Castellano). Metadatos compartidos por toda la Plataforma SAS. Definición de reglas reutilizables de calidad y enriquecimiento de datos. Perfilado de datos y monitoreo permanente de calidad de datos.
23
Copyright © 2009, SAS Institute Inc. All rights reserved. Integración con otras aplicaciones
24
Copyright © 2009, SAS Institute Inc. All rights reserved. Aplicaciones del DataCleansing Modelado predictivo Reportes Olap Reportes Standarts Sistemas Transaccionales Campañas de Marketing Directo Riesgo Crediticio Call Centers 3 - Para Que?
25
Copyright © 2009, SAS Institute Inc. All rights reserved.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.