Copyright © 2009, SAS Institute Inc. All rights reserved. Bienvenidos al Encuentro de DataCleansing.

Slides:



Advertisements
Presentaciones similares
ORACLE OLAP Integrantes: *Aizaga, Martiniano *Gallegos, Marina
Advertisements

DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
Unidad I: CONCEPTOS FUNDAMENTALES
Programa Intel ® Educar Curso Introductorio Módulo 5 Procesador de texto.
Aplicación Web para Informes de Asignaturas de Trabajo en Grupo
Importancia de Evaluar Sitios Web Diversas características y atributos de calidad de sitios Web tales como usabilidad, navegabilidad, seguridad, características.
Pág. 1 Computación Avanzada y Sistemas Empresariales, S.A. de C.V. Metadata Management utilizando la Suite ER/Studio, de Embarcadero Technologies, Inc.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
©Copyright 2013 ISACA. Todos los derechos reservados. La gestión de riesgos consiste por lo general en los siguientes procesos: Definición del alcance.
Formulación de Proyectos de Titulación
Nuevos Productos Macro Pro ofrece varias soluciones complementarias para cumplir con los objetivos de control y análisis de información de nuestros clientes.
Proyecto de Carrera Tecnólogo en Informática 2012 Grupo 02 Luis Conde Juan Urtiaga Jorge Melnik Álvaro Vallvé Prof. Ing. Dra. Andrea Delgado.
ORACLE OLAP CAECE Integrantes: *Aizaga, Martiniano *Gallegos, Marina *Kleinlein, Guillermo *Schiano di Cola, Emiliano.
Johandra Gastier David De Freitas
Unidad I: CONCEPTOS FUNDAMENTALES
...Auditorias de sistemas de administración bajo ISO 19011: "
Trampeo Preventivo de Moscas Exóticas de la Fruta (TPMEF)
Copyright © 2006 by The McGraw-Hill Companies, Inc. All rights reserved. McGraw-Hill Technology Education Copyright © 2006 by The McGraw-Hill Companies,
SISTEMA INTEGRAL DE COMUNICACIÓN, CONTROL Y SEGUIMIENTO DE LA VIGILANCIA EPIDEMIOLÓGICA FITOSANITARIA.
Copyright © 2008 Vista Higher Learning. All rights reserved ¿Qué? ¿Cuál? ¿Cuáles?
Proceso de desarrollo de Software
DATA WAREHOUSE.
Proceso de investigación : el ciclo de investigación Ver: uthentic_inquiry2.pdf Y
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados Inscripción en el Registro de negocios, parte 1 Registros empresariales administrativos.
TEMA 5 OBJETIVOS Datos que se recogen a través de estudios cuidadosamente planeados La selección de métodos que existen: entrevista, observación y cuestionarios.
Copyright © 2003 by The McGraw-Hill Companies, Inc. All rights reserved.
Ing. Ernesto Sierraalta Fundamentos de Desarrollo de Proyectos de Inteligencia de Negocios ( Decision Support Systems & Data Warehousing.
USO DE LAS HERRAMIENTAS CASE MARIA VERA ANGEL CEDEÑO.
ADMINISTRACIÓN DE PORTAFOLIOS DE TERCEROS (APT) 1.Gestión de patrimonios 2.Administración de flujos de caja 3.Capitales especulativos.
Telefonía IP – una realidad Sistemas Asterisk y VozIP Virtuality 2010.
CUALIDADES DEL ORADOR PARA UNA PRESENTACIÓN EFECTIVA UNIDAD DIDÁCTICA: Técnicas de la Comunicación DOCENTE: José Antonio Terrazos Mejia
Copyright © 2007, SAS Institute Inc. All rights reserved. Desafíos y Soluciones en la Gestión Presupuestaria Junio 2009 Pablo Fondevila
Plataforma Escenarios Energéticos Argentina 2030 Ing. Fabián Barone.
Sistemas EPR,s  Los sistemas ERP son sistemas integrales de gestión para la empresa. Se caracterizan por estar compuestos por diferentes partes integradas.
Cuestionario CP-IDEA: conclusiones y perspectivas de aplicación 2013 Equipo de Coordinación GTplan.
Universidad de Panamá Anexo Chame San Carlos Facultad de Informática Electrónica y Comunicación Técnico en Informática Educativa Tópico en Informática.
Copyright © 2010 SAS Institute Inc. All rights reserved. Sergio Miller Gerente de Proyectos Hotel Hilton Buenos Aires 17 de Noviembre 2011 The Premier.
RED BASICA NACIONAL DE SEGUIMIENTO Y MUESTREO DE AGUAS SUBTERRANEAS PROPUESTA PARA LA DISCUSION Subdirección de Hidrologia Ideam Por: HUGO CAÑAS OMAR VARGAS.
Orden de Servicio Documento de Transporte Se divide en 4 partes.
Actualización Guías Alimentarias en Centro América.
Copyright © 2006, SAS Institute Inc. All rights reserved. Techie Tips para mejorar tu código Arrays con SAS Marcel Almeida SAS BI Sr Consultant Pablo Fondevila.
Tema 7: Ingeniería del software Definición de software El software es: 1. instrucciones (programas de computadora) que cuando se ejecutan proporcionan.
Copyright © 2009, SAS Institute Inc. All rights reserved. SAS Para Principiantes Primer Encuentro - Analytics Cono Sur Guido Sagasti - Consultor.
Copyright © 2010 SAS Institute Inc. All rights reserved. Douglas Montalvao Gerente de Soluciones Hotel Hilton Buenos Aires 17 de Noviembre 2011 The Premier.
METODOLOGÍA CUALITATIVA Licenciatura en Comunicación Social, U. del Pacífico Cuarta semana de clases El proceso de construcción de un marco teórico Prof.
Auditoría de la Adquisición del Software Cr. Luis Elissondo Facultad de Ciencias Económicas Universidad Nacional del Centro de la Provincia de Bs. As.
Copyright © 2010 SAS Institute Inc. All rights reserved. ¿Cómo optimizar la efectividad de las acciones de marketing mediante una plataforma integrada.
Prof. Teresa Moreno Prof. Yovanni Ruiz Prof. Damaris González
COMUNICADORES EN EMERGENCIAS: RECOMENDACIONES PRÁCTICAS.
Inter-American Development Bank Multilateral Investment Fund Informe de Avance del Proyecto o Project Status Report (PSR)
INTEGRACION E INTEROPERABILIDAD DEL SISTEMA DE ADMINISTRACION FINANCIERA DEL ECUADOR eSIGEF Taller de Sistemas Integrados de Administración Financiera.
En ella, el cliente podrá encontrar toda la información sobre: El historial de mantenimiento de su vehículo Recordatorios de próximos servicios Localización.
3.3 El Portafolio de Evidencias Digital como Instrumento de Evaluación.
YEIMMY ALEJANDRA CONTRERAS S. ING. DE SISTEMAS COMPONENTES DE UN ENTORNO VIRTUAL.
DISEÑO PARA LA CONSTRUCCIÓN DE OVAS Tema: LA TASA INTERNA DE RETORNO Realizado por: MARTHA LUCÍA FUERTES DÍAZ HERRAMIENTAS VIRTUALES PARA LA CONSTRUCCIÓN.
METADATOS QUE SON LOS METADATOS? SON LOS DATOS DE LOS DATOS Los metadatos forman parte de un elemento de ArcGIS. Archivo xml complementario En los metadatos.
Acreditación de Pregrado Dirección de Análisis y Desarrollo Institucional.
“Planes de fortalecimiento y auto sotenibilidad” Proyecto del Fondo Mundial Periodo Julio 2015.
Consulting, IT & Outsourcing Professional Services Estructura de la información del proyecto Diraya Atención Especializada en una herramienta CASE (Enterprise.
”Equipos de ensayo inteligentes para sistemas eléctricos seguros”
Censo Nacional de Gobierno, Seguridad Pública y Sistema Penitenciario Estatales 2016 (CNGSPSPE) Marzo de 2016.
Definición y Estructura de la Hoja Metodológica de los Indicadores Ambientales MODULO 03: CURSO INTRODUCTORIO PARA LA CONSTRUCCION DE INDICADORES AMBIENTALES.
INGENIERIA DEL PRODUCTO 2016 – I Ing. Maria del Pilar Vera Prado UNIVERSIDAD AUTONOMA DE SAN FRANCISCO.
Maximiliano correa pico. “Con la moral corregimos los errores de nuestros instintos, y con el amor los errores de nuestra moral.” José Ortega y Gasset.
Las evaluaciones por competencias y sus implicaciones pedagógicas
Dario A. Montoya Mejia Presentación Formación Titulada Formación Por Proyectos.
Presentación curso Organización Asociativa
SEGUIMIENTO A LA MATRIZ DE INDICADORES PARA RESULTADOS (MIR) De los 27 indicadores trimestrales, en 15 se programaron metas para el primer trimestre de.
Uno de los métodos para disponer los instrumentos sobre la mesa de Mayo. Rutina de la práctica de la técnica quirúrgica en la Facultad de Medicina, Universidad.
Uno de los métodos para disponer los instrumentos sobre la mesa de Mayo. Rutina de la práctica de la técnica quirúrgica en la Facultad de Medicina, Universidad.
Transcripción de la presentación:

Copyright © 2009, SAS Institute Inc. All rights reserved. Bienvenidos al Encuentro de DataCleansing

Copyright © 2009, SAS Institute Inc. All rights reserved. Temario Revisión de técnicas de Data Cleansing Ejemplo Práctico de DC en Banca (hands-on) Discusión pros y contras de distintas técnicas Conclusiones

Copyright © 2009, SAS Institute Inc. All rights reserved. Proposito del Encuentro En esta charla tenemos como propósito contestar tres preguntas fundamentales 1 - Porque? Porque debo pensar en un proceso de DQ? 2 - Como? Cuales son los pasos de un proceso de Data Quality completo? 3 - Para Que? Porque la importancia y Cuales son las aplicaciones de un proceso de DQ?

Copyright © 2009, SAS Institute Inc. All rights reserved. 1 – Porque? Vivimos en la era de la información y la información es poder Información = Datos + Proceso Nos concentraremos en los datos Definicion de Data Cleansing  Proceso por el cual se realiza la detección y corrección / eliminacion de datos corruptos o inexactos en un conjunto de registros, tabla o base de datos.

Copyright © 2009, SAS Institute Inc. All rights reserved. 2 - Como? El Ciclo de Calidad de Datos 1 - Analizar 2 - Mejorar 3 - Controlar Profile Calidad Integracion Enriquecimiento Monitoreo

Copyright © 2009, SAS Institute Inc. All rights reserved. Datos de Prueba IDDireccionLocalidadProvinciaCP 1Av. Rivadavia 2035 piso 3 dpto 4cap FedCapital federal Avenida. J B. Justo ° d fc aut de bs ascaptal 3V. Liniers 31 5to piso 234 Capital1174 4calle 22 numero 36 La plata casa 22cipollettiRio Negro 6mza 4 lote 33 44RosarioSta. Fe e/ 7 y d Buenos Aires1900 8RN. 11 KM. 350sta teresitaBuenos Aires

Copyright © 2009, SAS Institute Inc. All rights reserved.  Perfilado de datos existentes para evaluar problemas de la calidad. El Ciclo de Calidad de Datos Analizar

Copyright © 2009, SAS Institute Inc. All rights reserved. Profiling de los Datos de Prueba Profile de Campo ProvinciaProfile de Campo Direccion

Copyright © 2009, SAS Institute Inc. All rights reserved.  Tres Componentes: 1. Calidad 2. Integración 3. Enriquecimiento  La fase de mejora incluye procesos para corregir, consolidar y enriquecer los datos. El Ciclo de Calidad de Datos Mejorar la Calidad de los Datos

Copyright © 2009, SAS Institute Inc. All rights reserved. Matching Standarización Descomposición (Parsing) Generación de Reglas de Negocio Mejorar la Calidad de Datos Fase de Calidad

Copyright © 2009, SAS Institute Inc. All rights reserved. 1.Calidad – Standarizacion IDDireccionLocalidadProvinciaCP 1 AV RIVADAVIA 2035 PISO 3 DPTO 4Ciudad Autonoma de Buenos Aires AV J B JUSTO ° D FCiudad Autonoma de Buenos Aires 3V LINIERS 31 5to PISO 234 Ciudad Autonoma de Buenos Aires1174 4CALLE 22 NUMERO 36 La plata1885 5MANZANA 37 CASA 22CipollettiRio Negro 6MZA 4 LOTE 33 44RosarioSanta Fe ENTRE 7 y D Buenos Aires1900 8RN 11KM 350Santa TeresitaBuenos Aires

Copyright © 2009, SAS Institute Inc. All rights reserved. 1.Calidad – Parsing IDDireccionTipoCalleNombreCalleNumeroPisoDptoObservaciones 1AV RIVADAVIA 2035 PISO 3 DPTO 4AVRIVADAVIA AV J B JUSTO ° d FAVJ B JUSTO287010F 3V LINIERS 31 5to PISO 234 V LINIERS CALLE 22 NUMERO 36CALLE2236 5MANZANA 37 CASA 22MANZANA3722 6MZA 4 LOTE 33 44MZA ENTRE 7 y D DENTRE 7 y 8 8RN 11 KM 350RN11350

Copyright © 2009, SAS Institute Inc. All rights reserved.  La consolidación de registros unifica múltiples registros en un único registro “mejor”. Mejorar la Calidad de Datos Fase de Integración / Mejora

Copyright © 2009, SAS Institute Inc. All rights reserved. Verificación de Direcciones Georeferenciación País Teléfonos Códigos de Area Nombres y Apellidos Mejorar la Calidad de Datos Fase de Enriquecimiento

Copyright © 2009, SAS Institute Inc. All rights reserved. Enriquecimiento Base a Normalizar Base de Referencia Reglas de Negocio Base Normalizada Base a Revisar

Copyright © 2009, SAS Institute Inc. All rights reserved. Enriquecimiento Reglas de Negocio: Dentro de las reglas de Negocio tenemos los diferentes criterios que vamos a usar para normalizar y validar nuestras base, como asi tambien los criterios para otrogarle puntaje a los resultados de acuerdo con su precision y el tipo de base, esto quiere decir, dependiendo de la antiguedad, procedencia de la base, calidad incial de los datos Reglas Datos Normales Reglas De La Plata Reglas De Manzana Sin Reglas Coincide un 100% Coincide un 80% Coincide un 60% Reglas De Negocios

Copyright © 2009, SAS Institute Inc. All rights reserved. Enriquecimiento Aqui tenemos los datos enriquecidos y calificados. Encontramos 2 datos para la Av Rivadavia en Capital Federal. Encontramos 2 datos para la calle Av 55 en la Plata y Gran La Plata. Es un dato que no pudimos validar.

Copyright © 2009, SAS Institute Inc. All rights reserved. Interfaz de Diseño de rutinas de Calidad

Copyright © 2009, SAS Institute Inc. All rights reserved. Monitoreo de Reglas de Negocio El Ciclo de Calidad de Datos Control

Copyright © 2009, SAS Institute Inc. All rights reserved. Captura de Datos (ej. Aplicaciones Transaccionales) Data Marts Aplicaciones de BI 1 2 EDW 3 ODS 4 5 Calidad de Datos Dónde puedo aplicarlos en mi sistema? Construcción de Operational Data Stores Construcción de Data Warehouse Corporativo Construcción de Data Marts departamentales

Copyright © 2009, SAS Institute Inc. All rights reserved. Invoca un Job de Perfilado de Datos Invoca un Web Service en tiempo real vía XML Devuelve datos vericados al proceso ETL Integración con procesos Batch

Copyright © 2009, SAS Institute Inc. All rights reserved. Calidad de Datos  Calidad de Datos embebida en procesos batch, near real-time y real-time.  Reglas invocables desde colas de mensajes y Web Services.  Múltiples diccionarios disponibles (Entre ellos Castellano).  Metadatos compartidos por toda la Plataforma SAS.  Definición de reglas reutilizables de calidad y enriquecimiento de datos.  Perfilado de datos y monitoreo permanente de calidad de datos.

Copyright © 2009, SAS Institute Inc. All rights reserved. Integración con otras aplicaciones

Copyright © 2009, SAS Institute Inc. All rights reserved. Aplicaciones del DataCleansing  Modelado predictivo  Reportes Olap  Reportes Standarts  Sistemas Transaccionales  Campañas de Marketing Directo  Riesgo Crediticio  Call Centers 3 - Para Que?

Copyright © 2009, SAS Institute Inc. All rights reserved.