1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López Universitario Autónomo del Sur - 2005 Estrategias para Mejorar.

Slides:



Advertisements
Presentaciones similares
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities scuola.
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
1 Datos sobre webloggers Datos extraidos de la encuesta a webloggers disponibles en la web de los autores.
Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
1 ESTUDIO DE OPINIÓN PÚBLICA: LA SEXUALIDAD DE LOS CHILENOS ABRIL 2006 ¿Informados o desinformados? Principal fuente de información Las enseñanzas durante.
Universidad San Martín de Porres
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN EL COMERCIO GALLEGO (Resumen COMERCIO AL DETALLE) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 5.- 1ª PARTE. EL A.O. Y SUS APLICACIONES
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Leo Marthe x 2123 COMMANDperformance Leo Marthe x 2123.
SIMATICA V2.0. Automatización de Viviendas con Simatic S7-200
Objetivo: Los estudiantes van a usar vocabulario del desayuno para comprender un cuento. Práctica: 1. ¿Te gusta comer? 2. ¿Te gusta beber Mt. Dew.
Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó
Presentación 20 de Mayo 2009.
1 XML Extensible Markup Language HTML HyperText Markup Language normas06_01.xml.
C ONFIGURACIÓN C UENTAS D E C ORREO ZTE N281. C ONFIGURACIÓN C UENTAS D E C ORREO ZTE N281 1-Ingrese a menú 2-Ingrese a Mensajes 3-Ingrese a Correo 4-Seleccione.
60 razones para seguir vivo
Estrategias en el aula con alumnos con problemas de atención y comportamiento Curso Actividad formativa: Seminario CRA “Entreviñas” - Fuensaldaña.
1 Reporte Componente Impacto Por Orden Territorial Por Departamento No Disponible ND *Los indicadores para el año 2008 no fueron calculados.
AGROACTIVO: 1 agricultura, ganadería y agroindustria.
Phone2Wave-Server Manual de Operación.
TELEFONÍA IP.
50 principios La Agenda 1.- Presentar un único interlocutor a los clientes. 2.- Tratar de modo distinto a las diferentes clases de clientes. 3.- Saber.
COLEGIO DE CONTADORES DE CHILE
Parte 3. Descripción del código de una función 1.
Licitación de FONASA para Bono AUGE
La nueva Ley de Residuos. Ordenanzas como vehículo de aplicación de la Ley en los Ayuntamientos Ricardo Luis Izquierdo Director Servicios.
-Presentación- Estudio de la Mujer
AÑO DE JUBILEO Levítico 25:8-22.
Calendario 2008 Imágenes variadas Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2008.
EL OSO APRENDIZ Y SUS AMIGOS
EL COMERCIO TEXTIL EN CIFRAS Séptima Edición - Cifras y Datos correspondientes al ejercicio Un Triple Compromiso: Con el Sector. Con la Economía.
1 SEGUNDO FORO REGIONAL HERMOSILLO, SON Sistema Nacional de Transparencia Fiscalización y Rendición de Cuentas:
Ejemplar de cortesía gratis para lectura y uso personal
50 principios 1. Los clientes asumen el mando.
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
Clasificación de los indicadores por categoría
Indicadores CNEP Escuela
Ecuaciones Cuadráticas
DW-AKADEMIEFolie 1 LA TELEVISIÓN PÚBLICA EN ALEMANIA.
¡Primero mira fijo a la bruja!
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
0 1 ¿Qué hora es? By: Craig Tillmann Revised by: Malinda Seger Coppell High School Coppell, TX.
POLÍTICAS MACROECONÓMICAS Econ. SEGUNDO A. CALLE RUIZ Ms. Sc. C. D.
¿Quién? ¿Qué? ¿Dónde? ¿Cuándo? ¿Cómo? ¿Por qué?
Módulo 2: Condiciones Generales de Trabajo
MSc. Lucía Osuna Wendehake
Calendario 2009 “Imágenes variadas” Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2009.
Realimentacion de la salida
Página 1 Indicadores de Desempeño de los Fondos de Aportaciones Federales del Ramo 33 Subsecretaría de Egresos Unidad de Política y Control Presupuestario.
Manual de Procedimientos Procedimiento de ejecución del programa de
Indicaciones: 1.- Tener en cuenta que esta estrategia, solo funciona asociando las cuentas los días lunes. 2.- Los cálculos son aproximados con un margen.
Estadística Administrativa II
Herramienta FRAX Expositor: Boris Inturias.
CHAPTER 4 VOCABULARY: PART II
TEST DE INTERESES VOCACIONALES 60º
FUNDAMENTOS DE CALIDAD EN LA GESTIÓN PÚBLICA
1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López Universitario Autónomo del Sur Manejo de Cadenas de Información.
1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López Universitario Autónomo del Sur Cómo arrancar Viene de:
1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López Universitario Autónomo del Sur Métodos de Control Estadístico.
Transcripción de la presentación:

1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López Universitario Autónomo del Sur Estrategias para Mejorar Viene de: Introducción Continúa con: Política de Calidad de Datos

2 UAS Carlos López Vázquez Tópicos a considerar n Introducción n Algunas definiciones n Estrategias n Qué datos mejorar n Caso de una única BD n Caso del DW

3 UAS Carlos López Vázquez Una tarea siempre titánica... n Volumen de datos tamaño empresa n Tendencia es a manejar más datos »DW »BDOO »Herramientas de última generación »Intranet/Internet n Se requieren planes...

4 UAS Carlos López Vázquez ===Define cómo ===> proceder en ese caso <==Solicita recursos== <=Informa sobre problemas observados= =Definen qué datos serán mejorados=> Plan de Calidad de Datos (PCD) Infraestructura administrativa Administración del PCD Planes operacionales Objetivos claros para el negocio Administración del PCD Infraestructura administrativa Planes operacionales Objetivos claros para el negocio

5 UAS Carlos López Vázquez Algunas definiciones... t Calidad t Precisión t ¿Correctitud? t ¿Exactitud? s Quality s Precision s Accuracy n El idioma español tiene limitaciones en este aspecto...

6 UAS Carlos López Vázquez Una definición operativa... Def.: “...Calidad(A) > Calidad(B) si...” –intrínsecamente subjetiva –asociada a las necesidades –dos clientes podrían disentir –eso si el cliente “sabe lo que quiere”...

7 UAS Carlos López Vázquez Ejemplo de las dificultades... MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B

8 UAS Carlos López Vázquez Una definición operativa (2)... –dos clientes podrían disentir Hay cosas que todos quieren o esperan: !relevancia !correctitud !poder “ver” !acceso simple !seguridad !privacidad

9 UAS Carlos López Vázquez Son dimensiones diferentes... En Calidad de Datos se distinguen cuatro: n Modelo de Datos (ej. relevancia) n Valores mismos (ej. correctitud) n Presentación (ej. poder “ver”) n Tecnológicos (ej. acceso simple) El curso trata sobre la segunda dimensión

10 UAS Carlos López Vázquez Para los valores mismos......también se distinguen cuatro dimensiones: n Correctitud n Vigencia n Completitud n Consistencia

11 UAS Carlos López Vázquez Correctitud (1)... Ej. E=“1745”,E.AÑO_NACIMIENTO=”1960”

12 UAS Carlos López Vázquez Correctitud (2) Quizá lo mejor que pueda lograrse es... Ej. FECHA=“ ”,FECHA.TEMP=”19.60” Un caso con dos problemas: No existe “verdadero” No existió nunca

13 UAS Carlos López Vázquez Correctitud (3) Las combinaciones formalmente posibles no necesariamente son válidas Ej. EMPLEADO=“9999” EMPLEADO.NOMBRE=“Jorge Batlle Ibáñez” EMPLEADO.AÑO_NACIMIENTO=“1925” EMPLEADO.CARGO=“Desconocido” ¡ Simplemente no es empleado!

14 UAS Carlos López Vázquez Correctitud (4)... ¡Hay varios valores “correctos”!

15 UAS Carlos López Vázquez Correctitud (5) En resumen: No siempre existe un “verdadero valor” Aún existiendo, puede ser inaccesible Métricas específicas al problema Métricas problemáticas

16 UAS Carlos López Vázquez Para los valores mismos......también se distinguen cuatro dimensiones: 4 Correctitud n Vigencia n Completitud n Consistencia

17 UAS Carlos López Vázquez Vigencia (1) ESTALLOVIENDO.NOW=TRUE LUN MAR MIE JUE Es algo que depende del tiempo...

18 UAS Carlos López Vázquez Vigencia (2) n Datos permanentes –Fecha de nacimiento –Tipo de sangre –Lugar de nacimiento  País de nacimiento! n Datos dinámicos| –Cambian ocasionalmente »Nombre y/o apellido (ej.: USA) »Dirección –Cambian regularmente »Salario|

19 UAS Carlos López Vázquez Para los valores mismos......también se distinguen cuatro dimensiones: 4 Correctitud 4 Vigencia n Completitud n Consistencia

20 UAS Carlos López Vázquez n Cuatro posibilidades –El empleado no tiene teléfono ==>OK –El empleado tiene teléfono, pero se ignora el número==>INC –El empleado tiene un número que no figura en la guía ==>OK –Se ignora si el empleado tiene teléfono ==>OK Completitud (1) n EMPLEADO.HOMEPHONE=“Null” n Veamos un poco más de detalle

21 UAS Carlos López Vázquez Completitud (2) n El “Null” debería tener colores... »Valor desconocido de un atributo aplicable (el registro es incompleto) »Indicador de atributo no aplicable (el registro es completo) »Atributo de aplicabilidad desconocida »Valor especial de un atributo (el registro es completo) n Difícil de implementar...

22 UAS Carlos López Vázquez Completitud (3) n Dos problemas: 4Completitud de registros en la base –Completitud de la base n Ej.: Lista de Empleados Activos n Ej.: Diccionario de neologismos

23 UAS Carlos López Vázquez Para los valores mismos......también se distinguen cuatro dimensiones: 4 Correctitud 4 Vigencia 4 Completitud n Consistencia

24 UAS Carlos López Vázquez Consistencia (1) n Dos o más cosas no son incompatibles n Dos o más datos pueden ser correctos a la vez n Un par de casos típicos –Redundancia –Consistencia interna

25 UAS Carlos López Vázquez Consistencia (2) n Redundancia –Varias copias de lo mismo –Actualización independiente –Mantenimiento separado Empleado.Dirección=“Aconcagua 1234” Empleado.Dirección=“Rancagua 1234” Empleado.Dirección=“Aconcagua 2134”

26 UAS Carlos López Vázquez Consistencia (3) n Consistencia interna –Existen reglas a cumplir »explícitas »implícitas Empleado.Dirección=“Aconcagua 1234” Empleado.CP=“11600”

27 UAS Carlos López Vázquez Tópicos a considerar 4 Introducción 4 Algunas definiciones n Estrategias n Qué datos mejorar n Caso de una única BD n Caso del DW

28 UAS Carlos López Vázquez Tres niveles, tres generaciones Detección + corrección Diseño de procesos Mejora de procesos

29 UAS Carlos López Vázquez Detección + corrección Tácticas corrientes: –Laissez fair –Comparar: »datos vs. realidad »con otra base »con reglas del negocio

30 UAS Carlos López Vázquez Comparar datos con realidad... n Viable para pocos datos n Caro y lento n Útil para evaluar niveles de calidad mediante muestreo n Inviable para datos muy dinámicos

31 UAS Carlos López Vázquez Comparar datos con otra base... n Trabajo de laboratorio (la realidad no entra) n Hipótesis implícitas »Existe una base, independiente, y redundante »No tiene demasiados errores n La comparación puede no ser simple n Es un método seductor...

32 UAS Carlos López Vázquez...con reglas del negocio... (1) Se expresan como Data Edits... n Un único campo: –“el valor debe ser uno de {0,1,2...9}” n Múltiples campos: –“Ciudad y País deben coordinarse” n Relaciones probabilísticas: –“Hijos=4 y Edad=15 es improbable” n Si fallan, se revisan los casos anómalos

33 UAS Carlos López Vázquez...con reglas del negocio... (2) A Favor: n Revelan muchas inconsistencias n No requiere una segunda base En contra: n Difíciles de hallar/explicitar n Requieren “expertos” n Pueden cambiar con el tiempo n Se aplican una vez, o son permanentes

34 UAS Carlos López Vázquez...con reglas del negocio... (3) Ej.: Caso del Censo (López, JISS 1997) n Escaneado+interpretación automática n Sólo datos categóricos n Digitar dos veces, o sólo lo erróneo n Reglas derivadas de los datos ==>¡No hay experto! n Resultado de la simulación:

35 UAS Carlos López Vázquez...con reglas del negocio... (4)

36 UAS Carlos López Vázquez Tres niveles, tres generaciones Detección + corrección Mejora de procesos Diseño de procesos

37 UAS Carlos López Vázquez Mejora de procesos n ¿Y la prevención? n Ej.: 1000 datos/día, 20 campos, 2% errores ==>¡400 errores/día!

38 UAS Carlos López Vázquez Un ejemplo... VENTAS ÓRDENES DESPACHO FACTURACIÓN

39 UAS Carlos López Vázquez Prevención... n Uso extenso de reglas del negocio n Quizá pequeños cambios »Ej.: habilitar/inhibir edición n Corrección temprana n Seguimiento n Más barato que corrección n Única alternativa si “llueven datos”

40 UAS Carlos López Vázquez Tres niveles, tres generaciones Detección + corrección Mejora de procesos Diseño de procesos

41 UAS Carlos López Vázquez Diseño del proceso n “a prueba de errores” n Exitosa en manufactura Ideas: n Eliminar re-digitación n Incorporar reglas n Reasignar propiedades n No hay muchos ejemplos con datos

42 UAS Carlos López Vázquez Tópicos a considerar 4 Introducción 4 Algunas definiciones 4 Estrategias n Qué datos mejorar n Caso de una única BD n Caso del DW

43 UAS Carlos López Vázquez ¿Qué datos mejorar... primero? n Tan importante como la estrategia n Hay que lograr éxitos al principio n Buscar consensos n Considerar varios criterios: –estrategia global de la empresa –relevancia para problemas ya conocidos –distancia ser deber ser –impacto económico

44 UAS Carlos López Vázquez Tópicos a considerar 4 Introducción 4 Algunas definiciones 4 Estrategias 4 Qué datos mejorar n Caso de una única BD n Caso del DW

45 UAS Carlos López Vázquez Una única base 1) Definir estrategia Estrategia Problemas conocidos Nivel de error Impacto ($) Datos prioritarios Cambios lentos Cambios rápidos Caso intermedio

46 UAS Carlos López Vázquez Hay casos mezclados... BD de Clientes: n Cliente.FechaNacimiento n Cliente.Domicilio n Cliente.Saldo ¿Razones? –acotar el trabajo de limpieza –asegurar un retorno

47 UAS Carlos López Vázquez Tópicos a considerar 4 Introducción 4 Algunas definiciones 4 Estrategias 4 Qué datos mejorar 4 Caso de una única BD n Caso del DW

48 UAS Carlos López Vázquez Muchas bases... A) Bases que no se solapan

49 UAS Carlos López Vázquez Muchas bases... B) Bases cliente-servidor

50 UAS Carlos López Vázquez Muchas bases... C) Bases solapadas pero independientes

51 UAS Carlos López Vázquez Más de una base...

52 UAS Carlos López Vázquez Vale la pena mencionar... n Problemas con datos, no con SGBD... n Duplicación por razones técnicas –Backup –Redundancia quizá requerida ==> ¡Usar Master-Slave! n DW explícitamente crea redundancia n DW recibe datos de varias fuentes

53 UAS Carlos López Vázquez El caso del DW n Identificar los datos requeridos n Identificar la(s) fuente(s) n Estimar niveles de error y caracterizar velocidad de cambios Tres pasos:

54 UAS Carlos López Vázquez Resumen n Plan operacional: –Detección+corrección –Manejo de procesos –Diseño de procesos n Pueden convivir n Datos críticos n Controlar redundancia

55 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López Universitario Autónomo del Sur Estrategias para Mejorar Viene de: Introducción Continúa con: Política de Calidad de Datos