La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López Universitario Autónomo del Sur - 2005 Estrategias para Mejorar.

Presentaciones similares


Presentación del tema: "1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López Universitario Autónomo del Sur - 2005 Estrategias para Mejorar."— Transcripción de la presentación:

1 1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López carlos.lopez@ieee.org Universitario Autónomo del Sur - 2005 Estrategias para Mejorar Viene de: Introducción Continúa con: Política de Calidad de Datos

2 2 UAS Carlos López Vázquez Tópicos a considerar n Introducción n Algunas definiciones n Estrategias n Qué datos mejorar n Caso de una única BD n Caso del DW

3 3 UAS Carlos López Vázquez Una tarea siempre titánica... n Volumen de datos tamaño empresa n Tendencia es a manejar más datos »DW »BDOO »Herramientas de última generación »Intranet/Internet n Se requieren planes...

4 4 UAS Carlos López Vázquez ===Define cómo ===> proceder en ese caso <==Solicita recursos== <=Informa sobre problemas observados= =Definen qué datos serán mejorados=> Plan de Calidad de Datos (PCD) Infraestructura administrativa Administración del PCD Planes operacionales Objetivos claros para el negocio Administración del PCD Infraestructura administrativa Planes operacionales Objetivos claros para el negocio

5 5 UAS Carlos López Vázquez Algunas definiciones... t Calidad t Precisión t ¿Correctitud? t ¿Exactitud? s Quality s Precision s Accuracy n El idioma español tiene limitaciones en este aspecto...

6 6 UAS Carlos López Vázquez Una definición operativa... Def.: “...Calidad(A) > Calidad(B) si...” –intrínsecamente subjetiva –asociada a las necesidades –dos clientes podrían disentir –eso si el cliente “sabe lo que quiere”...

7 7 UAS Carlos López Vázquez Ejemplo de las dificultades... MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B

8 8 UAS Carlos López Vázquez Una definición operativa (2)... –dos clientes podrían disentir Hay cosas que todos quieren o esperan: !relevancia !correctitud !poder “ver” !acceso simple !seguridad !privacidad

9 9 UAS Carlos López Vázquez Son dimensiones diferentes... En Calidad de Datos se distinguen cuatro: n Modelo de Datos (ej. relevancia) n Valores mismos (ej. correctitud) n Presentación (ej. poder “ver”) n Tecnológicos (ej. acceso simple) El curso trata sobre la segunda dimensión

10 10 UAS Carlos López Vázquez Para los valores mismos......también se distinguen cuatro dimensiones: n Correctitud n Vigencia n Completitud n Consistencia

11 11 UAS Carlos López Vázquez Correctitud (1)... Ej. E=“1745”,E.AÑO_NACIMIENTO=”1960”

12 12 UAS Carlos López Vázquez Correctitud (2) Quizá lo mejor que pueda lograrse es... Ej. FECHA=“18071825.120000”,FECHA.TEMP=”19.60” Un caso con dos problemas: No existe “verdadero” No existió nunca

13 13 UAS Carlos López Vázquez Correctitud (3) Las combinaciones formalmente posibles no necesariamente son válidas Ej. EMPLEADO=“9999” EMPLEADO.NOMBRE=“Jorge Batlle Ibáñez” EMPLEADO.AÑO_NACIMIENTO=“1925” EMPLEADO.CARGO=“Desconocido” ¡ Simplemente no es empleado!

14 14 UAS Carlos López Vázquez Correctitud (4)... ¡Hay varios valores “correctos”!

15 15 UAS Carlos López Vázquez Correctitud (5) En resumen: No siempre existe un “verdadero valor” Aún existiendo, puede ser inaccesible Métricas específicas al problema Métricas problemáticas

16 16 UAS Carlos López Vázquez Para los valores mismos......también se distinguen cuatro dimensiones: 4 Correctitud n Vigencia n Completitud n Consistencia

17 17 UAS Carlos López Vázquez Vigencia (1) ESTALLOVIENDO.NOW=TRUE LUN MAR MIE JUE Es algo que depende del tiempo...

18 18 UAS Carlos López Vázquez Vigencia (2) n Datos permanentes –Fecha de nacimiento –Tipo de sangre –Lugar de nacimiento  País de nacimiento! n Datos dinámicos| –Cambian ocasionalmente »Nombre y/o apellido (ej.: USA) »Dirección –Cambian regularmente »Salario|

19 19 UAS Carlos López Vázquez Para los valores mismos......también se distinguen cuatro dimensiones: 4 Correctitud 4 Vigencia n Completitud n Consistencia

20 20 UAS Carlos López Vázquez n Cuatro posibilidades –El empleado no tiene teléfono ==>OK –El empleado tiene teléfono, pero se ignora el número==>INC –El empleado tiene un número que no figura en la guía ==>OK –Se ignora si el empleado tiene teléfono ==>OK Completitud (1) n EMPLEADO.HOMEPHONE=“Null” n Veamos un poco más de detalle

21 21 UAS Carlos López Vázquez Completitud (2) n El “Null” debería tener colores... »Valor desconocido de un atributo aplicable (el registro es incompleto) »Indicador de atributo no aplicable (el registro es completo) »Atributo de aplicabilidad desconocida »Valor especial de un atributo (el registro es completo) n Difícil de implementar...

22 22 UAS Carlos López Vázquez Completitud (3) n Dos problemas: 4Completitud de registros en la base –Completitud de la base n Ej.: Lista de Empleados Activos n Ej.: Diccionario de neologismos

23 23 UAS Carlos López Vázquez Para los valores mismos......también se distinguen cuatro dimensiones: 4 Correctitud 4 Vigencia 4 Completitud n Consistencia

24 24 UAS Carlos López Vázquez Consistencia (1) n Dos o más cosas no son incompatibles n Dos o más datos pueden ser correctos a la vez n Un par de casos típicos –Redundancia –Consistencia interna

25 25 UAS Carlos López Vázquez Consistencia (2) n Redundancia –Varias copias de lo mismo –Actualización independiente –Mantenimiento separado Empleado.Dirección=“Aconcagua 1234” Empleado.Dirección=“Rancagua 1234” Empleado.Dirección=“Aconcagua 2134”

26 26 UAS Carlos López Vázquez Consistencia (3) n Consistencia interna –Existen reglas a cumplir »explícitas »implícitas Empleado.Dirección=“Aconcagua 1234” Empleado.CP=“11600”

27 27 UAS Carlos López Vázquez Tópicos a considerar 4 Introducción 4 Algunas definiciones n Estrategias n Qué datos mejorar n Caso de una única BD n Caso del DW

28 28 UAS Carlos López Vázquez Tres niveles, tres generaciones Detección + corrección Diseño de procesos Mejora de procesos

29 29 UAS Carlos López Vázquez Detección + corrección Tácticas corrientes: –Laissez fair –Comparar: »datos vs. realidad »con otra base »con reglas del negocio

30 30 UAS Carlos López Vázquez Comparar datos con realidad... n Viable para pocos datos n Caro y lento n Útil para evaluar niveles de calidad mediante muestreo n Inviable para datos muy dinámicos

31 31 UAS Carlos López Vázquez Comparar datos con otra base... n Trabajo de laboratorio (la realidad no entra) n Hipótesis implícitas »Existe una base, independiente, y redundante »No tiene demasiados errores n La comparación puede no ser simple n Es un método seductor...

32 32 UAS Carlos López Vázquez...con reglas del negocio... (1) Se expresan como Data Edits... n Un único campo: –“el valor debe ser uno de {0,1,2...9}” n Múltiples campos: –“Ciudad y País deben coordinarse” n Relaciones probabilísticas: –“Hijos=4 y Edad=15 es improbable” n Si fallan, se revisan los casos anómalos

33 33 UAS Carlos López Vázquez...con reglas del negocio... (2) A Favor: n Revelan muchas inconsistencias n No requiere una segunda base En contra: n Difíciles de hallar/explicitar n Requieren “expertos” n Pueden cambiar con el tiempo n Se aplican una vez, o son permanentes

34 34 UAS Carlos López Vázquez...con reglas del negocio... (3) Ej.: Caso del Censo (López, JISS 1997) n Escaneado+interpretación automática n Sólo datos categóricos n Digitar dos veces, o sólo lo erróneo n Reglas derivadas de los datos ==>¡No hay experto! n Resultado de la simulación:

35 35 UAS Carlos López Vázquez...con reglas del negocio... (4)

36 36 UAS Carlos López Vázquez Tres niveles, tres generaciones Detección + corrección Mejora de procesos Diseño de procesos

37 37 UAS Carlos López Vázquez Mejora de procesos n ¿Y la prevención? n Ej.: 1000 datos/día, 20 campos, 2% errores ==>¡400 errores/día!

38 38 UAS Carlos López Vázquez Un ejemplo... VENTAS ÓRDENES DESPACHO FACTURACIÓN

39 39 UAS Carlos López Vázquez Prevención... n Uso extenso de reglas del negocio n Quizá pequeños cambios »Ej.: habilitar/inhibir edición n Corrección temprana n Seguimiento n Más barato que corrección n Única alternativa si “llueven datos”

40 40 UAS Carlos López Vázquez Tres niveles, tres generaciones Detección + corrección Mejora de procesos Diseño de procesos

41 41 UAS Carlos López Vázquez Diseño del proceso n “a prueba de errores” n Exitosa en manufactura Ideas: n Eliminar re-digitación n Incorporar reglas n Reasignar propiedades n No hay muchos ejemplos con datos

42 42 UAS Carlos López Vázquez Tópicos a considerar 4 Introducción 4 Algunas definiciones 4 Estrategias n Qué datos mejorar n Caso de una única BD n Caso del DW

43 43 UAS Carlos López Vázquez ¿Qué datos mejorar... primero? n Tan importante como la estrategia n Hay que lograr éxitos al principio n Buscar consensos n Considerar varios criterios: –estrategia global de la empresa –relevancia para problemas ya conocidos –distancia ser deber ser –impacto económico

44 44 UAS Carlos López Vázquez Tópicos a considerar 4 Introducción 4 Algunas definiciones 4 Estrategias 4 Qué datos mejorar n Caso de una única BD n Caso del DW

45 45 UAS Carlos López Vázquez Una única base 1) Definir estrategia Estrategia Problemas conocidos Nivel de error Impacto ($) Datos prioritarios Cambios lentos Cambios rápidos Caso intermedio

46 46 UAS Carlos López Vázquez Hay casos mezclados... BD de Clientes: n Cliente.FechaNacimiento n Cliente.Domicilio n Cliente.Saldo ¿Razones? –acotar el trabajo de limpieza –asegurar un retorno

47 47 UAS Carlos López Vázquez Tópicos a considerar 4 Introducción 4 Algunas definiciones 4 Estrategias 4 Qué datos mejorar 4 Caso de una única BD n Caso del DW

48 48 UAS Carlos López Vázquez Muchas bases... A) Bases que no se solapan

49 49 UAS Carlos López Vázquez Muchas bases... B) Bases cliente-servidor

50 50 UAS Carlos López Vázquez Muchas bases... C) Bases solapadas pero independientes

51 51 UAS Carlos López Vázquez Más de una base...

52 52 UAS Carlos López Vázquez Vale la pena mencionar... n Problemas con datos, no con SGBD... n Duplicación por razones técnicas –Backup –Redundancia quizá requerida ==> ¡Usar Master-Slave! n DW explícitamente crea redundancia n DW recibe datos de varias fuentes

53 53 UAS Carlos López Vázquez El caso del DW n Identificar los datos requeridos n Identificar la(s) fuente(s) n Estimar niveles de error y caracterizar velocidad de cambios Tres pasos:

54 54 UAS Carlos López Vázquez Resumen n Plan operacional: –Detección+corrección –Manejo de procesos –Diseño de procesos n Pueden convivir n Datos críticos n Controlar redundancia

55 55 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López carlos.lopez@ieee.org Universitario Autónomo del Sur - 2005 Estrategias para Mejorar Viene de: Introducción Continúa con: Política de Calidad de Datos


Descargar ppt "1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López Universitario Autónomo del Sur - 2005 Estrategias para Mejorar."

Presentaciones similares


Anuncios Google