Elaboración de protocolos de calidad de datos Harry Lizama Departamento de Estadísticas e Información Ambiental
Introducción : Motivación Conceptos de calidad de datos Relevancia Precisión Puntualidad Comparabilidad Coherencia Accesibilidad Motivación Conceptos de calidad de datos Estándares Internacionales Definición de protocolo de calidad de datos
Los datos ambientales : dificultades para realizar protocolos de calidad de datos El origen de los datos es muy variado: Censos Encuestas Estaciones de monitoreo Simulaciones de datos Registros administrativos Otros Esto complica la realización de protocolos de calidad de datos debido a que existen distintas metodologías de generación de datos. Esto implica que el análisis para evaluar la calidad del dato sea distinto. En algunos casos no hay una metodología clara y documentada de cómo se generan los datos.
Ejemplos de problemas recurrentes
División política administrativa Existen datos no tienen asignado la división política administrativa de la SUBDERE. Ejemplo: Región V2 Región Metropolitana 0,05 Región V1 RM 0,01 Forma Incorrecta Reg_cod Región V1 13 Región Metropolitana 0,01 Reg_cod Región V2 13 Región Metropolitana 0,05 Forma Correcta
Ejemplo: Vacíos de Información
Ejemplo : Outliers (datos extraños) Pueden ser datos erróneos o no Es importante definir criterios para reemplazar outliers en caso de que sean datos erróneos.
Propuestas para mejorar la calidad de los datos
Propuestas para mejorar la calidad de los datos ambientales Elaborar un manual de estructura de bases de datos, que contenga los requisitos mínimos. El DEIA será contraparte en el desarrollo de sistemas de información con el fin de dar las directrices de calidad de datos Elaborar un flujo de datos con las contrapartes Elaborar un marco para asegurar la calidad de los datos
Estructura de los datos Base de datos organizadas en tablas que se comunican entre si por medio de una variable denominada llave (id) Lenguaje: Structured Query Language (SQL) Software: Microsoft Sql Server, PostgreSql, MySql , etc. Ventajas: Administración de un mayor volumen de datos Mayor seguridad de la información Evita la duplicidad de registros
Flujo de datos: Propuesta Carga de datos Validación de datos Análisis estadístico de datos Construcción de Indicadores Publicación
Marco para la calidad de los datos N° Tema Subtema 1 Prerrequisitos de calidad Consideraciones institucionales y legales para el desarrollo de indicadores ambientales. Compromisos internacionales: OCDE Recursos necesarios Estructura de los datos Clasificación sectorial 2 Aseguramiento de la integridad de la información Código de buenas prácticas 3 Aspectos metodológicos Fuente de los datos Conceptos y definiciones Metodología de levantamientos de datos 4 Relevancia Importancia de los datos 5 Presición Técnicas estadísticas 6 Puntualidad Fechas importantes, entrega y publicación 7 Accesibilidad Metadatos: Fichas técnicas y hojas metodológicas