La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Calidad de datos: detección y corrección

Presentaciones similares


Presentación del tema: "Calidad de datos: detección y corrección"— Transcripción de la presentación:

1 Calidad de datos: detección y corrección
I Taller sobre calidad en bases de datos sobre biodiversidad 13-14 septiembre Madrid. Francisco Pando Unidad de Coordinación GBIF-España

2 Guión Conceptos Ciclo de vida de los datos y detección
Introducción de datos: interpretar, distorsionar, errar Captura de errores: validación y detección Diseño de base de datos y gestión de errores Virtualidad y realidad en las BBDD Casos La casa por los cimientos. Un ejemplo de Eslovenia

3 Información original y derivada
Many uses, what are those uses? management, knowledege

4 Ciclo de vida de los datos y detección
Chapman, A. D Principles of Data Quality, version 1.0. Report for GBIF

5 Introducción de datos: interpretar, distorsionar, errar
Una base de datos debe conciliar dos requisitos en extremo irreconciliables: Representar la realidad Que la información se encuentre, se pueda comparar y analizar ( estandarizar y normalizar  interpretar) Estándares (o referencias) explícitos usados con consistencia

6 Componentes de la validación
Validación = detectar y corregir: Inexactitudes Falta de datos Potenciales errores (datos no razonables) La validación trata de garantizar la veracidad del registro

7 Captura de errores: validación y detección
Validación: asegura que los datos se corresponden con el objeto. Incluye también el control de inexactitudes y pérdida de datos

8 Procedimiento Establecer procedimientos que no conlleven pérdida de datos Las reglas de normalización deben cubrir todos los casos Los procedimientos no deben bloquear el progreso del trabajo ante casos no contemplados o dudas

9 Procedimientos que permita que los errores detectados se corrijan en la base de datos

10 Por ejemplo: http://data.gbif.org/occurrences/76377384/
Proporcionar al usuario la posibilidad de reportar errores o comentarios

11 Diseño de base de datos y gestión de errores
Diseños normalizados de bases de datos

12 Diseño de base de datos y gestión de errores
Recomendación: distintos formatos de la misma información debe calcularse de un campo a otro para su uso específico y no duplicar la información en campos paralelos Campo UTM: 30TUF345871 Campo UTM: 30TUF345871 Campo UTM10: 30TUF38 … Y si.. Campo UTM: 30TUF345871 Campo UTM10: 30TUF31 Campo UTM: 30TUF38 temporal calculado

13 Virtualidad y realidad en las BBDD
Cuestión para debatir ¿Debe el objeto reflejar toda la información acumulada a partir del el? por ejemplo: ref. al Genbank, nombre de la camisa (Bot.) o de colección (Zool.)

14 Casos (1) “Misma especie, misma localidad, al mismo sobre”
¡no hacer en casa!

15 Casos (2) “Las malas identificaciones son errores que se han de corregir [i.e. eliminar]” ¡no hacer en casa!

16 Casos (3)

17 Casos (4)

18 Casos(3) Herbar 3.4 Herbar 3.5

19 Para terminar: La casa por los cimientos: Un ejemplo de Eslovenia


Descargar ppt "Calidad de datos: detección y corrección"

Presentaciones similares


Anuncios Google