La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Una introducción a la aptitud para el.

Presentaciones similares


Presentación del tema: "Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Una introducción a la aptitud para el."— Transcripción de la presentación:

1 Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Una introducción a la aptitud para el uso (fitness-for-use) de los datos de biodiversidad Manuel Vargas Del Valle (mvargas@inbio.ac.cr) Coordinador de la Unidad de Desarrollos Informáticos Instituto Nacional de Biodiversidad de Costa Rica (INBio) Buenos Aires (Argentina) 30 septiembre 2011

2 Resumen Esta charla presenta el concepto de aptitud para el uso (fitness-for-use) de los datos sobre biodiversidad: porqué es importante y cuáles son los distintos enfoques para definirlo y aplicarlo de manera eficiente. Los temas presentados aquí reflejan en gran parte las investigaciones realizadas por Arthur Chapman y John Wieczorek en los campos de aptitud para el uso, calidad de datos y curación de datos. Esta presentación es una traducción de la elaborada en inglés por Nicolas Noé y Meherzad Romer, y traducida también al francés por ellos mismos.

3 Contenidos El valor de los datos Definición de “aptitud para el uso” Aptitud para el uso en datos biológicos de ocurrencia Metadatos Datos taxonómicos Datos espaciales Datos del recolector y de las recolecciones Datos descriptivos Preguntas

4 Publicación de datos...pero, ¿para qué? ¿Vivimos en el "siglo de los datos"? La cantidad de datos disponibles está creciendo exponencialmente ¡La comunidad de GBIF es parte de este movimiento! Estos datos tienen el potencial de incrementar dramáticamente nuestro conocimiento y nuestras capacidades

5 Ejemplos de como los datos afectan nuestras vidas Política Mapas & geografía Publicidad... http://dirtyenergymoney.org

6 Respuesta de OpenStreetMap al terremoto de Haití Antes...

7 Respuesta de OpenStreetMap al terremoto de Haití y unos pocos días después...

8 Cambio climático y parientes silvestres de plantas cultivadas Parientes silvestres Datos de GBIF 343 especies Global Modelos de cambio climático Riqueza actual Riqueza futura Cambio predicho

9 Objetivo: convirtiendo los datos en conocimiento Océanos de datos...

10 ...ríos de información...

11 ...arroyos de conocimiento...

12 ... y gotas de entendimiento.

13

14 Usos de los datos de biodiversidad Investigación taxonómica, modelado/ predicción de distribución de especies, especies invasivas, pérdida de hábitat, relaciones interespecíficas,... Y también... Planificación de la conservación, administración del recurso hídrico, antiofídicos, ecotourismo, historia de la ciencia, caza y pesca, repatriación de datos, fotografía y cine naturalista,...

15 Aptitud para el uso Definición La calidad de los datos es un concepto relativo al uso que se les pretende dar... "La intención general de describir la calidad de un registro o de un conjunto de datos particular es describir la aptitud de ese conjunto de datos o de ese registro para un uso particular que uno tiene en mente para esos datos." Chrisman, 1991

16 Aptitud para el uso en acción - La especie 'A', ¿ocurre en Tasmania? - La especie 'A', ¿ocurre en el Parque Nacional 'X' ?

17 La pérdida de la calidad de los datos ocurre en todos los niveles Durante la recolección Durante la digitalización Durante la documentación Durante el almacenamiento Durante el análisis y la manipulación A la hora de la presentación Y a través del uso que les da

18 Cadena de información de la calidad de datos Debe asignarse responsabilidad por la calidad de los datos tan pronto como se pueda al momento de su creación.

19 Garantía de la calidad y control de la calidad Estimación de la calidad con base en estándares, procesos y herramientas internos o externos. ¡Ambos deben efectuarse si la calidad de los datos es una prioridad!

20 Es importante que las organizaciones cuenten con: Una visión acerca de tener datos de buena calidad o No reinventar la rueda y usar estándares o buscar ineficiencias (en la recolección de datos y en los procedimientos de control de calidad) y reducir la duplicación de esfuerzos o compartir (datos, información y herramientas) o ver más allá del uso inmediato o tomar en cuenta las necesidades de los usuarios o Invertir en buenos metadatos y documentación o... Una política para implementar esa visión Una estrategia de implementación

21 La responsabilidad con respecto a los datos es compartida entre: Recolectores: principal responsabilidad La información de la etiqueta es correcta, tan exacta como es posible y legible Las metodologías de recolección están completamente documentadas Las notas son claras y sin ambigüedades... Difícil (o imposible) de corregir después

22 La responsabilidad con respecto a los datos es compartida entre: Curador/custodio: responsabilidad en el largo plazo Calidad de la transcripción de los datos a la base de datos Los chequeos de validación son realizados y documentados (rutinariamente) Los datos son almacenados y respaldados Las versiones previas son almacenadas sistemáticamente Se garantiza el respeto (privacidad, PI, derechos de los proveedores indígenas,...) Se provee buena documentación (incluyendo los errores conocidos) La retroalimentación de los usuarios acerca de la calidad de los datos es tomada en cuenta... Responsabilidad de velar por el mantenimiento y por el potencial uso por parte de futuras generaciones..

23 La responsabilidad con respecto a los datos es compartida entre: Usuarios Proveer retroalimentación a los curadores/custodios: errores/omisiones en los datos y en la documentación establecer prioridades para el futuro.... Responsabilidad de los usuarios: determinar la aptitud de los datos para el uso que requieren y no utilizar los datos de manera inapropiada.

24 Exactitud y precisión Exactitud = “correctitud” Precisión: o Estadística = "repetición" o Numérica = "dígitos" Poca exactitud Mucha precisión Mucha exactitud Poca precisión Mucha exactitud Mucha precisión

25 Errores e incertidumbre Errores : tanto imprecisión como inexactitudes Aleatorios o sistemáticos No pretenda desaparecerlos (mídalos, calculelos, regístrelos, documentelos) Incertidumbre Siempre está presente (dificultad: entenderla, registrarla y describirla) ¡Habla más acerca del observador/recolector que de los datos mismos!

26 Aptitud para el uso y metadatos "Datos acerca de los datos (o conjuntos de datos)" contenido, accessibilidad, completitud,... en el nivel del conjunto de datos o en el nivel del registro documentan los errores documentan la validación de datos y la limpieza/corrección de errores Los datos deben estar documentados con el suficiente detalle como para que su uso sea posible por terceros sin tener que contactar a quién produjo el dato.

27 Datos taxonómicos Con frecuencia, los nombres son el punto de entrada a las bases de datos sobre biodiversidad. => Hay riesgo de propagación de errores Posibles errores: Identificación incorrecta (¡ouch!) Errores de deletreo Formato incorrecto

28 Datos taxonómicos ¿Qué son? Los datos taxonómicos consisten de: Nombres (científicos, comunes, jerarquías, rangos) Estado nomenclatural (sinónimo, aceptado,...) Referencia (autor, lugar y fecha de la publicación) Determinación (cuándo y por quién) Campos indicadores de calidad (exactitud de la identificación, calificadores)

29 Datos taxonómicos Problemas ortográficos - (parte 2) Chequeo de errores: Valores faltantes: i.e. subespecies sin especies Valores incorrectos: transposición de letras, valores en la columna incorrecta, valores como '??', valores fonéticos,... Valores “no atómicos”: por ejemplo, 'subsp. bicostasa' “Precaución excesiva”: especie: 'globulus?' => la incertidumbre se incluye en la columna de especies. Duplicación: varios nombres hacen referencia al mismo concepto (errores de ortografía, errores en los sinónimos, varios nombres válidos/aceptados,...) Datos inconsistentes: Ocurre cuando se fusionan bases de datos con listas diferentes.

30 Datos espaciales Introducción Es uno de los aspectos más cruciales para determinar la aptitud para los usos de los datos sobre biodiversidad: Modelado de distribución de especies Selección de áreas protegidas Planificación y administración ambiental...

31 Datos espaciales ¿Qué son? Registros de puntos (latitud/longitud) => Área representados como: Punto/radio Rectángulo limitante Polígono Línea de varios vertices Rejilla o cuadrícula (grid)

32 Ejemplo de datos basados en una rejilla (checklists)

33 Datos espaciales Definiciones Georreferencia: el código que representa una posición en la superficie de la Tierra, de acuerdo a un sistema de referencia espacial (SRS). Frecuentemente es un par ordenado de coordenadas del tipo latitud/longitud. Georreferenciar: es el proceso mediante el cual se le asignan coordenadas a un registro. Se conoce también como geocodificación.

34 Datum (geodésico)

35 Algunos hechos sobre el GPS La tecnología GPS usa triangulación y necesita un mínimo de 4 satélites. Dado que se conoce la posición en el tiempo y el espacio, la posición en la Tierra puede ser calculada. Históricamente, el número de satélites disponibles no siempre ha sido suficiente. Antes de mayo del 2000, la disponibilidad de satélites proporcionó una exactitud de 100 m o peor con la mayoría de los dispositivos. Ahora, la exactitud es generalmente de 10 m en áreas abiertas con 4 satélites. Al promediar los resultados se obtienen mejores resultados (algunos dispositivos hacen esto de forma automática). GPS Diferencial, WAAS, LAAS y GPS Diferencial en tiempo real son diferentes técnicas que usan estaciones base en posiciones bien conocidas para realizar correcciones. La precisión puede ser tan buena como de 1 cm. La altitud en el GPS se refiere al geoide en uso, no se refiere al nivel del mar.

36 Datos espaciales Errores comunes Inversión de los valores de latitud y longitud Valor cero (en uno o ambos valores) Datum no registrado SRS mal seleccionado Mal sentido de la precisión / problemas de conversión

37 Datos originales de EEUU en GBIF

38 Datos del recolector y de la recolección consiste de: recolector fecha de recolección información adicional: hábitat, suelo, condiciones climáticas... La importancia varía de acuerdo al tipo de datos recolectados: Colección estática de un museo: nombre y número del recolector, fecha, hábitat, método de recolección... Datos de observaciones: +duración de la observación, área de la observación, hora del día, actividad, sexo del animal observado... Datos de investigaciones localizadas: +método y tamaño de la investigación (cuadrícula), frecuencia, número de recolección (si se conserva el voucher)

39 Exactitud: de los nombres de los recolectores, fechas,... Consistencia: uso de una terminología estándar en campos como hábitat, suelos, especies asociadas... Completitud: raramente se logra en campos como hábitat, fenología... Esto hace que un estudio de hábitat sea difícil de realizar con solo datos de colecciones Datos del recolector y de la recolección

40 Datos descriptivos Morfológicos, fisiológicos, fenológicos,... Se usan cada vez más Variable de calidad y exactitud: datos que no pueden ser observados (históricos), imprácticos de observar (muy costosos), más percibidos que reales (abundancia, color,...) En muchos casos, almacenados en el nivel de taxonomía más que en el de espécimen. Completitud: generalmente no es posible en el nivel de especímenes (i.e. características de las flores VS características de los frutos) Consistencia: representación inconsistente del mismo atributo: o COLOR_FLOR = carmín o COLOR_FLOR = carmesí

41 Créditos Esta presentación está basada en documentos elaborados por Arthur Chapman, principalmente la presentación "Principios de Calidad de Datos" Parientes silvestres de especies cultivadas: Andy Jarvis(1), Samy Gaiji (2), Julian Ramirez (1) and Emmanuel Zapata (1) 1. The International Center for Tropical Agriculture (CIAT) 2. The Global Biodiversity Information Facility Secretariat (GBIF) Diapositiva de exactitud vs precisión: http://www.mathsisfun.com/accuracy- precision.html Imagen de playa de Lali Masrieta :www.visualpanic.netwww.visualpanic.net Río: Johan J.Ingles-Le Nobel Arroyo: bterrycompton Referencia: Chapman, A.D. and J. Wieczorek (eds). 2006. Guide to Best Practices for Georeferencing. Copenhagen: Global Biodiversity Information Facility. Available online from http://www2.gbif.org/BioGeomancerGuide.pdf or in French as Chapman, A.D. and J. Wieczorek (eds). 2006. Principes de la bonne pratique sur le géoréférencement, version 1.0. Trad. Chenin, C. Copenhague: Global Biodiversity Information Facility, 95 pp. Disponible en ligne sur http://links.gbif.org/gbif_georeferencement_manual_fr_v1.pdf

42 Preguntas ¡Gracias!

43 Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Una introducción a la aptitud para el uso (fitness-for-use) de los datos de biodiversidad Manuel Vargas Del Valle (mvargas@inbio.ac.cr) Coordinador de la Unidad de Desarrollos Informáticos Instituto Nacional de Biodiversidad de Costa Rica (INBio) Buenos Aires (Argentina) 30 septiembre 2011


Descargar ppt "Curso sobre la publicación de datos sobre biodiversidad en la red de GBIF y su aptitud para el uso, edición 2011 Una introducción a la aptitud para el."

Presentaciones similares


Anuncios Google