netCDF
¿Qué es netCDF? NetCDF es un conjunto de librerías y un formato de datos autodescriptivo, e independiente de la arquitectura de la computadora que perite crear, acceder y compartir datos científicos en forma de matrices. http://www.unidata.ucar.edu/
Autodescriptivo= Toda la información necesaria se encuentra contenida en el mismo fichero Variable Temperatura + Marcador de Calidad del perfil en formato ASCII WOD 10 Es necesario acudir a la documentación para averiguar que el código ‘1’=Temperatura en grados Celsius. Necesitamos la documentación para comprender que el marcador ‘0’ significa bueno
Autodescriptivo= Toda la información necesaria se encuentra contenida en el mismo fichero Variable Temperatura + Marcador de Calidad del perfil en formato netCDF WOD float Temperature(z) ; Temperature:long_name = "Temperature" ; Temperature:standard_name = "sea_water_temperature" ; Temperature:units = "degree_C" ; Temperature:coordinates = "time lat lon z" ; Temperature:grid_mapping = "crs" ; Temperature:WODprofile_flag = 0 ; Temperature:flag_definitions = "WODfp" ;
Independiente de la arquitectura de la computadora– Puede ser leído por cualquier sistema Es importante dado que netCDF es un formato binario. Cualquier computadora puede leer ASCII, pero no interpretarlo El principal obstáculo de netCDF es que no podemos mirar simplemente al fichero, debemos usar software específico
Independiente de la arquitectura de la computadora– Puede ser leído por cualquier sistema Facilita el intercambio de datos entre computadoras Página THREDDS de WOD para datos XBT desde 2010
El concepto autodescriptivo solo es significante para la comunicación entre computadoras cuando todas ellas “comprenden” la descripción. Convenciones Climate-Forecast (CF) : Esfuerzo coordinado por parte de las comunidades científica y de tratamiento de datos para crear un estándar para todas las descripciones (ej. nombre, unidades)
Creado para datos científicos en forma de matrices CTD – T, S, [O2,Chl] cada 0.25 metros hasta 3000 m de profundidad MBT –T cada 5 metros hasta 125 m de profundidad Usado inicialmente con datos atmosféricos – más regulares en tiempo y espacio. No se adapta de forma óptima a una amplia variedad de datos oceanográficos in-situ.
Plantillas netCDF de NCEI para varios tipos de datos oceanográficos https://www.nodc.noaa.gov/data/formats/netcdf/v2.0/ Todo lo que necesitamos saber para crear un fichero de datos acorde al estándar CF para datos oceanográficos Explicación de todos los nombres estándar de los atributos que son necesarios para comprender los datos.
¿Por qué es tan complicado? No solo las diferentes arquitecturas necesitan comprender los datos, además diversos programas necesitan visualizarlos y manipularlos. Múltiples programas, múltiple propósitos, cada parte del fichero netCDF debe ser interpretado de forma correcta por todos ellos. https://www.nodc.noaa.gov/data/formats/netcdf/v2.0/decision_tree_high_res.pdf
netCDF4 Disponible desde 2008 Almacena los datos en formato compatible con HDF5 Permite compresión* Grupos, estructuras definidas por el usuario Puede leer ficheros netCDF3, netCDF3 no permite leer ficheros netCDF4
Formato netCDF de WOD Formato netCDF de orden desigual (‘ragged array’) según norma de metadatos CF Sin plantilla NCEI template todavía (trabajando en ello) WOD en formato convencional 276G, en ragged array 44G Ficheros por tipo de sensor/año. Todos los ficheros < 2G Parámetros biológicos en estructuras definida por el usuario (netCDF4)
COMPRESIÓN FORMATO ASCII ICOADS IMMA : Fichero de datos para Enero 2011: 249MB ICOADS netCDF comprimido : Fichero de datos para Enero 2011: 54MB ICOADS – International Comprehensive Ocean-Atmosphere Data set (Meteorología marina y océano superficial) IMMA – International Marine Meteorological Archive. El formato netCDF de ICOADS se está definiendo en NCEI Nivel de compresión 4 de netCDF4 (hay 9 posibles). Más compresión = más tiempo para descomprimir
Matrices de cabecera secundarias Matrices de cabecera= Información vital para definir un muestreo MATRICES DE CABECERA VAR_tamaño_fila País Latitud, Longitud Año, mes, día Hora GMT Identificador de crucero Número de niveles observados Número de niveles estándar 22025 Matrices de cabecera secundarias 1011187 País=GB (Gran Bretaña), Lat/Lon=44.01/-12.73, Año/Mes/Día=1974/04/16 Hora GMT =21.33. Identificador de crucero=11960, Niveles observados=90, Niveles estándar=5 Tamaño_fila: número de niveles para cada variable en un muestreo Niveles observados Niveles estándar Prof. 302 Temp Sal O2 Chl Fichero separado El software debe sumar todas los tamaños de fila previos para alcanzar la posición correcta de la matriz de datos.
WOD: Datos de Plancton as una Estructura Definida por el Usuario netcdf osd_1908 { types: compound biodata { char taxa_name_bio(100) ; float upper_z_bio ; float lower_z_bio ; int measure_abund_bio ; char measure_type_bio(15) ; float measure_val_bio ; char measure_units_bio(10) ; int measure_flag_bio ; float cbv_value_bio ; int cbv_flag_bio ; char cbv_units_bio(6) ; float cbv_method_bio ; int pgc_code_bio ; int taxa_modifier_bio ; int taxa_sex_bio ; int taxa_stage_bio ; int taxa_troph_bio ; int taxa_realm_bio ; int taxa_feature_bio ; int taxa_method_bio ; int taxa_minsize_desc_bio ; float taxa_minsize_val_bio ; int taxa_maxsize_desc_bio ; float taxa_maxsize_val_bio ; float taxa_length_bio ; float taxa_width_bio ; float taxa_radius_bio ; float sample_volume_bio ; }; // biodata dimensions: casts = 520 ; z_obs = UNLIMITED ; // (0 currently) strnlen = 170 ; strnlensmall = 35 ; biosets = 9144 ; Incluye 27 variables descriptivas para definir una medida. Es mejor mantenerlas juntas. UN PROGRAMA GENÉRICO NUNCA PODRÁ LEER ESTO