Formats, attributs, conventions

Format des métadonnées [Obligatoire]

Le cahier des charges des CDS spécifie l'un des deux formats ci-dessous pour les données physico-chimiques. Les recommandations concernant les formats et les services pour les données à caractère biologique (espèce dépendante) ne sont, à ce jour, pas formellement établies.

  • ASCII TSV (ODV speadsheet normalisé SDN), avec à minima le format ASCII TSV (ODV speadsheet normalisé SDN). Les données in situ sont à minima à mettre dans un fichier ASCII ODV spreadsheet avec l’ensemble des attributs globaux en en-tête de fichier.
  • NetCDF convention Climate and Forecast (CF) (v1.6 ou supérieure). Le NetCDF version 4 (sans les groupes) est le format NetCDF à privilégier (Les anciens fichiers en NetCDF 3 sont à migrer en NetCDF 4 dès que cela est possible). Il est recommandé d’utiliser la version de convention CF 1.6 à minima ou une version supérieure.
     
  • Plusieurs ressources utiles aux producteurs et utilisateurs de données sur les formats de données:
    • plusieurs liens dans la marge droite de cette page,
    • un webinaire en juin 2024, de présentation et démontration d'une interface visant à faciliter le stockage des données d'observation au format NetCDF. L'enregistrement vidéo du webinaire figure en ligne; des liens vers le projet github pour installer et prendre en main l'interface sont détaillés sur cette page.
    • Une présentation du NetCDF, en mai 2024  présentant avec le modèle NetCDF classique, le modèle NetCDF4, les conventions, la convention CF, et quelques outils pratiques.

Attributs de paramètres [Fortement recommandée]

Afin d’avoir la liste des attributs globaux et des attributs de paramètres qui sont nécessaires a minima de mettre dans un fichier NetCDF, le lecteur peut se référer aux recommandations :

Quelle convention pour quelle discipline ? [Obligatoire]

La convention « Climate and Forecast » (CF) ainsi que la convention SeaDataNet (SDN) sont les deux conventions à utiliser pour les données océanographiques. Les attributs des deux conventions sont à insérer dans les fichiers NetCDF et ASCII TSV :

  • pour les paramètres physiques où la convention CF est largement répandue, l’utilisation de la convention SDN est facultative mais il est fortement recommandé de les insérer en attribut supplémentaire décrivant le paramètre, le « long name » correspondant au paramètre décrit en convention SDN (liste P01 de SDN).
  • pour les paramètres de biogéochimie, de chimie, de plastique et micro-plastique, etc. (tous les paramètres non physiques), il est obligatoire d’utiliser la convention SDN (liste P01 de SDN) et d’insérer en attribut supplémentaire le « long name » en convention CF correspondant au nom du paramètre en convention SDN (liste P07),
  • pour les paramètres de biologie, qui sont des cas particuliers, où actuellement deux voire trois standards coexistent (BioODV, Darwin Core, EML). Il est possible d’utiliser la convention:
    • BioODV : promu par SDN, format tabulaire avec fichier unique. Ce format ne permet pas actuellement de décrire avec une finesse identique tous les paramètres d’acquisition ou tous les traits de vie liés aux spécimens observés. De plus, il n’est pas utilisé dans les projets majeurs de publication de données de biodiversité (EMODNet Biology alimente OBIS et donc GBIF),
    • Darwin Core : promu par EMODNet Biology, format tabulaire comprenant 3 fichiers : un pour les caractéristiques de base des événements d'échantillonnage (lieu, date), un pour les caractéristiques de base des spécimens observés (identification du spécimen, nombre d'occurrences), un pour les descripteurs additionnels qu'ils soient liés à l'échantillonnage (caractéristiques des engins de prélèvement) ou aux occurrences (caractéristiques des spécimens mesurés : taille, poids, sexe, stade de développement etc...)
    • EML (Environmental Modeling Language) : promu par le PNDB.
    • A noter qu’à ce jour :
      • il n’existe pas de passerelle automatique permettant l’ingestion des données de biodiversité publiées dans SDN dans EMODNet Biology
      • il est plus facile de convertir le DarwinCore en SDN que l'inverse.

Convention paramètres et données de SeaDataNet (SDN) [Obligatoire]

Les unités des paramètres (physique ou autres) sont à prendre dans la liste P06 de SDN et la discipline dans la liste P08 de SDN.
Pour les fiches de métadonnées, les « Essential Variable » (EV) sont obligatoires. Il existe plusieurs types d’EV : EOV, EBV, ECV (liste A05 de SDN). Ces EV peuvent être complétées dans les fiches de métadonnées par un paramètre de découverte (Liste P02) si besoin.
Pour la nomenclature d’un paramètre il est fortement conseillé de mettre la nomenclature la plus précise possible (liste P01 de SDN) plutôt que la nomenclature générique de la liste de découverte de paramètre (liste P02 de SDN). Dans le cas d’un paramètre précis manquant dans la liste P01, il est conseillé de se rapprocher de SDN pour le faire insérer dans la liste.

Convention paramètres et données du NetCDF-CF [Fortement recommandée]

Bien que le NetCDF version 4 apporte 5 nouveaux types de donnée utilisateur (« UserDefinedType » : « Enum », « Opaque », « Compound », « VariableLength »), il est fortement déconseillé de les utiliser.
Le NetCDF-4 apporte un niveau de hiérarchisation supplémentaire avec la notion de groupe dans son modèle (afin être conforme avec le HDF-5), il est fortement déconseillé de l’utiliser. En effet, l’utilisation de plusieurs groupes dans un fichier NetCDF complexifie grandement l’utilisation de ce fichier.
En ce qui concerne les paramètres date et heure dans les fichiers NetCDF, il est fortement recommandé de les insérer sous forme d’entier (type « long ») avec un offset (optionnel) et un scale-factor (obligatoire). L’échelle de temps à adopter est obligatoirement l’UTC (Universel Temps Coordonné).
Lorsque des axes sont nécessaires dans un fichier NetCDF, il est fortement conseillé de bien définir les axes et l’orientation. La profondeur est souvent insérée en positif dans les fichiers NetCDF (ex : 2000m), ce qui pose des problèmes lorsque l’on va utiliser ces fichiers avec des fichiers ayant des paramètres atmosphériques qui eux vont être aussi en altitude positive (2000m).

Paramètres de positionnement [Obligatoire]

Il est nécessaire de préciser dans les attributs globaux, le système de coordonnées géodésique qui est utilisé comme référentiel pour les paramètres de positionnement. Le code EPSG (European Petroleum Survey Group) est à insérer dans les attributs globaux. A noter que ce standard est aussi utilisé par OGC (Open Geospatial Consortium).