1 Organisation des données

Les données collectées sur les sites du SOERE-ACBB-PP suivent une chaîne de traitement qui permet aux données collectées sur le terrain d’être accessibles et compréhensibles pour tous. Entre la collecte et la diffusion, une chaîne de traitement plus ou moins complexe en fonction du type de donnée est appliquée pour permettre un accès de qualité (contrôle des données, traçabilité…) aux données.

Dans ce cycle, les données sont stockées dans plusieurs espaces :

  1. NAS urep-stockage : stockage des différents fichiers générés durant le cycle de vie de la donnée durant l’année en cours.
  2. BDD SOERE-ACBB-PP : base de données relationnelle locale pour le stockage des données du SOERE-ACBB-PP. La base sera connectée à une application web pour visualiser/extraire les donnée sous différents formats.
  3. Bucket soereBrute : Espace de stockage pour un accès à l’ensemble des données.
Cycle de vie générale des données du SOERE-ACBB-PP

Figure 1.1: Cycle de vie générale des données du SOERE-ACBB-PP

1.1 Organisation générale des données du SOERE-ACBB-PP

Les données collectées sont organisées selon (1) le lieu de la collecte, et (2) le type de donnée. Cette logique de gestion est utilisée pour organiser les données dans le NAS urep-stockage, en partie sur la BDD locale SOERE-ACBB-PP et le bucket soereBrute.

Ainsi, une donnée collectée est organisée au minimum selon ces trois critères :

Site > Station > Type de la donnée

avec :

  • Site/Station : Combinaison du site et de la station (station eddycovariance, station météosol…) où a été réalisée la mesure. Le site correspond à l’un des 2 sites du SOERE-ACBB-PP : Theix ou Laqueuille.
  • Type de donnée : Un type de donnée est un ensemble de valeurs mesurées, calculées et/ou observées pour des variables qui correspondent à un même objet d’étude.

1.1.1 Sites et stations

Le SOERE-ACBB-PP comprend 2 sites dont le niveau d’instrumentation n’est pas homogène. À chaque site est associé des stations (par exemple une station eddy-covariance) de mesure regroupant un ou plusieurs instruments/capteurs/loggers qui sont également renseignés pour organiser les données. Dans une station, il peut y avoir plusieurs type de données différents.

Table 1.1: Sites et stations du SOERE-ACBB-PP
type code nom parent
code_site lqu Prairie permanente de Laqueuille
code_site thx Prairie permanente de Theix
code_station bm-cent Station météorologique centrale de Laqueuille lqu
code_station ps-moine Stations de physiques du sol de Theix dans le bloc Moine thx
code_station ps-blatiere Stations de physiques du sol de Theix dans le bloc Blatière thx
code_station ec-int Station eddycovariance de la parcelle intensive lqu
code_station ec-ext Station eddycovariance de la parcelle extensive lqu
code_station st-cent Station profil CO2 centrale de Laqueuille lqu
code_station ch-n2O Chambres statiques pour la mesure du N20 lqu
code_station phe-buron Camera sur le buron pour estimer la phénologie de la végétation lqu

1.1.2 Type de données (datatype)

Les types de données représentent un ensemble de valeurs mesurées, calculées et/ou observées pour des variables qui correspondent à un même objet d’étude. Ces valeurs suivent un cycle de vie commun (échange avec d’autres SI notamment).

Table 1.2: Types de données du SOERE-ACBB-PP
code_typedonnees description
chambre_ch4 Type de données issues des chambres d’accumulation pour la mesure de flux de CH4
chambre_co2 Type de données issues des chambres d’accumulation pour la mesure de flux de CO2
chambre_n2o Type de données issues des chambres d’accumulation pour la mesure de flux de N2O
eddycovariance Flux de gaz à effet de serre calculés à partir des données collectées dans les stations eddycovariance. Les flux sont calculés à partir d’une fréquence d’acquisition de 20hz.
meteosol Type de données météorologiques et de physiques du sol
sol_analyse
sol_densite
sol_elements_grossiers
sol_stock_calcule
sol_texture
essai_flore
biomasse_production_teneur
hauteur_vegetal
indice_de_surface_foliaire

1.1.3 Site, stations et loggers

Définir les données provenant des loggers

Table 1.3: Sites, stations et loggers du SOERE-ACBB-PP
code_site datatype code_station code_logger nom_logger description_logger
lqu meteosol bm-cent L03 atm Datalogger des données atmosphériques de bm-cent
lqu meteosol bm-cent L05 sol Datalogger des données de physiques du sol de bm-cent
lqu meteosol bm-cent L04 lum Datalogger des données luminosité de bm-cent
lqu eddycovariance ec-int L01 Li7200
lqu eddycovariance ec-int L06 Li7500
lqu meteosol ec-int L11 sol Datalogger des données de physiques du sol de ec-int
lqu eddycovariance ec-profilco2 L02 CR1000
lqu eddycovariance ec-ext ? Li7500
lqu chambre_n2o ch-n2O L07
lqu storage st-cent L02 profilCO2 Datalogger des données du profil CO2 de la station st-cent
thx meteosol ps-blatiere L04 2-6-8-9-11-12-13-14 nom_logger correspond aux codes parcelles
thx meteosol ps-blatiere L05 1-3-4-5-7-10 nom_logger correspond aux codes parcelles
thx meteosol ps-moine L01 17-24 nom_logger correspond aux codes parcelles
thx meteosol ps-moine L02 15-16 nom_logger correspond aux codes parcelles
thx meteosol ps-moine L03 18-19-20-21 nom_logger correspond aux codes parcelles
thx meteosol ps-moine L06 25-26-27-28 nom_logger correspond aux codes parcelles
thx meteosol ps-moine L07 22-23 nom_logger correspond aux codes parcelles

1.2 Organisation de l’arborescence

Le NAS urep-stockage est utilisé pour stocker l’ensemble des données “chaudes” collectés sur les sites du SOERE-ACBB-PP. Son organisation a pour objectif d’assurer la traçabilité des traitements effectués pendant tout le cycle de vie des données.

1.2.1 Règles

  1. Ne jamais modifier les fichiers bruts,
  2. Les fichiers et les répertoires doivent être nommés sans espace, ni accents et caractères spéciaux,
  3. Créer des fichiers “aLire” pour décrire le contenu de l’arborescence et les nouveaux répertoires/fichiers créés.
  4. Tout ce qui est présent dans le répertoire tmp peut être supprimé à n’importe quel moment.

 

1.2.2 Logique d’organisation

L’arborescence du stockage des fichiers sur le NAS urep-stockage

code du site >> code de la station >> code du type de données >> nomLogger

Ensuite, pour chaque type de données, l’organisation s’appuie sur le cycle de vie de la donnée avec un ensemble de répertoires types. Chacun de ces répertoires est construit selon le numéro du cycle de vie de la donnée et du type de fichier :

.
├── codeStation_codeLogger-NomLogger
│   ├── 0_rawdata
│   ├── 1_code
│   │   ├── 0_loadData.Rmd
│   │   └── 1_controlData.Rmd
│   ├── 2_pipeline
│   │   ├── 0_loadData
│   │   │   ├── out
│   │   │   ├── store
│   │   │   └── tmp
│   │   └── 1_controlData
│   │       ├── out
│   │       ├── store
│   │       └── tmp
│   ├── 3_output
│   │   ├── acbb-pp
│   │   ├── fluxNet
│   │   └── ICOS
│   └── tmp

Avec :

  • [codeStation] : Code de la station,
  • [codeLogger] : Code ICOS du data logger
  • [nomLogger] : Nom usuel du data logger
  • [0_rawdata] : Répertoire de stockage des fichiers bruts du type de données de la station. NE JAMAIS MODIFIER CES FICHIERS.
  • [1_code] : Contient le code Stockage des traitements associés aux fichiers bruts. Ce répertoire peut contenir différents sous-répertoires pour le stockage des scripts de traitements ou des tableurs ainsi que les stockages des fichiers pré-traités,
  • [2_pipeline] : Contient les sorties des fichiers executés dans 1_code.
    • out : sortie de l’execution du code du répertoire 1_code
    • store : fichier enregistré nécessaire au lancement du code dans 1_code
  • [3_output] : Contient toutes les sorties de fichiers finaux à destination de différentes structures, SI…
  • tmp : les répertoire tmp contiennent des fichiers temporaires. Le principe de base de ce type de répertoire et que vous n’avez pas à vous soucier de la suppression de ces fichiers car ils sont temporaires : il peuvent donc être supprimer à tout moment

 

1.3 Description des critères de construction de l’arborescence

1.3.1 Codes des sites et stations

Code des sites et stations en production :

Table 1.4: Logique pour le nommage des stations
codeStation description
bm-[nomVernaculaire] Bio Meteorological station : station météo et/ou de physiques du sol
ec-[nomVernaculaire] Station eddycovariance, tour à flux
ch-[nomVernaculaire] Chambre d’accumulation de mesure de gaz
phe-[nomVernaculaire] Phenocamera pour automated phenology monitoring
st-[nomVernaculaire] Station pour le storage (profilCO2)

1.3.2 Règle de nommage des stations

1.3.2.1 Stations météosol et eddycovariance

Les stations eddycovariance et météosol du SOERE-PP sont codées selon les codes suivants :

Table 1.5: Logique pour le nommage des stations
codeStation description
bm-[nomVernaculaire] Bio Meteorological station : station météo et/ou de physiques du sol
ec-[nomVernaculaire] Station eddycovariance, tour à flux
ch-[nomVernaculaire] Chambre d’accumulation de mesure de gaz
phe-[nomVernaculaire] Phenocamera pour automated phenology monitoring
st-[nomVernaculaire] Station pour le storage (profilCO2)