1 Organisation des données
Objectif et contenu
Présentation et logique d’organisation des données dans le SI SOERE-ACBB-PP
Les données collectées sur les sites du SOERE-ACBB-PP suivent une chaîne de traitement qui permet aux données collectées sur le terrain d’être accessibles et compréhensibles pour tous. Entre la collecte et la diffusion, une chaîne de traitement plus ou moins complexe en fonction du type de donnée est appliquée pour permettre un accès de qualité (contrôle des données, traçabilité…) aux données.
Dans ce cycle, les données sont stockées dans plusieurs espaces :
- NAS urep-stockage : stockage des différents fichiers générés durant le cycle de vie de la donnée durant l’année en cours.
- BDD SOERE-ACBB-PP : base de données relationnelle locale pour le stockage des données du SOERE-ACBB-PP. La base sera connectée à une application web pour visualiser/extraire les donnée sous différents formats.
- Bucket soereBrute : Espace de stockage pour un accès à l’ensemble des données.
1.1 Organisation générale des données du SOERE-ACBB-PP
Les données collectées sont organisées selon (1) le lieu de la collecte, et (2) le type de donnée. Cette logique de gestion est utilisée pour organiser les données dans le NAS urep-stockage
, en partie sur la BDD locale SOERE-ACBB-PP
et le bucket soereBrute
.
Ainsi, une donnée collectée est organisée au minimum selon ces trois critères :
Site > Station > Type de la donnée
avec :
- Site/Station : Combinaison du site et de la station (station eddycovariance, station météosol…) où a été réalisée la mesure. Le site correspond à l’un des 2 sites du SOERE-ACBB-PP : Theix ou Laqueuille.
- Type de donnée : Un type de donnée est un ensemble de valeurs mesurées, calculées et/ou observées pour des variables qui correspondent à un même objet d’étude.
1.1.1 Sites et stations
Le SOERE-ACBB-PP
comprend 2 sites dont le niveau d’instrumentation n’est pas homogène. À chaque site est associé des stations (par exemple une station eddy-covariance) de mesure regroupant un ou plusieurs instruments/capteurs/loggers qui sont également renseignés pour organiser les données. Dans une station, il peut y avoir plusieurs type de données différents.
type | code | nom | parent |
---|---|---|---|
code_site | lqu | Prairie permanente de Laqueuille | |
code_site | thx | Prairie permanente de Theix | |
code_station | bm-cent | Station météorologique centrale de Laqueuille | lqu |
code_station | ps-moine | Stations de physiques du sol de Theix dans le bloc Moine | thx |
code_station | ps-blatiere | Stations de physiques du sol de Theix dans le bloc Blatière | thx |
code_station | ec-int | Station eddycovariance de la parcelle intensive | lqu |
code_station | ec-ext | Station eddycovariance de la parcelle extensive | lqu |
code_station | st-cent | Station profil CO2 centrale de Laqueuille | lqu |
code_station | ch-n2O | Chambres statiques pour la mesure du N20 | lqu |
code_station | phe-buron | Camera sur le buron pour estimer la phénologie de la végétation | lqu |
1.1.2 Type de données (datatype)
Les types de données représentent un ensemble de valeurs mesurées, calculées et/ou observées pour des variables qui correspondent à un même objet d’étude. Ces valeurs suivent un cycle de vie commun (échange avec d’autres SI notamment).
code_typedonnees | description |
---|---|
chambre_ch4 | Type de données issues des chambres d’accumulation pour la mesure de flux de CH4 |
chambre_co2 | Type de données issues des chambres d’accumulation pour la mesure de flux de CO2 |
chambre_n2o | Type de données issues des chambres d’accumulation pour la mesure de flux de N2O |
eddycovariance | Flux de gaz à effet de serre calculés à partir des données collectées dans les stations eddycovariance. Les flux sont calculés à partir d’une fréquence d’acquisition de 20hz. |
meteosol | Type de données météorologiques et de physiques du sol |
sol_analyse | |
sol_densite | |
sol_elements_grossiers | |
sol_stock_calcule | |
sol_texture | |
essai_flore | |
biomasse_production_teneur | |
hauteur_vegetal | |
indice_de_surface_foliaire |
1.1.3 Site, stations et loggers
Définir les données provenant des loggers
code_site | datatype | code_station | code_logger | nom_logger | description_logger |
---|---|---|---|---|---|
lqu | meteosol | bm-cent | L03 | atm | Datalogger des données atmosphériques de bm-cent |
lqu | meteosol | bm-cent | L05 | sol | Datalogger des données de physiques du sol de bm-cent |
lqu | meteosol | bm-cent | L04 | lum | Datalogger des données luminosité de bm-cent |
lqu | eddycovariance | ec-int | L01 | Li7200 | |
lqu | eddycovariance | ec-int | L06 | Li7500 | |
lqu | meteosol | ec-int | L11 | sol | Datalogger des données de physiques du sol de ec-int |
lqu | eddycovariance | ec-profilco2 | L02 | CR1000 | |
lqu | eddycovariance | ec-ext | ? | Li7500 | |
lqu | chambre_n2o | ch-n2O | L07 | ||
lqu | storage | st-cent | L02 | profilCO2 | Datalogger des données du profil CO2 de la station st-cent |
thx | meteosol | ps-blatiere | L04 | 2-6-8-9-11-12-13-14 | nom_logger correspond aux codes parcelles |
thx | meteosol | ps-blatiere | L05 | 1-3-4-5-7-10 | nom_logger correspond aux codes parcelles |
thx | meteosol | ps-moine | L01 | 17-24 | nom_logger correspond aux codes parcelles |
thx | meteosol | ps-moine | L02 | 15-16 | nom_logger correspond aux codes parcelles |
thx | meteosol | ps-moine | L03 | 18-19-20-21 | nom_logger correspond aux codes parcelles |
thx | meteosol | ps-moine | L06 | 25-26-27-28 | nom_logger correspond aux codes parcelles |
thx | meteosol | ps-moine | L07 | 22-23 | nom_logger correspond aux codes parcelles |
1.2 Organisation de l’arborescence
Le NAS urep-stockage
est utilisé pour stocker l’ensemble des données “chaudes” collectés sur les sites du SOERE-ACBB-PP. Son organisation a pour objectif d’assurer la traçabilité des traitements effectués pendant tout le cycle de vie des données.
1.2.1 Règles
- Ne jamais modifier les fichiers bruts,
- Les fichiers et les répertoires doivent être nommés sans espace, ni accents et caractères spéciaux,
- Créer des fichiers “aLire” pour décrire le contenu de l’arborescence et les nouveaux répertoires/fichiers créés.
- Tout ce qui est présent dans le répertoire
tmp
peut être supprimé à n’importe quel moment.
Important
La création de fichier “aLire” permet de faciliter la navigation et de comprendre le lien entre les fichiers. Merci de les mettre à jour dès que vous créez de nouveaux répertoires ou de nouveaux fichiers.
1.2.2 Logique d’organisation
L’arborescence du stockage des fichiers sur le NAS urep-stockage
code du site >> code de la station >> code du type de données >> nomLogger
Ensuite, pour chaque type de données, l’organisation s’appuie sur le cycle de vie de la donnée avec un ensemble de répertoires types. Chacun de ces répertoires est construit selon le numéro du cycle de vie de la donnée et du type de fichier :
.
├── codeStation_codeLogger-NomLogger
│ ├── 0_rawdata
│ ├── 1_code
│ │ ├── 0_loadData.Rmd
│ │ └── 1_controlData.Rmd
│ ├── 2_pipeline
│ │ ├── 0_loadData
│ │ │ ├── out
│ │ │ ├── store
│ │ │ └── tmp
│ │ └── 1_controlData
│ │ ├── out
│ │ ├── store
│ │ └── tmp
│ ├── 3_output
│ │ ├── acbb-pp
│ │ ├── fluxNet
│ │ └── ICOS
│ └── tmp
Avec :
- [codeStation] : Code de la station,
- [codeLogger] : Code ICOS du data logger
- [nomLogger] : Nom usuel du data logger
- [0_rawdata] : Répertoire de stockage des fichiers bruts du type de données de la station. NE JAMAIS MODIFIER CES FICHIERS.
- [1_code] : Contient le code Stockage des traitements associés aux fichiers bruts. Ce répertoire peut contenir différents sous-répertoires pour le stockage des scripts de traitements ou des tableurs ainsi que les stockages des fichiers pré-traités,
- [2_pipeline] : Contient les sorties des fichiers executés dans
1_code
.- out : sortie de l’execution du code du répertoire
1_code
- store : fichier enregistré nécessaire au lancement du code dans
1_code
- out : sortie de l’execution du code du répertoire
- [3_output] : Contient toutes les sorties de fichiers finaux à destination de différentes structures, SI…
- tmp : les répertoire
tmp
contiennent des fichiers temporaires. Le principe de base de ce type de répertoire et que vous n’avez pas à vous soucier de la suppression de ces fichiers car ils sont temporaires : il peuvent donc être supprimer à tout moment
Exemple
Ci-dessous, l’arborescence complète pour le type de données meteosol
de la station bm1 de La Guette. Dans cet exemple, le répertoire 2_TRAITEMENT_meteosol contient deux sous-répertoires pour stocker les scripts R et leurs sorties.
Ici, le répertoire 3_ICOS_meteosol contiendra les fichiers au format ICOS provenant de traitements réalisés dans 2_TRAITEMENT_meteosol.
1.3 Description des critères de construction de l’arborescence
1.3.1 Codes des sites et stations
Code des sites et stations en production :
codeStation | description |
---|---|
bm-[nomVernaculaire] | Bio Meteorological station : station météo et/ou de physiques du sol |
ec-[nomVernaculaire] | Station eddycovariance, tour à flux |
ch-[nomVernaculaire] | Chambre d’accumulation de mesure de gaz |
phe-[nomVernaculaire] | Phenocamera pour automated phenology monitoring |
st-[nomVernaculaire] | Station pour le storage (profilCO2) |
1.3.2 Règle de nommage des stations
1.3.2.1 Stations météosol et eddycovariance
Les stations eddycovariance et météosol du SOERE-PP sont codées selon les codes suivants :
codeStation | description |
---|---|
bm-[nomVernaculaire] | Bio Meteorological station : station météo et/ou de physiques du sol |
ec-[nomVernaculaire] | Station eddycovariance, tour à flux |
ch-[nomVernaculaire] | Chambre d’accumulation de mesure de gaz |
phe-[nomVernaculaire] | Phenocamera pour automated phenology monitoring |
st-[nomVernaculaire] | Station pour le storage (profilCO2) |
Exemple
La station eddy-covariance de la parcelle intensive de Laqueuille est codée ec_int
. La station meteosol se situant au milieu des parcelles intensive et extensive de Laqueuille est codé bm_cent
pour station centrale.