Collecte, restructuration et enrichissement de données Conditor.
Les fichiers fournis sont au format JSON Lines (.jsonl
), ce qui veut dire que le loader utilisé pour LODEX doit être adapté.
Dépôt d'un fichier inist.txt
(requête) dans le répertoire 01-query
.
Téléchargement de données via la requête sur l'api Corhal.
Création d'un champ ApilPublicationDate
à partir de données existantes dans le json (publicationDate
et electronicPublicationDate
).
Appel de deux web services (informations RNSR et instituts CNRS) pour créer les champs suivants :
ApilIsCnrs
ApilLaboSigle
ApilLaboIntitule
ApilRnsr
ApilInstitutCnrs
ApilSigleLaboIntitule
Cette étape sert à préparer un loader spécifique à Conditor. À terme, son contenu sera intégré à ce loader.
Nouveaux champs créés:
ApilCollation
: concaténation de host.volume
, host.issue
, host.pages.range
,ApilProvenance
: récupération de la source dans sourceUids
, et dédoublonnage.⚠️ Attention: utilisez au moins la version 1.5 de
lodex-crontab
.
S'assurer d'avoir les versions suivantes :
"packages": [ "@ezs/core@2.1.9", "@ezs/basics@1.22.6", "@ezs/conditor@2.10.1" ]
Reste de la configuration :
{ "environnement": { "CRON_VERBOSE": true, "EZS_VERBOSE": false }, "files" : { "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.5.0.zip" }, "tasks": [ { "CronRule": "1 0 * * *", "Target": "watch", "RunOnStartup": true } ] }