.. | |||
01-query | 1 year ago | ||
02-download | 1 year ago | ||
03-create-fields | 1 year ago | ||
04-enrich | 1 year ago | ||
05-future-loader | 1 year ago | ||
.gitignore | 1 year ago | ||
02-download.ini | 1 year ago | ||
03-create-fields.ini | 1 year ago | ||
04-enrich.ini | 1 year ago | ||
05-future-loader.ini | 1 year ago | ||
Makefile | 1 year ago | ||
README.md | 1 year ago |
Collecte, restructuration et enrichissement de données Conditor.
Les fichiers fournis sont au format JSON Lines (.jsonl
), ce qui veut dire que le loader utilisé pour LODEX doit être adapté.
📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par
.crdownload
.
Dépôt d'un fichier inist.txt
(requête) dans le répertoire 01-query
.
Téléchargement de données via la requête sur l'api Corhal.
Création des champs suivants :
ApilPublicationDate
à partir de données existantes dans le json (publicationDate
et electronicPublicationDate
).ApilFinancement
à partir du champ funders
Appel de deux web services (informations RNSR et instituts CNRS) pour créer les champs suivants :
ApilWsIsCnrs
ApilWsLaboSigle
ApilWsLaboIntitule
ApilWsRnsr
ApilWsInstitutCnrs
ApilWsSigleLaboIntitule
ApilWsTypeDoc
homogénéisé à partir du champ originalGenre
ApilWsSource
homogénéisé à partir du champ host.title
ApilWsPublisher
champ d'origine host.publisher
et par défaut on récupère un éditeur à partir de la racine du champ doi
Cette étape sert à préparer un loader spécifique à Conditor. À terme, son contenu sera intégré à ce loader.
Nouveaux champs créés:
ApilCollation
: concaténation de host.volume
, host.issue
, host.pages.range
,ApilProvenance
: récupération de la source dans sourceUids
, et dédoublonnage.⚠️ Attention: utilisez au moins la version 1.5 de
lodex-crontab
.
S'assurer d'avoir les versions suivantes :
"packages": [ "@ezs/core@2.1.9", "@ezs/basics@1.22.6", "@ezs/conditor@2.10.1" ]
Reste de la configuration :
{ "environnement": { "CRON_VERBOSE": true, "EZS_VERBOSE": false }, "files" : { "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.10.0.zip" }, "tasks": [ { "Target": "watch", "RunOnStartup": true } ] }