Collecte, restructuration et enrichissement de données Conditor.
Les fichiers fournis sont au format JSON Lines (.jsonl
), ce qui veut dire que le loader utilisé pour LODEX doit être adapté.
📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par
.crdownload
.
Dépôt d'un fichier NOM_DU_FICHIER.txt
(requête) dans le répertoire 01-query
.
Téléchargement de données via la requête sur l'api Corhal.
Création des champs suivants :
ApilPublicationDate
à partir de données existantes dans le json (publicationDate
et electronicPublicationDate
).ApilFinancement
à partir du champ funders
ApilRnsr
au niveau authors/affiliations
, à partir du champ authors/affiliations/rnsr
et s'il n'est pas présent à partir du champ authors/affiliations/enrichments/rnsr
Appel de deux web services (informations RNSR et instituts CNRS) pour créer les champs suivants :
ApilWsIsCnrs
ApilWsLaboSigle
(indisponible dans la version 1.13.0)ApilWsLaboIntitule
ApilRnsr
à partir des champs authors/affiliations/ApilRnsr
dédoublonnés.ApilWsInstitutCnrs
à partir du champ ApilRnsr
ApilWsSigleLaboIntitule
(indisponible dans la version 1.13.0)Appel de plusieurs web services de mapping (documentType, source, publisher) et d'outils bibliographiques (crossref) pour créer les champs suivants :
ApilWsTypeDoc
homogénéisé à partir du champ originalGenre
. Si l'homogénéisation renvoie un "n/a" alors on récupère la valeur d'origine originalGenre
.ApilWsSource
Récupération du champ host/title
. Si vide, alors récupération du champ host/conference/name
. Homogénéisation des sources, si résultat "n/a", conservation de la valeur d'origine (host/title
ou host/conference/name
).ApilWsPublisher
champ d'origine host.publisher
et par défaut on récupère un éditeur à partir de la racine du champ doi
. Si le champ doi
renvoie un "n/a" alors on récupère le champ d'origine host.publisher
.Appel du web service (Libpostal) pour créer les champs suivants
ApilWSCodeISO
récupéré à partir du champ Authors.affiliation.address
.ApilWSCountry
récupéré à partir du champ Authors.affiliation.address
.Cette étape sert à préparer un loader spécifique à Conditor. À terme, son contenu sera intégré à ce loader.
Nouveaux champs créés:
ApilCollation
: concaténation de host.volume
, host.issue
, host.pages.range
,ApilProvenance
: récupération de la source dans sourceUids
, et dédoublonnage.⚠️ Attention: utilisez au moins la version 1.0.4 de
lodex-makefile
et la version 14 denode
.
S'assurer d'avoir les versions suivantes :
"packages": [ "@ezs/core@2.4.1", "@ezs/basics@1.23.2", "@ezs/conditor@2.10.3", "@ezs/analytics@2.0.18" ]
Reste de la configuration :
{ "environnement": { "CRON_VERBOSE": true, "EZS_VERBOSE": false, "EZS_PIPELINE_DELAY": 28800 }, "files" : { "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.13.0.zip" }, "tasks": [ { "Target": "watch", "RunOnStartup": true } ] }