.. | |||
01-query | 1 year ago | ||
02-download | 1 year ago | ||
03-create-fields | 1 year ago | ||
04-enrich | 1 year ago | ||
05-future-loader | 1 year ago | ||
.gitignore | 1 year ago | ||
02-download.ini | 1 year ago | ||
03-create-fields.ini | 1 year ago | ||
04-enrich.ini | 1 year ago | ||
05-future-loader.ini | 1 year ago | ||
Makefile | 1 year ago | ||
README.md | 1 year ago |
Collecte, restructuration et enrichissement de données Conditor.
Les fichiers fournis sont au format JSON Lines (.jsonl
), ce qui veut dire que le loader utilisé pour LODEX doit être adapté.
📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par
.crdownload
.
Dépôt d'un fichier NOM_DU_FICHIER.txt
(requête) dans le répertoire 01-query
.
Téléchargement de données via la requête sur l'api Corhal.
Création des champs suivants :
ApilPublicationDate
à partir de données existantes dans le json (publicationDate
et electronicPublicationDate
).ApilFinancement
à partir du champ funders
Appel de deux web services (informations RNSR et instituts CNRS) pour créer les champs suivants :
ApilWsIsCnrs
ApilWsLaboSigle
ApilWsLaboIntitule
ApilWsRnsr
ApilWsInstitutCnrs
ApilWsSigleLaboIntitule
Appel de plusieurs web services de mapping (documentType, source, publisher) et d'outils bibliographiques (crossref) pour créer les champs suivants :
ApilWsTypeDoc
homogénéisé à partir du champ originalGenre
. Si l'homogénéisation renvoie un "n/a" alors on récupère la valeur d'origine originalGenre
.ApilWsSource
Récupération du champ host/title
. Si vide, alors récupération du champ host/conference/name
. Homogénéisation des sources, si résultat "n/a", conservation de la valeur d'origine (host/title
ou host/conference/name
).ApilWsPublisher
champ d'origine host.publisher
et par défaut on récupère un éditeur à partir de la racine du champ doi
. Si le champ doi
renvoie un "n/a" alors on récupère le champ d'origine host.publisher
.Appel du web service (Libpostal) pour créer les champs suivants
ApilWSCodeISO
récupéré à partir du champ Authors.affiliation.address
.ApilWSCountry
récupéré à partir du champ Authors.affiliation.address
.Cette étape sert à préparer un loader spécifique à Conditor. À terme, son contenu sera intégré à ce loader.
Nouveaux champs créés:
ApilCollation
: concaténation de host.volume
, host.issue
, host.pages.range
,ApilProvenance
: récupération de la source dans sourceUids
, et dédoublonnage.⚠️ Attention: utilisez au moins la version 1.5 de
lodex-crontab
et la version 14 denode
.
S'assurer d'avoir les versions suivantes :
"packages": [ "@ezs/core@2.3.1", "@ezs/basics@1.23.1", "@ezs/conditor@2.10.3" ]
Reste de la configuration :
{ "environnement": { "CRON_VERBOSE": true, "EZS_VERBOSE": false }, "files" : { "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.11.0.zip" }, "tasks": [ { "Target": "watch", "RunOnStartup": true } ] }