diff --git a/conditor-dumps-config.json b/conditor-dumps-config.json index aa2d77b..5ca76b2 100644 --- a/conditor-dumps-config.json +++ b/conditor-dumps-config.json @@ -4,7 +4,7 @@ "EZS_VERBOSE": false }, "files": { - "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.10.0.zip" + "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.11.0.zip" }, "tasks": [ { diff --git a/conditor-dumps/README.md b/conditor-dumps/README.md index e9551ad..fe25cd7 100644 --- a/conditor-dumps/README.md +++ b/conditor-dumps/README.md @@ -6,8 +6,7 @@ Les fichiers fournis sont au format JSON Lines (`.jsonl`), ce qui veut dire que le *loader* utilisé pour LODEX doit être adapté. -> 📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par -> `.crdownload`. +> 📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par `.crdownload`. ## Étapes @@ -36,10 +35,18 @@ - `ApilWsRnsr` - `ApilWsInstitutCnrs` - `ApilWsSigleLaboIntitule` -- `ApilWsTypeDoc` homogénéisé à partir du champ `originalGenre` -- `ApilWsSource` homogénéisé à partir du champ `host.title` + +Appel de plusieurs web services de mapping ([documentType](https://mapping-tools.services.inist.fr/v1/homogenize/documentType/json), [source](https://mapping-tools.services.inist.fr/v1/homogenize/source/json), [publisher](https://mapping-tools.services.inist.fr/v1/homogenize/publisher/json)) et d'outils bibliographiques ([crossref](https://biblio-tools.services.inist.fr/v1/crossref/prefixes/expand)) pour créer les champs suivants : + +- `ApilWsTypeDoc` homogénéisé à partir du champ `originalGenre`. Si l'homogénéisation renvoie un "n/a" alors on récupère la valeur d'origine `originalGenre`. +- `ApilWsSource` Récupération du champ `host/title`. Si vide, alors récupération du champ `host/conference/name`. Homogénéisation des sources, si résultat "n/a", conservation de la valeur d'origine (`host/title` ou `host/conference/name`). - `ApilWsPublisher` champ d'origine `host.publisher` et par défaut on récupère - un éditeur à partir de la racine du champ `doi` + un éditeur à partir de la racine du champ `doi`. Si le champ `doi` renvoie un "n/a" alors on récupère le champ d'origine `host.publisher`. + +Appel du web service ([Libpostal](https://affiliations-tools.services.inist.fr/v1/expand)) pour créer les champs suivants + +- `ApilWSCodeISO` récupéré à partir du champ `Authors.affiliation.address`. +- `ApilWSCountry` récupéré à partir du champ `Authors.affiliation.address`. ### 05-future-loader @@ -54,6 +61,7 @@ ## Configuration > ⚠️ **Attention**: utilisez au moins la version 1.5 de `lodex-crontab`. +> ⚠️ **Attention**: utilisez au moins la version 14 de `node`. S'assurer d'avoir les versions suivantes : @@ -74,7 +82,7 @@ "EZS_VERBOSE": false }, "files" : { - "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.10.0.zip" + "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.11.0.zip" }, "tasks": [ {