diff --git a/conditor-dumps/04-enrich.ini b/conditor-dumps/04-enrich.ini index 9cba984..c1e44f2 100644 --- a/conditor-dumps/04-enrich.ini +++ b/conditor-dumps/04-enrich.ini @@ -157,7 +157,7 @@ [swing/assign] path = ApilWsSource -value = get("host.title",_.get(self,"host.conference.name")) +value = get("host.title",_.get(self,"host.conference.name")).trim() # Traitement des éditeurs # Si le champ host.publisher est vide @@ -220,6 +220,7 @@ id, \ value: address \ })) + [map] path = ws.libpostal diff --git a/conditor-dumps/README.md b/conditor-dumps/README.md index 45a3d23..dba72f4 100644 --- a/conditor-dumps/README.md +++ b/conditor-dumps/README.md @@ -25,40 +25,43 @@ - `ApilFinancement` à partir du champ `funders` - `ApilRnsr` au niveau `authors/affiliations`, à partir du champ `authors/affiliations/rnsr` et s'il n'est pas présent à partir du champ - `authors/affiliations/enrichments/rnsr` + `authors/affiliations/enrichments/rnsr`. + À noter: 4 RNSR sont systématiquement enlevés (200612821P, 200018571R, + 199812965F, 201523784S). ### 04-enrich -Appel de deux web services ([informations RNSR](https://openapi.services.inist.fr/?urls.primaryName=affiliations-tools%20-%20Structuration%20%26%20enrichissements%20d%27affiliations#/affiliations/post-v1-rnsr-info) et [instituts CNRS](https://objectif-tdm.inist.fr/2022/03/29/attribution-de-noms-dinstituts-cnrs-a-partir-didentifiants-rnsr/)) pour créer les champs suivants : +Appel de web services ([Loterre - Structures de recherche](https://openapi.services.inist.fr/?urls.primaryName=loterre-resolvers%20-%20R%C3%A9solveurs%20pour%20des%20terminologies%20Loterre#/loterre-resolvers/post-v1-2XK-identify), [instituts CNRS](https://openapi.services.inist.fr/?urls.primaryName=mapping-tools%20-%20Utilisation%20de%20tables%20de%20correspondance#/mapping/post-v1-rnsr-year-instituts-cnrs)) pour créer les champs suivants : - `ApilWsIsCnrs` -- `ApilWsLaboSigle` (indisponible dans la version 1.13.0) +- `ApilWsLaboSigle` (indisponible depuis la version 1.13.0) - `ApilWsLaboIntitule` -- `ApilRnsr` à partir des champs `authors/affiliations/ApilRnsr` dédoublonnés. +- `ApilRnsr` à la racine, à partir des champs `authors/affiliations/ApilRnsr` dédoublonnés. - `ApilWsInstitutCnrs` à partir du champ `ApilRnsr` -- `ApilWsSigleLaboIntitule` (indisponible dans la version 1.13.0) +- `ApilWsSigleLaboIntitule` (indisponible depuis la version 1.13.0) -Appel de plusieurs web services de mapping ([documentType](https://mapping-tools.services.inist.fr/v1/homogenize/documentType/json), [source](https://mapping-tools.services.inist.fr/v1/homogenize/source/json), [publisher](https://mapping-tools.services.inist.fr/v1/homogenize/publisher/json)) et d'outils bibliographiques ([crossref](https://biblio-tools.services.inist.fr/v1/crossref/prefixes/expand)) pour créer les champs suivants : +Appel de plusieurs web services de mapping ([documentType](https://openapi.services.inist.fr/?urls.primaryName=mapping-tools%20-%20Utilisation%20de%20tables%20de%20correspondance#/mapping/post-v1-homogenize-document-type-json), [source](https://openapi.services.inist.fr/?urls.primaryName=mapping-tools%20-%20Utilisation%20de%20tables%20de%20correspondance#/mapping/post-v1-homogenize-source-json), [publisher](https://openapi.services.inist.fr/?urls.primaryName=mapping-tools%20-%20Utilisation%20de%20tables%20de%20correspondance#/mapping/post-v1-homogenize-publisher-json)) et d'outils bibliographiques ([crossref](https://openapi.services.inist.fr/?urls.primaryName=biblio-tools%20-%20Outils%20pour%20r%C3%A9f%C3%A9rences%20bibliographiques#/biblio-tools/post-v1-crossref-prefixes-expand)) pour créer les champs suivants : -- `ApilWsTypeDoc` homogénéisé à partir du champ `originalGenre`. Si l'homogénéisation renvoie un "n/a" alors on récupère la valeur d'origine `originalGenre`. -- `ApilWsSource` Récupération du champ `host/title`. Si vide, alors récupération du champ `host/conference/name`. Homogénéisation des sources, si résultat "n/a", conservation de la valeur d'origine (`host/title` ou `host/conference/name`). +- `ApilWsTypeDoc` homogénéisé à partir du champ `originalGenre`. Si + l'homogénéisation renvoie un "n/a" alors on récupère la valeur d'origine + `originalGenre`. +- `ApilWsSource` Récupération du champ `host/title`. Si vide, alors récupération + du champ `host/conference/name`. Homogénéisation des sources, si résultat + "n/a", conservation de la valeur d'origine (`host/title` ou + `host/conference/name`). - `ApilWsPublisher` champ d'origine `host.publisher` et par défaut on récupère un éditeur à partir de la racine du champ `doi`. Si le champ `doi` renvoie un "n/a" alors on récupère le champ d'origine `host.publisher`. -Appel du web service ([Libpostal](https://affiliations-tools.services.inist.fr/v1/expand)) pour créer les champs suivants +Appel de web services ([adresses](https://openapi.services.inist.fr/?urls.primaryName=affiliations-tools%20-%20Structuration%20%26%20enrichissements%20d%27affiliations#/adresses/post-v1-addresses-parse), [Loterre - Pays](https://openapi.services.inist.fr/?urls.primaryName=loterre-resolvers%20-%20R%C3%A9solveurs%20pour%20des%20terminologies%20Loterre#/loterre-resolvers/post-v1-9SD-identify)) pour créer les champs suivants : - `ApilWSCodeISO` récupéré à partir du champ `Authors.affiliation.address`. - `ApilWSCountry` récupéré à partir du champ `Authors.affiliation.address`. -### 05-future-loader +### 05-report -Cette étape sert à préparer un *loader* spécifique à Conditor. À terme, son -contenu sera intégré à ce *loader*. - -Nouveaux champs créés: - -- `ApilCollation`: concaténation de `host.volume`, `host.issue`, `host.pages.range`, -- `ApilProvenance`: récupération de la source dans `sourceUids`, et dédoublonnage. +Cette étape sert à générer un fichier par requête, contenant le nombre de lignes +du fichier (et donc le nombre de notices) et le nom du fichier correspondant +dans le répertoire `04-enrich`. ## Configuration @@ -68,10 +71,10 @@ ```json "packages": [ - "@ezs/core@2.4.1", - "@ezs/basics@1.23.2", + "@ezs/core@2.4.2", + "@ezs/basics@1.23.3", "@ezs/conditor@2.10.3", - "@ezs/analytics@2.0.18" + "@ezs/analytics@2.0.19" ] ``` @@ -80,19 +83,12 @@ ```json { "environnement": { - "CRON_VERBOSE": true, "EZS_VERBOSE": false, - "EZS_PIPELINE_DELAY": 28800 + "EZS_PIPELINE_DELAY": 3600 }, "files" : { - "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.13.0.zip" - }, - "tasks": [ - { - "Target": "watch", - "RunOnStartup": true - } - ] + "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.15.3.zip" + } } ```