# Conditor-dumps Collecte, restructuration et enrichissement de données [Conditor](https://corhal-api.inist.fr/api-docs/). Les fichiers fournis sont au format JSON Lines (`.jsonl`), ce qui veut dire que le *loader* utilisé pour LODEX doit être adapté. ## Étapes ### 01-query Dépôt d'un fichier `inist.txt` (requête) dans le répertoire `01-query`. ### 02-download Téléchargement de données via la requête sur l'api Corhal. ### 03-create-fields Création d'un champ `ApilPublicationDate` à partir de données existantes dans le json (`publicationDate` et `electronicPublicationDate`). ### 04-enrich Appel de deux web services ([informations RNSR](https://openapi.services.inist.fr/?urls.primaryName=affiliations-tools%20-%20Structuration%20%26%20enrichissements%20d%27affiliations#/affiliations/post-v1-rnsr-info) et [instituts CNRS](https://objectif-tdm.inist.fr/2022/03/29/attribution-de-noms-dinstituts-cnrs-a-partir-didentifiants-rnsr/)) pour créer les champs suivants : - `ApilIsCnrs` - `ApilLaboSigle` - `ApilLaboIntitule` - `ApilRnsr` - `ApilInstitutCnrs` - `ApilSigleLaboIntitule` ### 05-future-loader Cette étape sert à préparer un *loader* spécifique à Conditor. À terme, son contenu sera intégré à ce *loader*. Nouveaux champs créés: - `ApilCollation`: concaténation de `host.volume`, `host.issue`, `host.pages.range`, - `ApilProvenance`: récupération de la source dans `sourceUids`, et dédoublonnage. ## Configuration > ⚠️ **Attention**: utilisez au moins la version 1.5 de `lodex-crontab`. S'assurer d'avoir les versions suivantes : ```json "packages": [ "@ezs/core@2.1.9", "@ezs/basics@1.22.6", "@ezs/conditor@2.10.1" ] ``` Reste de la [configuration](../conditor-dumps-config.json) : ```json { "environnement": { "CRON_VERBOSE": true, "EZS_VERBOSE": false }, "files" : { "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.5.0.zip" }, "tasks": [ { "CronRule": "1 0 * * *", "Target": "watch", "RunOnStartup": true } ] } ``` Trello : <https://trello.com/b/wJoKuJXZ/conditor-m%C3%A9trie>