Newer
Older
web-dumps / conditor-dumps / README.md
# Conditor-dumps

Collecte, restructuration et enrichissement de données
[Conditor](https://corhal-api.inist.fr/api-docs/).

Les fichiers fournis sont au format JSON Lines (`.jsonl`), ce qui veut dire que
le *loader* utilisé pour LODEX doit être adapté.

## Étapes

### 01-query

Dépôt d'un fichier `inist.txt` (requête) dans le répertoire `01-query`.

### 02-download

Téléchargement de données via la requête sur l'api Corhal.

### 03-create-fields

Création d'un champ `ApilPublicationDate` à partir de données existantes dans le json (`publicationDate` et `electronicPublicationDate`).

### 04-enrich

Appel de deux web services ([informations RNSR](https://openapi.services.inist.fr/?urls.primaryName=affiliations-tools%20-%20Structuration%20%26%20enrichissements%20d%27affiliations#/affiliations/post-v1-rnsr-info) et [instituts CNRS](https://objectif-tdm.inist.fr/2022/03/29/attribution-de-noms-dinstituts-cnrs-a-partir-didentifiants-rnsr/)) pour créer les champs suivants :

- `ApilIsCnrs`
- `ApilLaboSigle`
- `ApilLaboIntitule`
- `ApilRnsr`
- `ApilInstitutCnrs`
- `ApilSigleLaboIntitule`

### 05-future-loader

Cette étape sert à préparer un *loader* spécifique à Conditor. À terme, son
contenu sera intégré à ce *loader*.

Nouveaux champs créés:

- `ApilCollation`: concaténation de `host.volume`, `host.issue`, `host.pages.range`,
- `ApilProvenance`: récupération de la source dans `sourceUids`, et dédoublonnage.

## Configuration

> ⚠️ **Attention**: utilisez au moins la version 1.5 de `lodex-crontab`.

S'assurer d'avoir les versions suivantes :

```json
"packages": [
    "@ezs/core@2.1.9",
    "@ezs/basics@1.22.6",
    "@ezs/conditor@2.10.1"
  ]
```

Reste de la [configuration](../conditor-dumps-config.json) :

```json
{
    "environnement": {
        "CRON_VERBOSE": true,
        "EZS_VERBOSE": false
    },
    "files" : {
        "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.5.0.zip"
    },
    "tasks": [
        {
            "CronRule": "1 0 * * *",
            "Target": "watch",
            "RunOnStartup": true
        }
    ]
}
```

Trello : <https://trello.com/b/wJoKuJXZ/conditor-m%C3%A9trie>