Conditor-dumps

Collecte, restructuration et enrichissement de données Conditor.

Les fichiers fournis sont au format JSON Lines (.jsonl), ce qui veut dire que le loader utilisé pour LODEX doit être adapté.

Étapes

01-query

Dépôt d'un fichier inist.txt (requête) dans le répertoire 01-query.

02-download

Téléchargement de données via la requête sur l'api Corhal.

03-create-fields

Création d'un champ ApilPublicationDate à partir de données existantes dans le json (publicationDate et electronicPublicationDate).

04-enrich

Appel de deux web services (informations RNSR et instituts CNRS) pour créer les champs suivants :

ApilIsCnrs
ApilLaboSigle
ApilLaboIntitule
ApilRnsr
ApilInstitutCnrs
ApilSigleLaboIntitule

05-future-loader

Cette étape sert à préparer un loader spécifique à Conditor. À terme, son contenu sera intégré à ce loader.

Nouveaux champs créés:

ApilCollation: concaténation de host.volume, host.issue, host.pages.range,
ApilProvenance: récupération de la source dans sourceUids, et dédoublonnage.

Configuration

⚠️ Attention: utilisez au moins la version 1.5 de lodex-crontab.

S'assurer d'avoir les versions suivantes :

"packages": [
    "@ezs/core@2.1.9",
    "@ezs/basics@1.22.6",
    "@ezs/conditor@2.10.1"
  ]

Reste de la configuration :

{
    "environnement": {
        "CRON_VERBOSE": true,
        "EZS_VERBOSE": false
    },
    "files" : {
        "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.5.0.zip"
    },
    "tasks": [
        {
            "CronRule": "1 0 * * *",
            "Target": "watch",
            "RunOnStartup": true
        }
    ]
}

Trello : https://trello.com/b/wJoKuJXZ/conditor-m%C3%A9trie