web-dumps / conditor-dumps /
..
01-query feat(conditor-dumps): create and first request 3 years ago
02-download feat(conditor-dumps): create and first request 3 years ago
03-create-fields feat(conditor-dumps): create-fields 3 years ago
04-enrich feat(conditor-dumps): add step 4 3 years ago
05-future-loader feat(conditor-dumps): Add 05 directory + make target 3 years ago
.gitignore feat(conditor-dumps): Switch to JSON Lines format 3 years ago
02-download.ini feat(conditor-dumps): Switch to JSON Lines format 3 years ago
03-create-fields.ini feat(conditor-dumps): Switch to JSON Lines format 3 years ago
04-enrich.ini feat(conditor-dumps): Switch to JSON Lines format 3 years ago
05-future-loader.ini feat(conditor-dumps): Switch to JSON Lines format 3 years ago
Makefile feat(conditor-dumps): Switch to JSON Lines format 3 years ago
README.md feat(conditor-dumps): Switch to JSON Lines format 3 years ago
README.md

Conditor-dumps

Collecte, restructuration et enrichissement de données Conditor.

Les fichiers fournis sont au format JSON Lines (.jsonl), ce qui veut dire que le loader utilisé pour LODEX doit être adapté.

Étapes

01-query

Dépôt d'un fichier inist.txt (requête) dans le répertoire 01-query.

02-download

Téléchargement de données via la requête sur l'api Corhal.

03-create-fields

Création d'un champ ApilPublicationDate à partir de données existantes dans le json (publicationDate et electronicPublicationDate).

04-enrich

Appel de deux web services (informations RNSR et instituts CNRS) pour créer les champs suivants :

  • ApilIsCnrs
  • ApilLaboSigle
  • ApilLaboIntitule
  • ApilRnsr
  • ApilInstitutCnrs
  • ApilSigleLaboIntitule

05-future-loader

Cette étape sert à préparer un loader spécifique à Conditor. À terme, son contenu sera intégré à ce loader.

Nouveaux champs créés:

  • ApilCollation: concaténation de host.volume, host.issue, host.pages.range,
  • ApilProvenance: récupération de la source dans sourceUids, et dédoublonnage.

Configuration

⚠️ Attention: utilisez au moins la version 1.5 de lodex-crontab.

S'assurer d'avoir les versions suivantes :

"packages": [
    "@ezs/core@2.1.9",
    "@ezs/basics@1.22.6",
    "@ezs/conditor@2.10.1"
  ]

Reste de la configuration :

{
    "environnement": {
        "CRON_VERBOSE": true,
        "EZS_VERBOSE": false
    },
    "files" : {
        "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.5.0.zip"
    },
    "tasks": [
        {
            "CronRule": "1 0 * * *",
            "Target": "watch",
            "RunOnStartup": true
        }
    ]
}

Trello : https://trello.com/b/wJoKuJXZ/conditor-m%C3%A9trie