web-dumps / conditor-dumps /
..
01-query feat(conditor-dumps): create and first request 1 year ago
02-download feat(conditor-dumps): create and first request 1 year ago
03-create-fields feat(conditor-dumps): create-fields 1 year ago
04-enrich feat(conditor-dumps): add step 4 1 year ago
05-future-loader feat(conditor-dumps): Add 05 directory + make target 1 year ago
.gitignore feat(conditor-dumps): Switch to JSON Lines format 1 year ago
02-download.ini feat(conditor-dumps): Switch to JSON Lines format 1 year ago
03-create-fields.ini feat(conditor-dumps): Switch to JSON Lines format 1 year ago
04-enrich.ini feat(conditor-dumps): Uppercase ApilSigleLaboIntitule 1 year ago
05-future-loader.ini feat(conditor-dumps): Add OBJFlatten to future-loader 1 year ago
Makefile feat(conditor-dumps): Use temporary file 1 year ago
README.md docs(conditor-dumps): Remove CronRule 1 year ago
README.md

Conditor-dumps

Collecte, restructuration et enrichissement de données Conditor.

Les fichiers fournis sont au format JSON Lines (.jsonl), ce qui veut dire que le loader utilisé pour LODEX doit être adapté.

📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par .crdownload.

Étapes

01-query

Dépôt d'un fichier inist.txt (requête) dans le répertoire 01-query.

02-download

Téléchargement de données via la requête sur l'api Corhal.

03-create-fields

Création d'un champ ApilPublicationDate à partir de données existantes dans le json (publicationDate et electronicPublicationDate).

04-enrich

Appel de deux web services (informations RNSR et instituts CNRS) pour créer les champs suivants :

  • ApilIsCnrs
  • ApilLaboSigle
  • ApilLaboIntitule
  • ApilRnsr
  • ApilInstitutCnrs
  • ApilSigleLaboIntitule

05-future-loader

Cette étape sert à préparer un loader spécifique à Conditor. À terme, son contenu sera intégré à ce loader.

Nouveaux champs créés:

  • ApilCollation: concaténation de host.volume, host.issue, host.pages.range,
  • ApilProvenance: récupération de la source dans sourceUids, et dédoublonnage.

Configuration

⚠️ Attention: utilisez au moins la version 1.5 de lodex-crontab.

S'assurer d'avoir les versions suivantes :

"packages": [
    "@ezs/core@2.1.9",
    "@ezs/basics@1.22.6",
    "@ezs/conditor@2.10.1"
  ]

Reste de la configuration :

{
    "environnement": {
        "CRON_VERBOSE": true,
        "EZS_VERBOSE": false
    },
    "files" : {
        "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.6.0.zip"
    },
    "tasks": [
        {
            "Target": "watch",
            "RunOnStartup": true
        }
    ]
}

Trello : https://trello.com/b/wJoKuJXZ/conditor-m%C3%A9trie