| .. | |||
| 01-query | 2 years ago | ||
| 02-download | 3 years ago | ||
| 03-create-fields | 2 years ago | ||
| 04-enrich | 2 years ago | ||
| 05-future-loader | 2 years ago | ||
| .gitignore | 2 years ago | ||
| 02-download.ini | 2 years ago | ||
| 03-create-fields.ini | 2 years ago | ||
| 04-enrich.ini | 2 years ago | ||
| 05-future-loader.ini | 2 years ago | ||
| Makefile | 2 years ago | ||
| README.md | 2 years ago | ||
Collecte, restructuration et enrichissement de données Conditor.
Les fichiers fournis sont au format JSON Lines (.jsonl), ce qui veut dire que le loader utilisé pour LODEX doit être adapté.
📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par
.crdownload.
Dépôt d'un fichier inist.txt (requête) dans le répertoire 01-query.
Téléchargement de données via la requête sur l'api Corhal.
Création des champs suivants :
ApilPublicationDate à partir de données existantes dans le json (publicationDate et electronicPublicationDate).ApilFinancement à partir du champ fundersAppel de deux web services (informations RNSR et instituts CNRS) pour créer les champs suivants :
ApilWsIsCnrsApilWsLaboSigleApilWsLaboIntituleApilWsRnsrApilWsInstitutCnrsApilWsSigleLaboIntituleApilWsTypeDoc homogénéisé à partir du champ originalGenreApilWsSource homogénéisé à partir du champ host.titleApilWsPublisher champ d'origine host.publisher et par défaut on récupère un éditeur à partir de la racine du champ doiCette étape sert à préparer un loader spécifique à Conditor. À terme, son contenu sera intégré à ce loader.
Nouveaux champs créés:
ApilCollation: concaténation de host.volume, host.issue, host.pages.range,ApilProvenance: récupération de la source dans sourceUids, et dédoublonnage.⚠️ Attention: utilisez au moins la version 1.5 de
lodex-crontab.
S'assurer d'avoir les versions suivantes :
"packages": [
"@ezs/core@2.1.9",
"@ezs/basics@1.22.6",
"@ezs/conditor@2.10.1"
]
Reste de la configuration :
{
"environnement": {
"CRON_VERBOSE": true,
"EZS_VERBOSE": false
},
"files" : {
"zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.10.0.zip"
},
"tasks": [
{
"Target": "watch",
"RunOnStartup": true
}
]
}