| .. | |||
| 01-query | 2 years ago | ||
| 02-download | 3 years ago | ||
| 03-create-fields | 2 years ago | ||
| 04-enrich | 2 years ago | ||
| 05-future-loader | 2 years ago | ||
| .gitignore | 2 years ago | ||
| 02-download.ini | 2 years ago | ||
| 03-create-fields.ini | 2 years ago | ||
| 04-enrich.ini | 2 years ago | ||
| 05-future-loader.ini | 2 years ago | ||
| Makefile | 2 years ago | ||
| README.md | 2 years ago | ||
Collecte, restructuration et enrichissement de données Conditor.
Les fichiers fournis sont au format JSON Lines (.jsonl), ce qui veut dire que le loader utilisé pour LODEX doit être adapté.
📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par
.crdownload.
Dépôt d'un fichier NOM_DU_FICHIER.txt (requête) dans le répertoire 01-query.
Téléchargement de données via la requête sur l'api Corhal.
Création des champs suivants :
ApilPublicationDate à partir de données existantes dans le json (publicationDate et electronicPublicationDate).ApilFinancement à partir du champ fundersApilRnsr au niveau authors/affiliations, à partir du champ authors/affiliations/rnsr et s'il n'est pas présent à partir du champ authors/affiliations/enrichments/rnsrAppel de deux web services (informations RNSR et instituts CNRS) pour créer les champs suivants :
ApilWsIsCnrsApilWsLaboSigle (indisponible dans la version 1.13.0)ApilWsLaboIntituleApilRnsr à partir des champs authors/affiliations/ApilRnsr dédoublonnés.ApilWsInstitutCnrsApilWsSigleLaboIntitule (indisponible dans la version 1.13.0)Appel de plusieurs web services de mapping (documentType, source, publisher) et d'outils bibliographiques (crossref) pour créer les champs suivants :
ApilWsTypeDoc homogénéisé à partir du champ originalGenre. Si l'homogénéisation renvoie un "n/a" alors on récupère la valeur d'origine originalGenre.ApilWsSource Récupération du champ host/title. Si vide, alors récupération du champ host/conference/name. Homogénéisation des sources, si résultat "n/a", conservation de la valeur d'origine (host/title ou host/conference/name).ApilWsPublisher champ d'origine host.publisher et par défaut on récupère un éditeur à partir de la racine du champ doi. Si le champ doi renvoie un "n/a" alors on récupère le champ d'origine host.publisher.Appel du web service (Libpostal) pour créer les champs suivants
ApilWSCodeISO récupéré à partir du champ Authors.affiliation.address.ApilWSCountry récupéré à partir du champ Authors.affiliation.address.Cette étape sert à préparer un loader spécifique à Conditor. À terme, son contenu sera intégré à ce loader.
Nouveaux champs créés:
ApilCollation: concaténation de host.volume, host.issue, host.pages.range,ApilProvenance: récupération de la source dans sourceUids, et dédoublonnage.⚠️ Attention: utilisez au moins la version 1.5 de
lodex-crontabet la version 14 denode.
S'assurer d'avoir les versions suivantes :
"packages": [
"@ezs/core@2.3.1",
"@ezs/basics@1.23.1",
"@ezs/conditor@2.10.3"
]
Reste de la configuration :
{
"environnement": {
"CRON_VERBOSE": true,
"EZS_VERBOSE": false
},
"files" : {
"zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.13.0.zip"
},
"tasks": [
{
"Target": "watch",
"RunOnStartup": true
}
]
}