Collecte, restructuration et enrichissement de données Conditor.
Les fichiers fournis sont au format JSON Lines (.jsonl), ce qui veut dire que le loader utilisé pour LODEX doit être adapté.
📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par
.crdownload.
Dépôt d'un fichier NOM_DU_FICHIER.txt (requête) dans le répertoire 01-query.
Téléchargement de données via la requête sur l'api Corhal.
Création des champs suivants :
ApilPublicationDate à partir de données existantes dans le json (publicationDate et electronicPublicationDate).ApilFinancement à partir du champ fundersApilRnsr au niveau authors/affiliations, à partir du champ authors/affiliations/rnsr et s'il n'est pas présent à partir du champ authors/affiliations/enrichments/rnsr.Note: l'étape 03 a été intégrée à l'étape 2.
Note 2: on préserve le champ
sourceUidChainà la racine de la notice.
Appel de web services (Loterre - Structures de recherche, instituts CNRS) pour créer les champs suivants :
ApilWsIsCnrsApilWsLaboSigle (indisponible depuis la version 1.13.0)ApilWsLaboIntituleApilRnsr à la racine, à partir des champs authors/affiliations/ApilRnsr dédoublonnés.ApilWsInstitutCnrs à partir du champ ApilRnsrApilWsSigleLaboIntitule (indisponible depuis la version 1.13.0)Appel de plusieurs web services de mapping (documentType, source, publisher) et d'outils bibliographiques (crossref) pour créer les champs suivants :
ApilWsTypeDoc homogénéisé à partir du champ originalGenre. Si l'homogénéisation renvoie un "n/a" alors on récupère la valeur d'origine originalGenre.ApilWsSource Récupération du champ host/title. Si vide, alors récupération du champ host/conference/name. Homogénéisation des sources, si résultat "n/a", conservation de la valeur d'origine (host/title ou host/conference/name).ApilWsPublisher champ d'origine host.publisher et par défaut on récupère un éditeur à partir de la racine du champ doi. Si le champ doi renvoie un "n/a" alors on récupère le champ d'origine host.publisher.Appel de web services (adresses, Loterre - Pays) pour créer les champs suivants :
ApilWSCodeISO récupéré à partir du champ Authors.affiliation.address.ApilWSCountry récupéré à partir du champ Authors.affiliation.address.Cette étape sert à générer un fichier par requête, contenant le nombre de lignes du fichier (et donc le nombre de notices) et le nom du fichier correspondant dans le répertoire 04-enrich.
⚠️ Attention: utilisez au moins la version 1.0.4 de
lodex-makefileet la version 14 denode.
S'assurer d'avoir les versions suivantes :
"packages": [
"@ezs/core@2.4.3",
"@ezs/basics@1.23.3",
"@ezs/conditor@2.10.3",
"@ezs/analytics@2.0.21"
]
Reste de la configuration :
{
"environnement": {
"EZS_VERBOSE": false,
"EZS_PIPELINE_DELAY": 3600
},
"files" : {
"zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/conditor-dumps/conditor-dumps@1.15.4.zip"
}
}