| .. | |||
| 01-query | 2 years ago | ||
| .gitignore | 3 years ago | ||
| 02-download.ini | 10 months ago | ||
| 03-enrich.ini | 10 months ago | ||
| 03.1-enrich-ESI.ini | 10 months ago | ||
| 03.2-enrich-JCR.ini | 10 months ago | ||
| 03.3-enrich-Countries.ini | 10 months ago | ||
| Makefile | 10 months ago | ||
| README.md | 10 months ago | ||
Collecte, restructuration et enrichissement de données WebofScience.
Les fichiers fournis sont au format JSON Lines (.jsonl)
📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par
.crdownload.
Pour interroger l'API il convient de renseigner sa clé API. Celle-ci ne pouvant être divulguée ici, on la déclare en variable d'environnement dans la configuration de l'instance EZMaster. Voir plus bas.
Dépôt d'un fichier NOM_DU_FICHIER.txt (requête) dans le répertoire 01-query.
Téléchargement de données via la requête sur l'API WoS.
Etant donné la structure des JSON récupérés, le code a été factorisé afin de réduire la redondance et surtout le nombre d'appels aux données. Les données extraites sont donc regroupées selon leur imbrication :
AccessionNumber => Les UTWOSIdentifiers => DOI, ISSN, eISSN, eISBN, ArticleNumber & PMIDDocumentType => Les types de documentTitles => DocumentTitle & SourcePublisher => Récupère le nom normalisé (unified_name) s'il existe, sinon full_namePubInfo => Volume, Issue, BeginningPage, EndingPage, YearPublished & EarlyAccessYearConference => ConferenceDate, ConferenceTitle, ConferenceCity & ConferenceStateAuthors => Pour chaque auteur wos_standard, full_name_deburred & full_nameAuthorsWithAddress => Pour chaque auteur wos_standard, full_name, full_name_deburred & addresses. Cette clé contient full_address, country, city & organizations.ReprintAddresses => Pour chaque auteur wos_standard, full_name, full_name_deburred & addresses. Cette clé contient full_address, country, city & organizations.KeywordsPlus => Les mots-clés WoSAuthorKeywords => Les mots-clés d'auteursCitationCountWOS => Le nombre de citationsCitationTopics => Macro, Meso & MicroCategories => ResearchAreas & WebofScienceCategoriesNormalizedLanguage => La/les langue(s) du documentAbstract => Le résumé du documentSDG => Les Sustainable Development GoalsRevueVolume => Template string qui concatène, si les données existent, les éléments suivants dans une chaîne du type : Source Volume: Issue: Article Number: Pages:(BeginningPage EndingPage) Published:DisciplinesESI => enrichissement par sous-flux. Le fichier 03.1-enrich-ESI.ini récupère les disciplines ESI à partir de WebofScienceCategoriesJCRSubjectCategory => enrichissement par sous-flux. Le fichier 03.2-enrich-JCR.ini récupère les données relatives à la notoriété d'une revue à partir de SourceOAInfo interroge le web-service Unpaywall uniquement si le document possède un DOI (évite les interrogations inutiles). Récupère is_oa, oa_status & host_typesAuthorsWithAddress & ReprintAddresses sont enrichis avec pays, iso2 & iso3. Dans un 1er temps country est soumis à un dictionnaire afin de convertir les quelques pays pour lesquels le Wos donne une verbalisation "non standard". Les pays sont ensuite enrichis par sous-flux via le fichier 03.3-enrich-Countries.ini qui récupère pays, iso2 & iso3. On utilise ensuite .find() qui cherche les objets où pays correspond à country et lorsque c'est le cas fusionne les données. Ce qui permet d'ajouter correctement iso2 et iso3 à chaque auteur dansAuthorsWithAddress & ReprintAddresses.OrganizationISO3Pairs => associe les organismes avec leur(s) pays.AuthorsWithAddressesHtml & ReprintAddressesHtml => Pour un affichage clair dans Lodex en format liste à puces on met chaque nom d'auteur entre balises b, puis on joute son adresse. S'il en a plusieurs, elles sont séparées par une balise br et un - pour créer un effet de sous-puce dans la liste.Cette étape sert à générer un fichier par requête, contenant le nombre de lignes du fichier (et donc le nombre de notices) et le nom du fichier correspondant dans le répertoire 03-enrich.
⚠️ Attention: utilisez au moins la version 1.0.4 de
lodex-makefileet la version 14 denode.
S'assurer d'avoir les versions suivantes :
"packages": [ "@ezs/conditor@2.13.3", "@ezs/analytics@2.3.5", "@ezs/basics@2.9.1", "@ezs/core@3.11.0" ]
Reste de la configuration :
{
"environnement": {
"EZS_VERBOSE": false,
"EZS_PIPELINE_DELAY": 3600,
"WOS_API_KEY": "********************************"
},
"files" : {
"zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/wos-dumps/wos-dumps@4.0.0.zip"
}
}