| .. | |||
| 01-query | 2 years ago | ||
| .gitignore | 3 years ago | ||
| 02-download.ini | 10 months ago | ||
| 03-enrich.ini | 10 months ago | ||
| 03.1-enrich-ESI.ini | 10 months ago | ||
| 03.2-enrich-JCR.ini | 10 months ago | ||
| Makefile | 10 months ago | ||
| README.md | 10 months ago | ||
Collecte, restructuration et enrichissement de données WebofScience.
Les fichiers fournis sont au format JSON Lines (.jsonl)
đ Tant qu'une Ă©tape n'est pas terminĂ©e, le fichier rĂ©sultant est suffixĂ© par
.crdownload.
Pour interroger l'API il convient de renseigner sa clĂ© API. Celle-ci ne pouvant ĂȘtre divulguĂ©e ici, on la dĂ©clare en variable d'environnement dans la configuration de l'instance EZMaster. Voir plus bas.
DĂ©pĂŽt d'un fichier NOM_DU_FICHIER.txt (requĂȘte) dans le rĂ©pertoire 01-query.
TĂ©lĂ©chargement de donnĂ©es via la requĂȘte sur l'API WoS.
Etant donné la structure des JSON récupérés, le code a été factorisé afin de réduire la redondance et surtout le nombre d'appels aux données. Les données extraites sont donc regroupées selon leur imbrication :
AccessionNumber => Les UTWOSIdentifiers => DOI, ISSN, eISSN, eISBN, ArticleNumber & PMIDDocumentType => Les types de documentTitles => DocumentTitle & SourcePubInfo => Volume, Issue, BeginningPage, EndingPage, YearPublished & EarlyAccessYearConference => ConferenceDate, ConferenceTitle, ConferenceCity & ConferenceStateAuthors => Pour chaque auteur wos_standard, full_name_deburred & full_nameAuthorsWithAddress => Pour chaque auteur wos_standard, full_name, country, city & full_addressReprintAddresses => Pour chaque auteur wos_standard, full_name, country, city & full_addressKeywordsPlus => Les mots-clĂ©s WoSAuthorKeywords => Les mots-clĂ©s d'auteursCitationCountWOS => Le nombre de citationsCitationTopics => Macro, Meso & MicroCategories => ResearchAreas & WebofScienceCategoriesNormalizedLanguage => La/les langue(s) du documentNormalizedDocumentType => Les types de document normalisĂ©sAbstract => Le rĂ©sumĂ© du documentSDG => Les Sustainable Development GoalsRevueVolume => Template string qui concatĂšne, si les donnĂ©es existent, les Ă©lĂ©ments suivants dans une chaĂźne du type : Source Volume: Issue: Article Number: Pages:(BeginningPage EndingPage) Published:DisciplinesESI => enrichissement par sous-flux. Le fichier 03.1-enrich-ESI.ini rĂ©cupĂšre les disciplines ESI Ă partir de WebofScienceCategoriesJCRSubjectCategory => enrichissement par sous-flux. Le fichier 03.2-enrich-JCR.ini rĂ©cupĂšre les donnĂ©es relatives Ă la notoriĂ©tĂ© d'une revue Ă partir de SourceUnpaywall interroge le web-service Unpaywall uniquement si le document possĂšde un DOI (Ă©vite les interrogations inutiles)Cette Ă©tape sert Ă gĂ©nĂ©rer un fichier par requĂȘte, contenant le nombre de lignes du fichier (et donc le nombre de notices) et le nom du fichier correspondant dans le rĂ©pertoire 03-enrich.
â ïž Attention: utilisez au moins la version 1.0.4 de
lodex-makefileet la version 14 denode.
S'assurer d'avoir les versions suivantes :
"packages": [ "@ezs/conditor@2.13.3", "@ezs/analytics@2.3.5", "@ezs/basics@2.9.1", "@ezs/core@3.11.0" ]
Reste de la configuration :
{
"environnement": {
"EZS_VERBOSE": false,
"EZS_PIPELINE_DELAY": 3600,
"WOS_API_KEY": "********************************"
},
"files" : {
"zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/wos-dumps/wos-dumps@4.0.0.zip"
}
}