web-dumps / wos-dumps /
..
01-query remove query from the repository 2 years ago
.gitignore for tests 3 years ago
02-download.ini Use reduce instead of find for identifiers and updated README with new EZS packages 10 months ago
03-enrich.ini Scripts d'extraction des champs de l'API WoS 10 months ago
03.1-enrich-ESI.ini Scripts d'extraction des champs de l'API WoS 10 months ago
03.2-enrich-JCR.ini Scripts d'extraction des champs de l'API WoS 10 months ago
Makefile more easier and compatible makefile 10 months ago
README.md Use reduce instead of find for identifiers and updated README with new EZS packages 10 months ago
README.md

WoS-dumps

Collecte, restructuration et enrichissement de données WebofScience.

Les fichiers fournis sont au format JSON Lines (.jsonl)

📗 Tant qu'une Ă©tape n'est pas terminĂ©e, le fichier rĂ©sultant est suffixĂ© par .crdownload.

Pour interroger l'API il convient de renseigner sa clĂ© API. Celle-ci ne pouvant ĂȘtre divulguĂ©e ici, on la dĂ©clare en variable d'environnement dans la configuration de l'instance EZMaster. Voir plus bas.

Étapes

01-query

DĂ©pĂŽt d'un fichier NOM_DU_FICHIER.txt (requĂȘte) dans le rĂ©pertoire 01-query.

02-download

TĂ©lĂ©chargement de donnĂ©es via la requĂȘte sur l'API WoS.

Etant donné la structure des JSON récupérés, le code a été factorisé afin de réduire la redondance et surtout le nombre d'appels aux données. Les données extraites sont donc regroupées selon leur imbrication :

  • AccessionNumber => Les UTWOS
  • Identifiers => DOI, ISSN, eISSN, eISBN, ArticleNumber & PMID
  • DocumentType => Les types de document
  • Titles => DocumentTitle & Source
  • PubInfo => Volume, Issue, BeginningPage, EndingPage, YearPublished & EarlyAccessYear
  • Conference => ConferenceDate, ConferenceTitle, ConferenceCity & ConferenceState
  • Authors => Pour chaque auteur wos_standard, full_name_deburred & full_name
  • AuthorsWithAddress => Pour chaque auteur wos_standard, full_name, country, city & full_address
  • ReprintAddresses => Pour chaque auteur wos_standard, full_name, country, city & full_address
  • KeywordsPlus => Les mots-clĂ©s WoS
  • AuthorKeywords => Les mots-clĂ©s d'auteurs
  • CitationCountWOS => Le nombre de citations
  • CitationTopics => Macro, Meso & Micro
  • Categories => ResearchAreas & WebofScienceCategories
  • NormalizedLanguage => La/les langue(s) du document
  • NormalizedDocumentType => Les types de document normalisĂ©s
  • Abstract => Le rĂ©sumĂ© du document
  • SDG => Les Sustainable Development Goals

    03-enrich

  • RevueVolume => Template string qui concatĂšne, si les donnĂ©es existent, les Ă©lĂ©ments suivants dans une chaĂźne du type : Source Volume: Issue: Article Number: Pages:(BeginningPage EndingPage) Published:
  • DisciplinesESI => enrichissement par sous-flux. Le fichier 03.1-enrich-ESI.ini rĂ©cupĂšre les disciplines ESI Ă  partir de WebofScienceCategories
  • JCRSubjectCategory => enrichissement par sous-flux. Le fichier 03.2-enrich-JCR.ini rĂ©cupĂšre les donnĂ©es relatives Ă  la notoriĂ©tĂ© d'une revue Ă  partir de Source
  • Unpaywall interroge le web-service Unpaywall uniquement si le document possĂšde un DOI (Ă©vite les interrogations inutiles)

04-report

Cette Ă©tape sert Ă  gĂ©nĂ©rer un fichier par requĂȘte, contenant le nombre de lignes du fichier (et donc le nombre de notices) et le nom du fichier correspondant dans le rĂ©pertoire 03-enrich.

Configuration

⚠ Attention: utilisez au moins la version 1.0.4 de lodex-makefile et la version 14 de node.

S'assurer d'avoir les versions suivantes :

"packages": [
"@ezs/conditor@2.13.3",
"@ezs/analytics@2.3.5",
"@ezs/basics@2.9.1",
"@ezs/core@3.11.0"
]

Reste de la configuration :

{
    "environnement": {
        "EZS_VERBOSE": false,
        "EZS_PIPELINE_DELAY": 3600,
        "WOS_API_KEY": "********************************"
    },
    "files" : {
        "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/wos-dumps/wos-dumps@4.0.0.zip"
    }
}