web-dumps / wos-dumps /
..
01-query remove query from the repository 2 years ago
.gitignore for tests 3 years ago
02-download.ini functions added 10 months ago
03-enrich.ini functions added 10 months ago
03.1-enrich-ESI.ini Scripts d'extraction des champs de l'API WoS 10 months ago
03.2-enrich-JCR.ini Scripts d'extraction des champs de l'API WoS 10 months ago
03.3-enrich-Countries.ini functions added 10 months ago
Makefile more easier and compatible makefile 10 months ago
README.md functions added 10 months ago
README.md

WoS-dumps

Collecte, restructuration et enrichissement de données WebofScience.

Les fichiers fournis sont au format JSON Lines (.jsonl)

📗 Tant qu'une étape n'est pas terminée, le fichier résultant est suffixé par .crdownload.

Pour interroger l'API il convient de renseigner sa clé API. Celle-ci ne pouvant être divulguée ici, on la déclare en variable d'environnement dans la configuration de l'instance EZMaster. Voir plus bas.

Étapes

01-query

Dépôt d'un fichier NOM_DU_FICHIER.txt (requête) dans le répertoire 01-query.

02-download

Téléchargement de données via la requête sur l'API WoS.

Etant donné la structure des JSON récupérés, le code a été factorisé afin de réduire la redondance et surtout le nombre d'appels aux données. Les données extraites sont donc regroupées selon leur imbrication :

  • AccessionNumber => Les UTWOS
  • Identifiers => DOI, ISSN, eISSN, eISBN, ArticleNumber & PMID
  • DocumentType => Les types de document
  • Titles => DocumentTitle & Source
  • Publisher => RĂ©cupère le nom normalisĂ© (unified_name) s'il existe, sinon full_name
  • PubInfo => Volume, Issue, BeginningPage, EndingPage, YearPublished & EarlyAccessYear
  • Conference => ConferenceDate, ConferenceTitle, ConferenceCity & ConferenceState
  • Authors => Pour chaque auteur wos_standard, full_name_deburred & full_name
  • AuthorsWithAddress => Pour chaque auteur wos_standard, full_name, full_name_deburred & addresses. Cette clĂ© contient full_address, country, city & organizations.
  • ReprintAddresses => Pour chaque auteur wos_standard, full_name, full_name_deburred & addresses. Cette clĂ© contient full_address, country, city & organizations.
  • KeywordsPlus => Les mots-clĂ©s WoS
  • AuthorKeywords => Les mots-clĂ©s d'auteurs
  • CitationCountWOS => Le nombre de citations
  • CitationTopics => Macro, Meso & Micro
  • Categories => ResearchAreas & WebofScienceCategories
  • NormalizedLanguage => La/les langue(s) du document
  • Abstract => Le rĂ©sumĂ© du document
  • SDG => Les Sustainable Development Goals

    03-enrich

  • RevueVolume => Template string qui concatène, si les donnĂ©es existent, les Ă©lĂ©ments suivants dans une chaĂ®ne du type : Source Volume: Issue: Article Number: Pages:(BeginningPage EndingPage) Published:
  • DisciplinesESI => enrichissement par sous-flux. Le fichier 03.1-enrich-ESI.ini rĂ©cupère les disciplines ESI Ă  partir de WebofScienceCategories
  • JCRSubjectCategory => enrichissement par sous-flux. Le fichier 03.2-enrich-JCR.ini rĂ©cupère les donnĂ©es relatives Ă  la notoriĂ©tĂ© d'une revue Ă  partir de Source
  • OAInfo interroge le web-service Unpaywall uniquement si le document possède un DOI (Ă©vite les interrogations inutiles). RĂ©cupère is_oa, oa_status & host_types
  • AuthorsWithAddress & ReprintAddresses sont enrichis avec pays, iso2 & iso3. Dans un 1er temps country est soumis Ă  un dictionnaire afin de convertir les quelques pays pour lesquels le Wos donne une verbalisation "non standard". Les pays sont ensuite enrichis par sous-flux via le fichier 03.3-enrich-Countries.ini qui rĂ©cupère pays, iso2 & iso3. On utilise ensuite .find() qui cherche les objets oĂą pays correspond Ă  country et lorsque c'est le cas fusionne les donnĂ©es. Ce qui permet d'ajouter correctement iso2 et iso3 Ă  chaque auteur dansAuthorsWithAddress & ReprintAddresses.
  • OrganizationISO3Pairs => associe les organismes avec leur(s) pays.
  • AuthorsWithAddressesHtml & ReprintAddressesHtml => Pour un affichage clair dans Lodex en format liste Ă  puces on met chaque nom d'auteur entre balises b, puis on joute son adresse. S'il en a plusieurs, elles sont sĂ©parĂ©es par une balise br et un - pour crĂ©er un effet de sous-puce dans la liste.

04-report

Cette étape sert à générer un fichier par requête, contenant le nombre de lignes du fichier (et donc le nombre de notices) et le nom du fichier correspondant dans le répertoire 03-enrich.

Configuration

⚠️ Attention: utilisez au moins la version 1.0.4 de lodex-makefile et la version 14 de node.

S'assurer d'avoir les versions suivantes :

"packages": [
"@ezs/conditor@2.13.3",
"@ezs/analytics@2.3.5",
"@ezs/basics@2.9.1",
"@ezs/core@3.11.0"
]

Reste de la configuration :

{
    "environnement": {
        "EZS_VERBOSE": false,
        "EZS_PIPELINE_DELAY": 3600,
        "WOS_API_KEY": "********************************"
    },
    "files" : {
        "zip": "https://gitbucket.inist.fr/tdm/web-dumps/archive/wos-dumps/wos-dumps@4.0.0.zip"
    }
}