Scripts de chargement WoS / enrichissement pour l'étude GIEC du CNRS

data fix(enrich-pascal): Increase timeout to 1 minute 1 year ago
.gitignore chore: Ignore local documentation 1 year ago
Makefile feat(Makefile): Use only complete files 1 year ago
README.md docs(README): Add ezmaster's configuration 1 year ago
enrich-etab.ini feat: Take generic files as input and output 1 year ago
enrich-institutes.ini feat: Take generic files as input and output 1 year ago
enrich-pascal.ini feat: Take generic files as input and output 1 year ago
enrich-rnsr.ini feat: Take generic files as input and output 1 year ago
enrich-teeft-en.ini feat: Take generic files as input and output 1 year ago
extract-fields.ini feat: Take the current directory as location 1 year ago
package-lock.json fix(enrich-teeft.ini): Use patched ezs packages 1 year ago
package.json fix(enrich-teeft.ini): Use patched ezs packages 1 year ago
README.md

Étude GIEC

Étude pour l'INSU, à partir de ~14000 DOI présents dans le WOS. À rendre pour mi-octobre 2022.

Voir https://wos-dumps.conditor.inist.fr/ et les .ini qui y sont. Voir https://gitbucket.inist.fr/tdm/web-services/blob/master/biblio-tools/v1/wos/works/expand.ini.

Les DOI sont dans un .bib.

Décider sur quelle machine mettre ce dump.

WOS_API_KEY dans mon mail CNRS.

Workflow

graph TD
    A[(corpus_WoS_vol1-50.json)] --> B[[extract-fields.ini]]
    B --> C[(corpus-simple-50.json)]
    C --> D[[enrich-rnsr.ini]]
    D --> E[(corpus-simple-rnsr-50.json)]
    E --> F[[enrich-etab.ini]]
    F --> G[(corpus-simple-etab-50.json)]
    G --> H[[enrich-institutes.ini]]
    H --> I[(corpus-simple-instituts-50.json)]
    I --> J[[enrich-teeft.ini]]
    J --> K[(corpus-simple-teeft-en-50.json)]
    K --> L[[enrich-pascal.ini]]
    L --> M[(corpus-simple-pascal-50.json)]

Workflow

Potentiels

  • base du SAPPS (?): correspondance adresses WoS / unités du CNRS
  • alignement adresse / expression régulière pour le marquage labo
  • annotation de corpus avec un thésaurus (quel outil: XSLT ?)

DEBUG

Les items 25,26, 27, 29 ,30, 31, 32, 34, 35, 39, 41 ont un tableau dans le champ abstract, ce qui pose problème au web service. Il faut donc s'arranger pour n'envoyer qu'une chaîne.

Décisions

  • 26/09/2022: ne pas récupérer instituts, ni enrichissement Pascal. Priorité: récupérer les notices pour tous les DOI (DOI originaux + manquants du chapitre 11)

Configuration ezMaster

Utiliser lodex-crontab@1.4+, avec cette configuration:

{
  "environnement": {
    "CRON_VERBOSE": true,
    "EZS_VERBOSE": false
  },
  "files" : {
    "zip": "https://gitbucket.inist.fr/parmentf/giec-wos/archive/master.zip"
  },
  "tasks": [
    {
      "CronRule": "0 1 * * *",
      "Target": "data/corpus-simple-pascal-50.json",
      "RunOnStartup": true
    }
  ]
}