Scripts de chargement WoS / enrichissement pour l'étude GIEC du CNRS
data | 2 years ago | ||
.gitignore | 2 years ago | ||
Makefile | 2 years ago | ||
README.md | 2 years ago | ||
enrich-etab.ini | 2 years ago | ||
enrich-institutes.ini | 2 years ago | ||
enrich-pascal.ini | 2 years ago | ||
enrich-rnsr.ini | 2 years ago | ||
enrich-teeft-en.ini | 2 years ago | ||
extract-fields.ini | 2 years ago | ||
package-lock.json | 2 years ago | ||
package.json | 2 years ago |
Étude pour l'INSU, à partir de ~14000 DOI présents dans le WOS. À rendre pour mi-octobre 2022.
Voir https://wos-dumps.conditor.inist.fr/ et les .ini
qui y sont. Voir https://gitbucket.inist.fr/tdm/web-services/blob/master/biblio-tools/v1/wos/works/expand.ini.
Les DOI sont dans un .bib
.
Décider sur quelle machine mettre ce dump.
WOS_API_KEY
dans mon mail CNRS.
graph TD A[(corpus_WoS_vol1-50.json)] --> B[[extract-fields.ini]] B --> C[(corpus-simple-50.json)] C --> D[[enrich-rnsr.ini]] D --> E[(corpus-simple-rnsr-50.json)] E --> F[[enrich-etab.ini]] F --> G[(corpus-simple-etab-50.json)] G --> H[[enrich-institutes.ini]] H --> I[(corpus-simple-instituts-50.json)] I --> J[[enrich-teeft.ini]] J --> K[(corpus-simple-teeft-en-50.json)] K --> L[[enrich-pascal.ini]] L --> M[(corpus-simple-pascal-50.json)]
Les items 25,26, 27, 29 ,30, 31, 32, 34, 35, 39, 41 ont un tableau dans le champ abstract
, ce qui pose problème au web service. Il faut donc s'arranger pour n'envoyer qu'une chaîne.
Utiliser lodex-crontab@1.4+, avec cette configuration:
{ "environnement": { "CRON_VERBOSE": true, "EZS_VERBOSE": false, "DEBUG": "ezs" }, "files" : { "zip": "https://gitbucket.inist.fr/parmentf/giec-wos/archive/master.zip" }, "tasks": [ { "CronRule": "0 1 * * *", "Target": "data/corpus-simple-pascal.json", "RunOnStartup": true } ] }