Scripts de chargement WoS / enrichissement pour l'étude GIEC du CNRS
| data | 3 years ago | ||
| .gitignore | 3 years ago | ||
| Makefile | 3 years ago | ||
| README.md | 3 years ago | ||
| enrich-etab.ini | 3 years ago | ||
| enrich-institutes.ini | 3 years ago | ||
| enrich-pascal.ini | 3 years ago | ||
| enrich-rnsr.ini | 3 years ago | ||
| enrich-teeft-en.ini | 3 years ago | ||
| extract-fields.ini | 3 years ago | ||
| package-lock.json | 3 years ago | ||
| package.json | 3 years ago | ||
Étude pour l'INSU, à partir de ~14000 DOI présents dans le WOS. À rendre pour mi-octobre 2022.
Voir https://wos-dumps.conditor.inist.fr/ et les .ini qui y sont. Voir https://gitbucket.inist.fr/tdm/web-services/blob/master/biblio-tools/v1/wos/works/expand.ini.
Les DOI sont dans un .bib.
Décider sur quelle machine mettre ce dump.
WOS_API_KEY dans mon mail CNRS.
graph TD
A[(corpus_WoS_vol1-50.json)] --> B[[extract-fields.ini]]
B --> C[(corpus-simple-50.json)]
C --> D[[enrich-rnsr.ini]]
D --> E[(corpus-simple-rnsr-50.json)]
E --> F[[enrich-etab.ini]]
F --> G[(corpus-simple-etab-50.json)]
G --> H[[enrich-institutes.ini]]
H --> I[(corpus-simple-instituts-50.json)]
I --> J[[enrich-teeft.ini]]
J --> K[(corpus-simple-teeft-en-50.json)]
K --> L[[enrich-pascal.ini]]
L --> M[(corpus-simple-pascal-50.json)]
Les items 25,26, 27, 29 ,30, 31, 32, 34, 35, 39, 41 ont un tableau dans le champ abstract, ce qui pose problème au web service. Il faut donc s'arranger pour n'envoyer qu'une chaîne.
Utiliser lodex-crontab@1.4+, avec cette configuration:
{
"environnement": {
"CRON_VERBOSE": true,
"EZS_VERBOSE": false
},
"files" : {
"zip": "https://gitbucket.inist.fr/parmentf/giec-wos/archive/master.zip"
},
"tasks": [
{
"CronRule": "0 1 * * *",
"Target": "data/corpus-simple-pascal-50.json",
"RunOnStartup": true
}
]
}