# Étude GIEC

Étude pour l'INSU, à partir de ~14000 DOI présents dans le WOS.
À rendre pour mi-octobre 2022.

Voir <https://wos-dumps.conditor.inist.fr/> et les `.ini` qui y sont.
Voir <https://gitbucket.inist.fr/tdm/web-services/blob/master/biblio-tools/v1/wos/works/expand.ini>.

Les DOI sont dans un `.bib`.

Décider sur quelle machine mettre ce dump.

`WOS_API_KEY` dans mon mail CNRS.

- [ ] concaténer titre et abstract pour teeft
- [ ] ajouter les reprint_addresses (affiliations)
- [ ] enrichissement service web base Pascal (?)

## Workflow

```mermaid
graph TD
    A[(corpus_WoS_vol1-50.json)] --> B[[extract-fields.ini]]
    B --> C[(corpus-simple-50.json)]
    C --> D[[enrich-rnsr.ini]]
    D --> E[(corpus-simple-rnsr-50.json)]
    E --> F[[enrich-etab.ini]]
    F --> G[(corpus-simple-etab-50.json)]
    G --> H[[enrich-institutes.ini]]
    H --> I[(corpus-simple-instituts-50.json)]
    I --> J[[enrich-teeft.ini]]
    J --> K[(corpus-simple-teeft-en-50.json)]
```

[![](https://mermaid.ink/img/pako:eNpd0U1LwzAYwPGvUp6TwjL04KUHwa179ThBsC0jtk9tpE1K8kSUse9umtGuS055-ecHIScoVIkQw5fmXR29JZmM3HhJ7wqlO2uO7-pw_FHNI3t6mH8bJe_ziLHnaJGm-EuaF8QqgU1p5kKKPL_cXvhkORjMiLZr8CpcqqWvEgdJLYqaaWn0VEn8-SpU-iykVj5djxQS_5xSa3--Cak-C6mNT7cjJaQhQZbw5oVbX-1CcIhNqO58vx9VQqxoCu598BqCvmMorx7MoEXdclG6Tzv1lzOgGlvMIHbTEituG8ogk2eXckvq8CcLiElbnIHtSk6YCO6-u4W44o1xux2XH0oN6_M_VYGrQQ)](https://mermaid-js.github.io/mermaid-live-editor/edit#pako:eNpd0U1LwzAYwPGvUp6TwjL04KUHwa179ThBsC0jtk9tpE1K8kSUse9umtGuS055-ecHIScoVIkQw5fmXR29JZmM3HhJ7wqlO2uO7-pw_FHNI3t6mH8bJe_ziLHnaJGm-EuaF8QqgU1p5kKKPL_cXvhkORjMiLZr8CpcqqWvEgdJLYqaaWn0VEn8-SpU-iykVj5djxQS_5xSa3--Cak-C6mNT7cjJaQhQZbw5oVbX-1CcIhNqO58vx9VQqxoCu598BqCvmMorx7MoEXdclG6Tzv1lzOgGlvMIHbTEituG8ogk2eXckvq8CcLiElbnIHtSk6YCO6-u4W44o1xux2XH0oN6_M_VYGrQQ)

## Potentiels

- base du SAPPS (?): correspondance adresses WoS / unités du CNRS
- alignement adresse / expression régulière pour le marquage labo
- annotation de corpus avec un thésaurus (quel outil?)

## DEBUG

Les items 25,26, 27, 29 ,30, 31, 32, 34, 35, 39, 41 ont un tableau dans le champ
`abstract`, ce qui pose problème au web service. Il faut donc s'arranger pour
n'envoyer qu'une chaîne.
