| nodejs | 11 years ago | ||
| README.md | 11 years ago | ||
Programmes permettant de moissonner les corpus proposés par l'API de la plateforme ISTEX.
Les prérequis pour l'utiliser sont :
npm install -g istex-api-harvester
Par exemple pour moissonner les 850 premiers documents du corpus "springer" il faut taper ceci:
istex-api-harvester --corpus springer --size 850
Pour moissonner les 100 premiers documents correspondant à la requête "hypertex" tous corpus confondus :
istex-api-harvester --query hypertext --size 100
Pour moissonner également les pleins textes :
istex-api-harvester --query hypertext --size 100 --fulltext 1
Les métadonnées au format MODS seront récupérées ainsi que le plein texte qui est la pluspart du temps au format pdf. Les données téléchargées sont stockées dans le répertoire "./springer/" Pour les deux premiers documents téléchargés, on aura par exemple les fichiers suivants qui seront créés :
A noter que la longue chaîne de caractère est l'identifiant unique du document en question. A noter que le temps d'exécution du script dépend fortement de la qualité du réseau et du volume des données téléchargées.