nodejs | 9 years ago | ||
README.md | 9 years ago |
Programmes permettant de moissonner les corpus proposés par l'API de la plateforme ISTEX. Actuellement le moissoneur est écrit avec le langage de programmation NodeJS mais il est prévu de le proposer dans d'autres langages.
Ces programmes ont également une vocation pédagogique en montrant à la communauté comment l'API peut être moissonée par programme.
Les prérequis pour l'utiliser sont :
npm install -g istex-api-harvester
Par exemple pour moissonner les 850 premiers documents du corpus "springer" il faut taper ceci:
istex-api-harvester --corpus springer --size 850
Pour moissonner les 100 premiers documents correspondant à la requête "hypertex" tous corpus confondus :
istex-api-harvester --query hypertext --size 100
Les métadonnées au format MODS seront récupérées ainsi que le plein texte qui est la pluspart du temps au format pdf. Les données téléchargées sont stockées dans le répertoire "./springer/" Pour les deux premiers documents téléchargés, on aura par exemple les fichiers suivants qui seront créés :
A noter que la longue chaîne de caractère est l'identifiant unique du document en question. A noter que le temps d'exécution du script dépend fortement de la qualité du réseau et du volume des données téléchargées.