| bash | 11 years ago | ||
| nodejs | 11 years ago | ||
| README.md | 11 years ago | ||
Programmes permettant de moissonner les corpus proposés par l'API de la plateforme ISTEX.
Plusieurs moissonneurs sont proposés dans différents langages de programmation :
Le programme de moissonnage le plus complet est la version NodeJS. La suite de ce README documente donc l'utilisation de ce script.
Les prérequis pour l'utiliser sont :
npm install -g istex-api-harvester
Par exemple pour moissonner les 850 premiers (ordre d'indexation) documents du corpus "springer" il faut taper ceci:
istex-api-harvester --corpus springer --size 850
Pour moissonner les 100 documents les plus pertinants correspondant à la requête "hypertex" tout corpus confondus :
istex-api-harvester --query hypertext --size 100
Pour moissonner également les pleins textes :
istex-api-harvester --query hypertext --size 100 --fulltext 1
Les métadonnées au format MODS seront récupérées ainsi que le plein texte qui est la pluspart du temps au format pdf. Les données téléchargées sont stockées dans le répertoire "./springer/" Pour les deux premiers documents téléchargés, on aura par exemple les fichiers suivants qui seront créés :
A noter que la longue chaîne de caractère est l'identifiant unique du document en question. A noter que le temps d'exécution du script dépend fortement de la qualité du réseau et du volume des données téléchargées.