latest commit 4cdf210902 Stéphane Gully authored on 4 Aug 2014
	nodejs	première version publique	11 years ago
	README.md	première version publique	11 years ago

istex-api-harvester

Programmes permettant de moissonner les corpus proposés par l'API de la plateforme ISTEX.

Pré requis

Les prérequis pour l'utiliser sont :

Avoir nodejs d'installé sur sa machine (de préférence sur un OS de type Unix) -> http://nodejs.org/
D'installer les dépendances du script. Pour cela, se placer dans le répertoire où package.json est présent et taper : npm install
Disposer d'un accès réseau et d'avoir une adresse ip autorisée par la plateforme ISTEX

Usage

Par exemple pour moissonner les 850 premiers documents du corpus "springer" il faut taper ceci:

./istex-api-harvester.njs --corpus springer --size 850

Pour moissonner les 100 premiers documents correspondant à la requête "hypertex" tous corpus confondus :

./istex-api-harvester.njs --query hypertext --size 100

Les métadonnées au format MODS seront récupérées ainsi que le plein texte qui est la pluspart du temps au format pdf. Les données téléchargées sont stockées dans le répertoire "./springer/" Pour les deux premiers documents téléchargés, on aura par exemple les fichiers suivants qui seront créés :

./springer/707770bf3aea02d1a81854bdd46533becfde35c9.mods.xml
./springer/707770bf3aea02d1a81854bdd46533becfde35c9.pdf
./springer/8db224e66c7fa77be4210d4d9ddb5dd84666066f.mods.xml
./springer/8db224e66c7fa77be4210d4d9ddb5dd84666066f.pdf

A noter que la longue chaîne de caractère est l'identifiant unique du document en question. A noter que le temps d'exécution du script dépend fortement de la qualité du réseau et du volume des données téléchargées.