diff --git a/README.md b/README.md index 3670c11..70bc783 100644 --- a/README.md +++ b/README.md @@ -11,7 +11,7 @@ ### Pré-requis -Le programme `harvestCorpus.pl` fonctionne sous Unix/Linux ainsi qu'avec Cygwin +Le programme `harvestCorpus.pl` fonctionne sous Unix/Linux ainsi qu’avec Cygwin sous Windows. Il utilise plusieurs modules dont la plupart sont présents dans la distribution standard de **Perl**. Normalement, les seuls modules à installer sont : - HTTP::CookieJar::LWP @@ -40,7 +40,7 @@ -h affiche cette aide -e liste les enrichissements à télécharger, soit “all” pour l’ensemble, soit “abesAuthors”, “abesSubjects”, “multicat”, “nb”, “refBibs”, “teeft” ou “unitex” - -i ajoute l'indexation automatique, e.g. TEEFT, dans les notices bibliographiques + -i ajoute l’indexation automatique, e.g. TEEFT, dans les notices bibliographiques -j indique le jeton d’authentification obtenu sur “https://api.istex.fr/token/” -l limite le nombre maximum de documents téléchargés au nombre fourni en argument -m liste les fichiers de métadonnées à télécharger, soit “all” pour l’ensemble, @@ -48,12 +48,12 @@ -n crée un fichier de notices bibliographiques (sans argument, crée le fichier “notices.txt” dans le répertoire courant ou celui donné par l’option “-d”) -p indique le préfixe utilisé pour renommer les fichiers téléchargés (par défaut, “f”). - Ce préfixe est ensuite suivi d'un numéro séquentiel et de l'extension correspondant + Ce préfixe est ensuite suivi d’un numéro séquentiel et de l’extension correspondant au type de document téléchargé -q indique la requête à utiliser, entre simples quotes en présence de blancs ou de caractères spéciaux (incompatible avec l’option “-c”) - -r provoque une sortie dans un ordre aléatoire en fonction d'une “graine” aléatoire - si l'argument est absent ou égal à 0, ou en fonction du nombre entier positif non nul + -r provoque une sortie dans un ordre aléatoire en fonction d’une “graine” aléatoire + si l’argument est absent ou égal à 0, ou en fonction du nombre entier positif non nul fourni en argument (incompatible avec l’option “-c” et limité à 10.000 documents) -s indique le nom du fichier “.corpus” généré. Par défaut, génère le fichier “notices.corpus” ou “préfixe.corpus” (cf. option “-p”) dans le répertoire courant @@ -80,7 +80,7 @@ > Téléchargement des fichiers PDF et TEI des articles de la revue “**Biofutur**” dans le répertoire > “**FichiersPDF**” en les renommant avec le préfixe “**biofutur**” tout en créant un fichier `.corpus` -> et en conservant les réponses de l'API ISTEX : +> et en conservant les réponses de l’API ISTEX : ```bash harvestCorpus.pl -q '(host.title:"Biofutur" OR host.issn:"0294-3506")' -t pdf,tei @@ -141,7 +141,7 @@ #### 2 - Fichier `logRequete.txt` -Avec l’option `-v`, il est possible de conserver l'ensemble des informations envoyées par l’API ISTEX lors de l’exécution d’une requête. Ces métadonnées sont conservées dans le fichier `logRequete.txt` qui se trouve soit dans le répertoire courant, soit dans le répertoire indiqué par l’option `-d`. +Avec l’option `-v`, il est possible de conserver l’ensemble des informations envoyées par l’API ISTEX lors de l’exécution d’une requête. Ces métadonnées sont conservées dans le fichier `logRequete.txt` qui se trouve soit dans le répertoire courant, soit dans le répertoire indiqué par l’option `-d`. Ce fichier est notamment utilisé par le programme [`statsCorpus.pl`](../../tree/master/outils/stats-corpus) pour extraire les principales informations concernant chaque document du corpus, comme le titre, le nom du périodique, la date de publication, l’éditeur, la version de PDF, etc.