Outil d'extraction de corpus ISTEX
outils | 6 years ago | ||
README.md | 6 years ago | ||
harvestCorpus.pl | 6 years ago |
Outil d’extraction de corpus ISTEX
Permet de décharger un corpus de fichiers textes (PDF, TEI, TXT), de fichiers de métadonnées (Mods, XML) ou de fichiers d’enrichissement depuis la base ISTEX à partir d’une requête ou d’un fichier corpus. Également, renomme les fichiers déchargés et génère un fichier de notices bibliographiques.
N.B. : AUCUNE MÉTHODE D’AUTHENTIFICATION SUPPORTÉE POUR L’INSTANT.
harvestCorpus.pl ( -r 'requête' | -c fichier_corpus ) ( -t (all|ocr|pdf|tei|txt|zip)[,(ocr|pdf|tei|txt|zip)]* | -e (all|multicat|refBibs|...)[,(multicat|refBibs|...)]* | -m (all|mods|xml) ) [ -d destination ] [ -n notices ] [ -p préfixe ] [ -s fichier_corpus ] [ -iv ] harvestCorpus.pl ( -r 'requête' | -c fichier_corpus ) -a [ -d destination ] [ -n notices ] [ -p préfixe ] [ -s fichier_corpus ] [ -iv ] harvestCorpus.pl -h
-a télécharge tous les fichiers correspondants aux documents -c utilise le fichier corpus "fichier_corpus" (incompatible avec les options -r et -s ; en cours de réalisation) -d indique le répertoire de destination des documents (répertoire courant par défaut) -h affiche cette aide -e liste les enrichissements à télécharger, soit "all" pour l’ensemble, soit "abesAuthors", "abesSubjects", "multicat", "nb", "refBibs", "teeft" ou "unitex" -i ajoute l’indexation automatique, e.g. TEEFT, dans les notices bibliographiques -m liste les fichiers de métadonnées à télécharger, soit "all" pour l’ensemble, soit "mods" ou "xml" -n indique le nom du fichier de notices bibliographiques généré (par défaut, "notices.txt" dans le répertoire courant ou celui donné par l’option -d) -p indique le préfixe utilisé pour renommer les fichiers téléchargés (par défaut, "f") -r indique la requête à utiliser, entre simples quotes en présence de blancs ou de caractères spéciaux (incompatible avec l’option -c) -s génère un fichier corpus (incompatible avec l’option -c ; en cours de réalisation) -t liste les fichiers de texte intégral à télécharger, soit "all" pour l’ensemble, soit "ocr", "pdf", "tei", "txt" ou "zip" -v garde les métadonnées ISTEX dans un fichier "logRequete.txt" dans le répertoire courant ou celui donné par l’option -d
harvestCorpus.pl -r '(host.title:"Biofutur" OR host.issn:"0294-3506")' -t pdf,tei -d FichiersPDF