Outil d'extraction de corpus ISTEX
| outils | 8 years ago | ||
| README.md | 8 years ago | ||
| harvestCorpus.pl | 8 years ago | ||
Outil d’extraction de corpus ISTEX
Permet de décharger un corpus de fichiers textes (PDF, TEI, TXT), de fichiers de métadonnées (Mods, XML) ou de fichiers d’enrichissement depuis la base ISTEX à partir d’une requête ou d’un fichier corpus. Également, renomme les fichiers déchargés et génère un fichier de notices bibliographiques.
N.B. : AUCUNE MÉTHODE D’AUTHENTIFICATION SUPPORTÉE POUR L’INSTANT.
harvestCorpus.pl ( -r 'requête' | -c fichier_corpus ) ( -t (all|ocr|pdf|tei|txt|zip)[,(ocr|pdf|tei|txt|zip)]* |
-e (all|multicat|refBibs|...)[,(multicat|refBibs|...)]* | -m (all|mods|xml) )
[ -d destination ] [ -n notices ] [ -p préfixe ] [ -s fichier_corpus ] [ -iv ]
harvestCorpus.pl ( -r 'requête' | -c fichier_corpus ) -a [ -d destination ] [ -n notices ] [ -p préfixe ]
[ -s fichier_corpus ] [ -iv ]
harvestCorpus.pl -h
-a télécharge tous les fichiers correspondants aux documents
-c utilise le fichier corpus "fichier_corpus" (incompatible avec les options -r
et -s ; en cours de réalisation)
-d indique le répertoire de destination des documents (répertoire courant par défaut)
-h affiche cette aide
-e liste les enrichissements à télécharger, soit "all" pour l’ensemble, soit
"abesAuthors", "abesSubjects", "multicat", "nb", "refBibs", "teeft" ou "unitex"
-i ajoute l’indexation automatique, e.g. TEEFT, dans les notices bibliographiques
-m liste les fichiers de métadonnées à télécharger, soit "all" pour l’ensemble,
soit "mods" ou "xml"
-n indique le nom du fichier de notices bibliographiques généré (par défaut,
"notices.txt" dans le répertoire courant ou celui donné par l’option -d)
-p indique le préfixe utilisé pour renommer les fichiers téléchargés (par défaut, "f")
-r indique la requête à utiliser, entre simples quotes en présence de blancs ou de
caractères spéciaux (incompatible avec l’option -c)
-s génère un fichier corpus (incompatible avec l’option -c ; en cours de réalisation)
-t liste les fichiers de texte intégral à télécharger, soit "all" pour l’ensemble,
soit "ocr", "pdf", "tei", "txt" ou "zip"
-v garde les métadonnées ISTEX dans un fichier "logRequete.txt" dans le répertoire
courant ou celui donné par l’option -d
harvestCorpus.pl -r '(host.title:"Biofutur" OR host.issn:"0294-3506")' -t pdf,tei -d FichiersPDF