stat-corpus =============== Statistiques descriptives sur les corpus ISTEX extrait par **harvestCorpus.pl** Permet de faire des statistiques sur les fichiers extraits d’ISTEX en utilisant le fichier de métadonnées “logRequete.txt” (cf. l’option “-v” du programme “harvestCorpus.pl”). Si les fichiers XML éditeurs ont été extraits, il permet aussi de vérifier s’ils sont structurés ou non. ### Usage ``` statsCorpus.pl -l logfile ( -p préfixe | -c corpus ) [ -r répertoire ] statsCorpus.pl -h ``` ### Options ``` -l indique le nom du fichier “logfile” contenant les métadonnées ISTEX au format JSON créé par l’option “-v” du programme “harvestCorpus.pl”. Par défaut, ce fichier s’appelle “logRequete.txt” et se trouve dans le répertoire des fichiers déchargés depuis le serveur ISTEX. -c indique le nom du fichier “corpus” généré par le programme “harvestCorpus.pl” permettant de faire le lien entre l’identifiant ISTEX d’un document et le nom des fichiers correspondants extraits. -p indique le préfixe utilisé au début du nom des fichiers déchargés par le programme “harvestCorpus.pl”. -r indique le répertoire où se trouve les fichiers XML éditeurs déchargés par le programme “harvestCorpus.pl”. ``` ### Exemple ``` statsCorpus.pl -l Arthropodes/logRequete.txt -c Arthropodes_v2b.corpus -r Arthropodes statsCorpus.pl -l Vieillissement/logRequete.txt -p Vieil_ -r Vieillissement ```