Newer
Older
harvest-corpus / outils / stats-corpus / README.md

stat-corpus

Outil de statistiques descriptives sur les corpus ISTEX extraits par harvestCorpus.pl

Permet de faire des statistiques sur les fichiers extraits d’ISTEX en utilisant le fichier de métadonnées logRequete.txt (cf. l’option -v du programme harvestCorpus.pl) ou les fichiers de métadonnées JSON correspondants aux documents extraits.

Si les fichiers XML éditeurs ont été extraits, il permet aussi de vérifier s’ils ont ou non les documents sous forme de texte structuré.

Le résultat comprend, en plus de l’en-tête, une ligne par document avec des champs séparés par des tabulations (format TSV).

Usage

    statsCorpus.pl -l logfile -c fichier.corpus [ -r répertoireXML ] [ -s sortie ]
    statsCorpus.pl -m répertoireJSON [ -r répertoireXML ] [ -s sortie ]
    statsCorpus.pl -h

Options

    -l  indique le nom du fichier “logfile” contenant les métadonnées ISTEX au format JSON
        créé par l’option “-v” du programme “harvestCorpus.pl”.
        Par défaut, ce fichier s’appelle “logRequete.txt” et se trouve dans le répertoire des
        fichiers déchargés depuis le serveur ISTEX.
    -c  indique le nom du fichier “.corpus” généré par le programme “harvestCorpus.pl” permettant
        de faire le lien entre l’identifiant ISTEX d’un document et le nom des fichiers
        extraits correspondants.
    -h  affiche l’aide.
    -m  indique le répertoire où se trouve les fichiers de métadonnées au format JSON déchargés
        par le programme “harvestCorpus.pl”.
    -r  indique le répertoire où se trouve les fichiers XML éditeurs obtenus à partir des
        fichiers ZIP déchargés par le programme “harvestCorpus.pl”. Si les fichiers XML sont
        dans le même répertoire que les fichiers JSON, l’option “-m” seule suffit.
    -s  indique le nom du fichier de sortie. Sinon, la sortie se fait sur la sortie standard.

Exemple

    statsCorpus.pl -l Arthropodes/logRequete.txt -c Arthropodes_v2b.corpus -r Arthropodes
    statsCorpus.pl -m Vieillissement -r Vieillissement -s Vieil.tsv
    statsCorpus.pl -m Vieillissement -s Vieil.tsv                       (identique au précédent)

Données extraites

Pour l’instant, on a 18 champs :

  • Identifiant ISTEX
  • Identifiant ARK
  • Nom de fichier
  • Éditeur
  • Score de qualité (donnée ISTEX)
  • Version PDF
  • XML structuré (“Oui”, “Non”, “Absent” ou “Indéterminé”)
  • Année de publication
  • Titre du document
  • Titre du périodique
  • ISSN
  • e-ISSN
  • Type de publication (par exemple “journal”)
  • Type de document (par exemple “research-article”)
  • Catégories Web of Science
  • Catégories Science-Metrix
  • Catégories Scopus
  • Catégories INIST