Outil d'extraction de termes invariants à partir d'une liste d'autorité

@besagni besagni authored on 18 Nov 2022
IRC3sp Nouvelle version du script 1 year ago
EnglishVersion.md Modifications mineures 4 years ago
IRC3.pl Petite correction d’IRC3 4 years ago
README.md Mise à jour de README.md 4 years ago
README.md

IRC3

IRC3 (Indexation par Recherche et Comparaison de Chaînes de Caractères) est un programme simple et robuste permettant la reconnaissance et l’extraction dans un corpus de textes, de termes figés (composés chimiques, noms scientifiques d’espèces animales ou végétales, noms propres, etc.) appartenant à une liste finie. En l’absence d’un nom de fichier ou de répertoire de fichiers textes, ce programme traite le texte envoyé sur l’entrée standard.

N.B. : la liste et les textes doivent être en UTF-8 (sans BOM).

Usage

    IRC3.pl -t table -r répertoire [ -e extension ]* [ -s fichier_sortie ] [ -l log ] [ -cq ]
    IRC3.pl -t table -f fichier_entrée [ -s fichier_sortie ] [ -l log ] [ -cq ]
    IRC3.pl -t table [ -l log ] [ -cq ]
    IRC3.pl -h

Options

    -c  tient compte de la casse (majuscule/minuscule) des termes recherchés 
    -e  indique l’extension (e.g. “.txt”) du ou des fichiers textes à traiter
        (possibilité d’avoir plusieurs extensions en répétant l’option)
    -f  indique le nom du fichier texte à traiter 
    -h  affiche cette aide 
    -l  indique le nom du fichier récapitulatif où sera écrit pour chaque fichier
        traité le nombre de termes et d’occurrences trouvés 
    -q  supprime l’affichage de la progression du travail (notamment pour l’utiliser 
        dans un script shell) 
    -r  indique le répertoire contenant les fichiers textes à traiter 
    -s  indique le nom du fichier où sera écrit le résultat du traitement 
    -t  indique le nom du fichier contenant la ressource, c’est-à-dire la liste 
        des termes à rechercher

Ressource

Le fichier de ressource contient un terme par ligne. On peut indiquer pour un terme sa forme préférentielle en ajoutant après le terme une ou plusieurs tabulations et le préférentiel.

Les lignes vides et celles commençant par le caractère “#” ne sont pas prises en compte. De plus, la ressource peut être un fichier compressé par “gzip” ou “bzip2”.

Résultat

Le fichier résultat contient une ligne par occurrence trouvée. Chaque ligne est formée de 4 champs séparés par une tabulation. On a respectivement :

  • le nom du fichier traité (“STDIN” dans le cas de l’entrée standard),
  • le terme tel qu’il est dans la ressource,
  • le terme tel qu’il apparait dans le texte analysé,
  • la forme préférentielle du terme dans le cas d’un synonyme.