Outil d'extraction de termes invariants à partir d'une liste d'autorité

@Dominique BESAGNI Dominique BESAGNI authored on 9 Jan 2020
EnglishVersion.md Modifications mineures 4 years ago
IRC3.pl Petite correction d’IRC3 et mise à jour de README.md 4 years ago
README.md Petite correction d’IRC3 et mise à jour de README.md 4 years ago
README.md

IRC3

IRC3 (Indexation par Recherche et Comparaison de Chaînes de Caractères) est un programme simple et robuste permettant la reconnaissance et l’extraction dans un corpus de textes, de termes figés (composés chimiques, noms scientifiques d’espèces animales ou végétales, noms propres, etc.) appartenant à une liste finie. En l’absence de l’option “-r” ou “-f”, ce programme traite le texte envoyé sur l’entrée standard.

N.B. : la liste et les textes doivent être en UTF-8 (sans BOM).

Usage

    IRC3.pl -t table -r répertoire [ -e extension ]* [ -s fichier_sortie ] [ -l log ] [ -cq ]
    IRC3.pl -t table -f fichier_entrée [ -s fichier_sortie ] [ -l log ] [ -cq ]
    IRC3.pl -t table [ -l log ] [ -cq ]
    IRC3.pl -h

Options

    -c  tient compte de la casse (majuscule/minuscule) des termes recherchés 
    -e  indique l’extension (e.g. “.txt”) du ou des fichiers textes à traiter
        (possibilité d’avoir plusieurs extensions en répétant l’option)
    -f  indique le nom du fichier texte à traiter 
    -h  affiche cette aide 
    -l  indique le nom du fichier récapitulatif où sera écrit pour chaque fichier
        traité le nombre de termes et d’occurrences trouvés 
    -q  supprime l’affichage de la progression du travail (notamment pour l’utiliser 
        dans un script shell) 
    -r  indique le répertoire contenant les fichiers textes à traiter 
    -s  indique le nom du fichier où sera écrit le résultat du traitement 
    -t  indique le nom du fichier contenant la ressource, c’est-à-dire la liste 
        des termes à rechercher

Ressource

Le fichier de ressource contient un terme par ligne. On peut indiquer pour un terme sa forme préférentielle en ajoutant après le terme une ou plusieurs tabulations et le préférentiel.

Les lignes vides et celles commençant par le caractère “#” ne sont pas prises en compte. De plus, la ressource peut être un fichier compressé par “gzip” ou “bzip2”.

Résultat

Le fichier résultat contient une ligne par occurrence trouvée. Chaque ligne est formée de 4 champs séparés par une tabulation. On a respectivement :

  • le nom du fichier traité (“STDIN” dans le cas de l’entrée standard),
  • le terme tel qu’il est dans la ressource,
  • le terme tel qu’il apparait dans le texte analysé,
  • la forme préférentielle du terme dans le cas d’un synonyme.