Outil d'extraction de termes invariants à partir d'une liste d'autorité
IRC3sp | 2 years ago | ||
EnglishVersion.md | 4 years ago | ||
IRC3.pl | 4 years ago | ||
README.md | 4 years ago |
IRC3 (Indexation par Recherche et Comparaison de Chaînes de Caractères) est un programme simple et robuste permettant la reconnaissance et l’extraction dans un corpus de textes, de termes figés (composés chimiques, noms scientifiques d’espèces animales ou végétales, noms propres, etc.) appartenant à une liste finie. En l’absence d’un nom de fichier ou de répertoire de fichiers textes, ce programme traite le texte envoyé sur l’entrée standard.
N.B. : la liste et les textes doivent être en UTF-8 (sans BOM).
IRC3.pl -t table -r répertoire [ -e extension ]* [ -s fichier_sortie ] [ -l log ] [ -cq ] IRC3.pl -t table -f fichier_entrée [ -s fichier_sortie ] [ -l log ] [ -cq ] IRC3.pl -t table [ -l log ] [ -cq ] IRC3.pl -h
-c tient compte de la casse (majuscule/minuscule) des termes recherchés -e indique l’extension (e.g. “.txt”) du ou des fichiers textes à traiter (possibilité d’avoir plusieurs extensions en répétant l’option) -f indique le nom du fichier texte à traiter -h affiche cette aide -l indique le nom du fichier récapitulatif où sera écrit pour chaque fichier traité le nombre de termes et d’occurrences trouvés -q supprime l’affichage de la progression du travail (notamment pour l’utiliser dans un script shell) -r indique le répertoire contenant les fichiers textes à traiter -s indique le nom du fichier où sera écrit le résultat du traitement -t indique le nom du fichier contenant la ressource, c’est-à-dire la liste des termes à rechercher
Le fichier de ressource contient un terme par ligne. On peut indiquer pour un terme sa forme préférentielle en ajoutant après le terme une ou plusieurs tabulations et le préférentiel.
Les lignes vides et celles commençant par le caractère “#” ne sont pas prises en compte. De plus, la ressource peut être un fichier compressé par “gzip” ou “bzip2”.
Le fichier résultat contient une ligne par occurrence trouvée. Chaque ligne est formée de 4 champs séparés par une tabulation. On a respectivement :