Newer
Older
IRC3 / IRC3sp / README.md
@besagni besagni on 13 Jan 2020 4 KB Mise à jour du fichier README.md

IRC3sp

IRC3sp est une version de l’outil IRC3 dédiée à la recherche des noms scientifiques — ou noms binominaux — d’espèces animales, végétales ou autres dans un corpus de textes en se référant à une liste finie (mais, aussi exhaustive que possible).

N.B. : la liste et les textes doivent être en UTF-8 (sans BOM).

Nom binominal

Pour mémoire, en taxonomie, un nom binominal est formé de deux noms latins (ou latinisés) comprenant le nom de genre et le nom spécifique, comme “Canis lupus” pour le loup. Ce nom est normalement écrit en italique avec une initiale en majuscule pour le nom de genre et il peut être présent sous une forme abrégée où seule l'initiale du nom de genre est indiquée, comme “C. lupus”. À l'exception d'espèces très connues comme Escherichia coli qui est souvent simplement écrit E. coli, la forme abrégée ne doit être utilisée que si la forme longue est déjà apparue au moins une fois. De plus, si un nom de genre a été cité, toutes les espèces appartenant à ce même genre peuvent ensuite être citées sous forme abrégée, comme “Canis lupus, C. latrans et C. aureus” (pour “Canis lupus, Canis latrans et Canis aureus”).

Cependant, les formes abrégées peuvent être ambigües. Par exemples, on a deux espèces de poissons, Cyprinus carpio et Carpiodes carpio, qui ont la même abréviation : C. carpio. Pour éviter les erreurs, IRC3sp commence par faire la liste des noms de genre présents dans le document analysé pour obtenir l'ensemble des espèces présentes, et donc, des abréviations possibles. Malgré cela, si une ambigüité demeure, on considère comme valide le dernier nom de genre cité avant l'occurrence de la forme abrégée.

Usage

    IRC3.pl -t table -r répertoire [ -e extension ]* [ -s fichier_sortie ] [ -l log ] [ -cq ]
    IRC3.pl -t table -f fichier_entrée [ -s fichier_sortie ] [ -l log ] [ -cq ]
    IRC3.pl -h

N.B. : contrairement à IRC3, cet outil a besoin d’avoir comme argument un fichier texte ou un répertoire de fichiers textes. Comme l’analyse du texte se fait en deux passes, IRC3sp ne peut pas lire les données sur l’entrée standard.

Options

    -c  tient compte de la casse (majuscule/minuscule) des termes recherchés 
        (fortement recommandé)
    -e  indique l’extension (e.g. “.txt”) du ou des fichiers textes à traiter
        (possibilité d’avoir plusieurs extensions en répétant l’option)
    -f  indique le nom du fichier texte à traiter 
    -h  affiche cette aide 
    -l  indique le nom du fichier récapitulatif où sera écrit pour chaque fichier
        traité le nombre de termes et d’occurrences trouvés 
    -q  supprime l’affichage de la progression du travail (notamment pour l’utiliser 
        dans un script shell) 
    -r  indique le répertoire contenant les fichiers textes à traiter 
    -s  indique le nom du fichier où sera écrit le résultat du traitement 
    -t  indique le nom du fichier contenant la ressource, c’est-à-dire la liste 
        des termes à rechercher

Ressource

Le fichier de ressource contient un terme par ligne. Contrairement à IRC3, il est préférable de ne pas indiquer de forme préférentielle.

Les lignes vides et celles commençant par le caractère “#” ne sont pas prises en compte. De plus, la ressource peut être un fichier compressé par “gzip” ou “bzip2”.

Résultat

Le fichier résultat contient une ligne par occurrence trouvée. Chaque ligne est formée suivant les cas de 3 ou 4 champs séparés par une tabulation.

Dans le cas où le nom trouvé dans le texte est la forme longue, on a 3 champs qui sont respectivement :

  • le nom du fichier traité,
  • le nom binominal (forme longue) tel qu’il est dans la ressource,
  • le nom binominal (forme longue) tel qu’il apparait dans le texte analysé,

Dans le cas où le nom est trouvé sous sa forme abrégée, on a 4 champs qui sont respectivement :

  • le nom du fichier traité,
  • le nom binominal (forme abrégée) généré par l’outil à partir de la ressource,
  • le nom binominal (forme abrégée) tel qu’il apparait dans le texte analysé,
  • le nom binominal (forme longue) tel qu’il est dans la ressource,