diff --git a/IRC3sp/README.md b/IRC3sp/README.md index 00da62b..c975114 100644 --- a/IRC3sp/README.md +++ b/IRC3sp/README.md @@ -1,3 +1,64 @@ IRC3sp =============== - + +**IRC3sp** est une version de l’outil **IRC3** dédiée à la recherche des noms scientifiques — ou noms binominaux — d’espèces animales, végétales ou autres dans un corpus de textes en se référant à une liste finie (mais, aussi exhaustive que possible). + +**N.B.** : la liste et les textes doivent être en **UTF-8** (sans [BOM](https://fr.wikipedia.org/wiki/Indicateur_d%27ordre_des_octets)). + +### Nom binominal + +Pour mémoire, en taxonomie, un nom binominal est formé de deux noms latins (ou latinisés) comprenant le nom de genre et le nom spécifique, comme “*Canis lupus*” pour le loup. Ce nom est normalement écrit en italique avec une initiale en majuscule pour le nom de genre et il peut être présent sous une forme abrégée où seule l'initiale du nom de genre est indiquée, comme “*C. lupus*”. À l'exception d'espèces très connues comme *Escherichia coli* qui est souvent simplement écrit *E. coli*, la forme abrégée ne doit être utilisée que si la forme longue est déjà apparue au moins une fois. De plus, si un nom de genre a été cité, toutes les espèces appartenant à ce même genre peuvent ensuite être citées sous forme abrégée, comme “*Canis lupus*, *C. latrans* et *C. aureus*” (pour “*Canis lupus*, *Canis latrans* et *Canis aureus*”). + +Cependant, les formes abrégées peuvent être ambigües. Par exemples, on a deux espèces de poissons, *Cyprinus carpio* et *Carpiodes carpio*, qui ont la même abréviation : *C. carpio*. Pour éviter les erreurs, **IRC3sp** commence par faire la liste des noms de genre présents dans le document analysé pour obtenir l'ensemble des espèces présentes, et donc, des abréviations possibles. Malgré cela, si une ambigüité demeure, on considère comme valide le dernier nom de genre cité avant l'occurrence de la forme abrégée. + +### Usage +``` + IRC3.pl -t table -r répertoire [ -e extension ]* [ -s fichier_sortie ] [ -l log ] [ -cq ] + IRC3.pl -t table -f fichier_entrée [ -s fichier_sortie ] [ -l log ] [ -cq ] + IRC3.pl -h +``` +**N.B.** : contrairement à **IRC3**, cet outil a besoin d’avoir comme argument un fichier texte ou un répertoire de fichiers textes. Comme l’analyse du texte se fait en deux passes, **IRC3sp** ne peut pas lire les données sur l’entrée standard. + +### Options +``` + -c tient compte de la casse (majuscule/minuscule) des termes recherchés + (fortement recommandé) + -e indique l’extension (e.g. “.txt”) du ou des fichiers textes à traiter + (possibilité d’avoir plusieurs extensions en répétant l’option) + -f indique le nom du fichier texte à traiter + -h affiche cette aide + -l indique le nom du fichier récapitulatif où sera écrit pour chaque fichier + traité le nombre de termes et d’occurrences trouvés + -q supprime l’affichage de la progression du travail (notamment pour l’utiliser + dans un script shell) + -r indique le répertoire contenant les fichiers textes à traiter + -s indique le nom du fichier où sera écrit le résultat du traitement + -t indique le nom du fichier contenant la ressource, c’est-à-dire la liste + des termes à rechercher +``` + +### Ressource + +Le fichier de ressource contient un terme par ligne. Contrairement à **IRC3**, il est préférable de ne pas indiquer de forme préférentielle. + +Les lignes vides et celles commençant par le caractère “#” ne sont pas prises en compte. De plus, +la ressource peut être un fichier compressé par “gzip” ou “bzip2”. + +### Résultat + +Le fichier résultat contient une ligne par occurrence trouvée. Chaque ligne est formée suivant les cas de 3 ou 4 champs séparés par une tabulation. + +Dans le cas où le nom trouvé dans le texte est la forme longue, on a 3 champs qui sont respectivement : + +* le nom du fichier traité, +* le nom binominal (forme longue) tel qu’il est dans la ressource, +* le nom binominal (forme longue) tel qu’il apparait dans le texte analysé, + +Dans le cas où le nom est trouvé sous sa forme abrégée, on a 4 champs qui sont respectivement : + +* le nom du fichier traité, +* le nom binominal (forme abrégée) généré par l’outil à partir de la ressource, +* le nom binominal (forme abrégée) tel qu’il apparait dans le texte analysé, +* le nom binominal (forme longue) tel qu’il est dans la ressource, + +