Newer
Older
alignement-pascal-francis / dedoublonnage / README.md
@besagni besagni on 8 Nov 2021 3 KB Première version des README.md

Dédoublonnage de l’alignement Pascal-Francis / Istex

Programme de dédoublonnage des résultats de l’alignement.

Le programme weedTei.pl permet de repérer les doublons dans l’ensemble des fichiers de résultats de l’alignement et de choisir une notice Inist avec un score maximal pour chaque document Istex apparié.

Usage

    weedTei3.pl -f fichier[,fichier]* -r répertoire [ -l log ] [ -x ]
    weedTei3.pl -h

Options

    -f  indique le nom du ou des fichiers d’entrée (qui peuvent être des fichiers
        compressés avec “gzip” ou “bzip2”). L’option est répétitive et il est possible
        d’indiquer plusieurs noms de fichier en les séparant par des virgules (mais
        sans espace entre eux). Si l’argument de l’option est un tiret “-”, alors la
        liste des fichiers (pas leur contenu) est lue sur l’entrée standard
    -h  affiche cette aide
    -l  indique le nom du fichier “log” contenant la liste des appariements
        supprimés
    -r  indique le nom du répertoire où seront créés les fichiers de sortie
        portant le même nom que les fichiers d’entrée
    -x  accepte comme valides les appariements lorsque la valeur du score est
        suivie d’un point d’exclamation (“!”)

Description

Ce programme lit l'ensemble des fichiers de résultat de l’alignement, recherche les doublons avant de réécrire les fichiers dans un répertoire différent avec le même nom. Lorsqu’il y a un appariement en double, le programme choisit l'appariement avec le meilleur score et, en cas d’égalité, le premier traité. De ce fait, quand on compare un nouveau fichier aux anciens fichiers déjà dédoublonnés, il est préférable de faire passer les anciens fichiers en premier pour limiter les modifications dans ceux-ci. De la même façon, comme certaines notices de Pascal ont été reprises dans Francis, il est préférable de faire passer les fichiers Pascal en premier. Dans les fichiers créés, les doublons rejetés sont marqués par un signe moins “-” ajouté après le score. Dans l’exemple suivant, on a le résultat pour 2 notices dont l’une est conservée, l’autre rejetée :

*****    5.000    A    96-0127566    Adolescent pregnancy and subsequent obesity in african-american girls    JOURNAL OF ADOLESCENT HEALTH    !    !    !    1994    15    6    491    494    SEGEL    J.S.    MCANARNEY, E.R.    E47E5C8C67C62B0DA70B1CEF5AED43DA684A18DB    ark:/67375/6H6-945TPDV9-D    10.1016/1054-139X(94)90497-Q    1054-139X(94)90497-Q    7811682
****     4.444-    A    95-0012606    Adolescent pregnancy and subsequent obesity in African-American girls    Journal of adolescent health    !    1054-139X    !    1994    15    6    194    494    SEGEL    J. S.    MCANARNEY, E. R.    E47E5C8C67C62B0DA70B1CEF5AED43DA684A18DB    ark:/67375/6H6-945TPDV9-D    10.1016/1054-139X(94)90497-Q    1054-139X(94)90497-Q    7811682

Comme dans la documentation du programme matchStan2Istex.pl, les champs vides sont signalés par un point d’exclamation.

Dans le cas de notices groupées où une notice décrit plusieurs articles, les doublons rejetés sont signalés en remplaçant la flèche en début de ligne ~~> par une flèche différente ::>, comme dans l’exemple suivant :

 ::>     485    490    Christoph U. Lehmann M.D.|Jane Barr M.D.|Patricia J. Kelly M.D.    Emergency department utilization by adolescents    AE3EBD19A57CFD17B92295681E1B0F2FD4D62FAB    ark:/67375/6H6-92BN6QVT-8    10.1016/1054-139X(94)90496-P    1054-139X(94)90496-P    7811681
 ::>     491    494    Jill S. Segel M.D.|Elizabeth R. McAnarney M.D.    Adolescent pregnancy and subsequent obesity in African-American girls    E47E5C8C67C62B0DA70B1CEF5AED43DA684A18DB    ark:/67375/6H6-945TPDV9-D    10.1016/1054-139X(94)90497-Q    1054-139X(94)90497-Q    7811682