Dédoublonnage de l’alignement Pascal-Francis / Istex =============== Programme de dédoublonnage des résultats de l’alignement. Le programme `weedTei.pl` permet de repérer les doublons dans l’ensemble des fichiers de résultats de l’alignement et de choisir une notice **Inist** avec un score maximal pour chaque document **Istex** apparié. ### Usage ```txt weedTei3.pl -f fichier[,fichier]* -r répertoire [ -l log ] [ -x ] weedTei3.pl -h ``` ### Options ```txt -f indique le nom du ou des fichiers d’entrée (qui peuvent être des fichiers compressés avec “gzip” ou “bzip2”). L’option est répétitive et il est possible d’indiquer plusieurs noms de fichier en les séparant par des virgules (mais sans espace entre eux). Si l’argument de l’option est un tiret “-”, alors la liste des fichiers (pas leur contenu) est lue sur l’entrée standard -h affiche cette aide -l indique le nom du fichier “log” contenant la liste des appariements supprimés -r indique le nom du répertoire où seront créés les fichiers de sortie portant le même nom que les fichiers d’entrée -x accepte comme valides les appariements lorsque la valeur du score est suivie d’un point d’exclamation (“!”) ``` ### Description Ce programme lit l'ensemble des fichiers de résultat de l’alignement, recherche les doublons avant de réécrire les fichiers dans un répertoire différent avec le même nom. Lorsqu’il y a un appariement en double, le programme choisit l'appariement avec le meilleur score et, en cas d’égalité, le premier traité. De ce fait, quand on compare un nouveau fichier aux anciens fichiers déjà dédoublonnés, il est préférable de faire passer les anciens fichiers en premier pour limiter les modifications dans ceux-ci. De la même façon, comme certaines notices de Pascal ont été reprises dans Francis, il est préférable de faire passer les fichiers Pascal en premier. Dans les fichiers créés, les doublons rejetés sont marqués par un signe moins “-” ajouté après le score. Dans l’exemple suivant, on a le résultat pour 2 notices dont l’une est conservée, l’autre rejetée : ```txt ***** 5.000 A 96-0127566 Adolescent pregnancy and subsequent obesity in african-american girls JOURNAL OF ADOLESCENT HEALTH ! ! ! 1994 15 6 491 494 SEGEL J.S. MCANARNEY, E.R. E47E5C8C67C62B0DA70B1CEF5AED43DA684A18DB ark:/67375/6H6-945TPDV9-D 10.1016/1054-139X(94)90497-Q 1054-139X(94)90497-Q 7811682 **** 4.444- A 95-0012606 Adolescent pregnancy and subsequent obesity in African-American girls Journal of adolescent health ! 1054-139X ! 1994 15 6 194 494 SEGEL J. S. MCANARNEY, E. R. E47E5C8C67C62B0DA70B1CEF5AED43DA684A18DB ark:/67375/6H6-945TPDV9-D 10.1016/1054-139X(94)90497-Q 1054-139X(94)90497-Q 7811682 ``` Comme dans la documentation du programme `matchStan2Istex.pl`, les champs vides sont signalés par un point d’exclamation. Dans le cas de notices groupées où une notice décrit plusieurs articles, les doublons rejetés sont signalés en remplaçant la flèche en début de ligne ` ~~> ` par une flèche différente ` ::> `, comme dans l’exemple suivant : ```txt ::> 485 490 Christoph U. Lehmann M.D.|Jane Barr M.D.|Patricia J. Kelly M.D. Emergency department utilization by adolescents AE3EBD19A57CFD17B92295681E1B0F2FD4D62FAB ark:/67375/6H6-92BN6QVT-8 10.1016/1054-139X(94)90496-P 1054-139X(94)90496-P 7811681 ::> 491 494 Jill S. Segel M.D.|Elizabeth R. McAnarney M.D. Adolescent pregnancy and subsequent obesity in African-American girls E47E5C8C67C62B0DA70B1CEF5AED43DA684A18DB ark:/67375/6H6-945TPDV9-D 10.1016/1054-139X(94)90497-Q 1054-139X(94)90497-Q 7811682 ```