Newer
Older
alignement-pascal-francis / dedoublonnage / README.md
@besagni besagni on 8 Nov 2021 3 KB Première version des README.md
Dédoublonnage de l’alignement Pascal-Francis / Istex
===============

Programme de dédoublonnage des résultats de l’alignement. 

Le programme `weedTei.pl` permet de repérer les doublons dans l’ensemble des fichiers de résultats de l’alignement et de choisir une notice **Inist** avec un score maximal pour chaque document **Istex** apparié. 


### Usage

```txt
    weedTei3.pl -f fichier[,fichier]* -r répertoire [ -l log ] [ -x ]
    weedTei3.pl -h
```

### Options

```txt
    -f  indique le nom du ou des fichiers d’entrée (qui peuvent être des fichiers
        compressés avec “gzip” ou “bzip2”). L’option est répétitive et il est possible
        d’indiquer plusieurs noms de fichier en les séparant par des virgules (mais
        sans espace entre eux). Si l’argument de l’option est un tiret “-”, alors la
        liste des fichiers (pas leur contenu) est lue sur l’entrée standard
    -h  affiche cette aide
    -l  indique le nom du fichier “log” contenant la liste des appariements
        supprimés
    -r  indique le nom du répertoire où seront créés les fichiers de sortie
        portant le même nom que les fichiers d’entrée
    -x  accepte comme valides les appariements lorsque la valeur du score est
        suivie d’un point d’exclamation (“!”)
```


### Description

Ce programme lit l'ensemble des fichiers de résultat de l’alignement, recherche les doublons avant de réécrire les fichiers dans un répertoire différent avec le même nom. Lorsqu’il y a un appariement en double, le programme choisit l'appariement avec le meilleur score et, en cas d’égalité, le premier traité. De ce fait, quand on compare un nouveau fichier aux anciens fichiers déjà dédoublonnés, il est préférable de faire passer les anciens fichiers en premier pour limiter les modifications dans ceux-ci. De la même façon, comme certaines notices de Pascal ont été reprises dans Francis, il est préférable de faire passer les fichiers Pascal en premier. 
Dans les fichiers créés, les doublons rejetés sont marqués par un signe moins “-” ajouté après le score. Dans l’exemple suivant, on a le résultat pour 2 notices dont l’une est conservée, l’autre rejetée : 

```txt
*****	5.000	A	96-0127566	Adolescent pregnancy and subsequent obesity in african-american girls	JOURNAL OF ADOLESCENT HEALTH	!	!	!	1994	15	6	491	494	SEGEL	J.S.	MCANARNEY, E.R.	E47E5C8C67C62B0DA70B1CEF5AED43DA684A18DB	ark:/67375/6H6-945TPDV9-D	10.1016/1054-139X(94)90497-Q	1054-139X(94)90497-Q	7811682
**** 	4.444-	A	95-0012606	Adolescent pregnancy and subsequent obesity in African-American girls	Journal of adolescent health	!	1054-139X	!	1994	15	6	194	494	SEGEL	J. S.	MCANARNEY, E. R.	E47E5C8C67C62B0DA70B1CEF5AED43DA684A18DB	ark:/67375/6H6-945TPDV9-D	10.1016/1054-139X(94)90497-Q	1054-139X(94)90497-Q	7811682
```
Comme dans la documentation du programme `matchStan2Istex.pl`, les champs vides sont signalés par un point d’exclamation. 

Dans le cas de notices groupées où une notice décrit plusieurs articles, les doublons rejetés sont signalés en remplaçant la flèche en début de ligne ` ~~> ` par une flèche différente ` ::> `, comme dans l’exemple suivant : 

```txt
 ::> 	485	490	Christoph U. Lehmann M.D.|Jane Barr M.D.|Patricia J. Kelly M.D.	Emergency department utilization by adolescents	AE3EBD19A57CFD17B92295681E1B0F2FD4D62FAB	ark:/67375/6H6-92BN6QVT-8	10.1016/1054-139X(94)90496-P	1054-139X(94)90496-P	7811681
 ::> 	491	494	Jill S. Segel M.D.|Elizabeth R. McAnarney M.D.	Adolescent pregnancy and subsequent obesity in African-American girls	E47E5C8C67C62B0DA70B1CEF5AED43DA684A18DB	ark:/67375/6H6-945TPDV9-D	10.1016/1054-139X(94)90497-Q	1054-139X(94)90497-Q	7811682
```