| .. | |||
| README.md | 4 years ago | ||
| alignment2tei.pl | 4 years ago | ||
Programme de génération de fichiers au format TEI pour la base Istex.
Le programme alignment2tei.pl permet, à partir des résultats dédoublonnés de l’alignement Pascal/Francis - Istex, de générer un fichier d’enrichissement au format TEI. Les fichiers ainsi générés peuvent être placés directement dans un système de répertoires à 4 niveaux pour pouvoir intégrer la base Istex.
alignment2tei.pl -f (fichier|-) -a fichier_align -d date -v version [ -l log ]
[ -c répertoire_cc ] [ -r (0|1) ] [ -x ]
alignment2tei.pl -h fichier_HFD -a fichier_align -d date -v version [ -l log ]
[ -c répertoire_cc ] [ -r (0|1) ] [ -x ]
alignment2tei.pl -i
-a indique le nom du fichier résultat de l’alignement (qui peut être un
fichier compressé avec “gzip” ou “bzip2”)
-c indique le nom du répertoire contenant les tables de correspondance
entre codes de classement Pascal ou Francis et verbalisation (“CC” par
défaut)
-d indique la date à laquelle a été fait l’alignement, en utilisant le format
“aaaa-mm-jj” (par ex. “2020-09-28”)
-f indique le nom du fichier de notices Pascal/Francis (qui peut être un
fichier compressé avec “gzip” ou “bzip2”). Pour utiliser l’entrée standard,
mettre un tiret “-” comme argument
-h indique le nom du fichier HFD de notices Pascal/Francis servant d’entrée
au programme
-i affiche cette aide
-l indique le nom du fichier “log” recevant la liste des notices INIST
appariées ainsi que les identifiants des documents ISTEX correspondants
-r crée l'organisation hiérarchique en 4 répertoires d’ISTEX si la valeur
est 1 (valeur par défaut). Autrement, les fichiers sont créés dans le
répertoire courant
-v indique le numéro de version du programme “matchStan2Istex.pl” utilisé
pour réaliser l’alignement
-x accepte comme valides les appariements lorsque la valeur du score est
suivie d’un point d’exclamation (“!”)
Le programme lit le fichier de résultat de l'alignement, après correction (si nécessaire) et dédoublonnage, établit la liste des notices Inist et documents Istex appariés et, à partir des informations extraites des notices Inist, génère pour chaque document Istex un fichier XML au format TEI contenant des données identifiant la notice bibliographique et le document lui-même, ainsi que les codes de classement, avec leur verbalisation en français et en anglais pour chaque niveau hiérarchique du code en question, comme dans l’exemple suivant avec le code 001B30B80P :
<keywords resp="#inist-cnrs" scheme="https://inist-category.data.istex.fr">
<term key="001B" level="1" ref="https://inist-category.data.istex.fr/ark:/67375/RZL-8WV8N6BQ-7">
<term>Physique</term>
</term>
<term key="001B30" level="2" ref="https://inist-category.data.istex.fr/ark:/67375/RZL-F41V3KVK-6">
<term>Physique atomique et moléculaire</term>
</term>
<term key="001B30B" level="3">
<term>Propriétés atomiques et interactions avec les photons</term>
</term>
<term key="001B30B80" level="4">
<term>Interactions des photons avec les atomes</term>
</term>
<term key="001B30B80P" level="5">
<term>Refroidissement optique d'atomes; piégeage</term>
</term>
</keywords>
On y trouve aussi les mots-clés extraits de la notice bibliographique, également en français et en anglais, avec pour certains descripteurs leur nature ou fonction, ou leur statut dans la base (i.e. candidat descripteur ou terme libre), comme dans l’exemple suivant :
<term>
<term>Lithium</term>
<fs type="codes-inist">
<f name="nature-fonction">
<symbol value="NC" />
</f>
<f name="nature-fonction">
<string>Cation</string>
</f>
</fs>
</term>
<term>
<term>Constante Rydberg</term>
</term>
<term>
<term>Spectrométrie microonde</term>
<fs type="codes-inist">
<f name="statut">
<symbol value="CD" />
</f>
<f name="statut">
<string>Candidat descripteur</string>
</f>
</fs>
</term>
Pour verbaliser les codes de classement, le programme utilise plusieurs tables de correspondance, par défaut présentes dans le répertoire CC ou dans le répertoire défini par l’option -c. Ces tables contiennent :
verbFrancisEn.txtverbFrancisFr.txtverbPascalEn.txtverbPascalFr.txtequivCCFrancis.txtequivCCPascal.txtliensLodex.txt