Newer
Older
alignement-pascal-francis / 04-generation_tei / README.md
@besagni besagni on 10 Nov 2021 5 KB Renommage des répertoires

Génération de fichiers d’enrichissement TEI

Programme de génération de fichiers au format TEI pour la base Istex.

Le programme alignment2tei.pl permet, à partir des résultats dédoublonnés de l’alignement Pascal/Francis - Istex, de générer un fichier d’enrichissement au format TEI. Les fichiers ainsi générés peuvent être placés directement dans un système de répertoires à 4 niveaux pour pouvoir intégrer la base Istex.

Usage

    alignment2tei.pl -f (fichier|-) -a fichier_align -d date -v version [ -l log ]
                   [ -c répertoire_cc ] [ -r (0|1) ] [ -x ]
    alignment2tei.pl -h fichier_HFD -a fichier_align -d date -v version [ -l log ]
                   [ -c répertoire_cc ] [ -r (0|1) ] [ -x ]
    alignment2tei.pl -i

Options

    -a  indique le nom du fichier résultat de l’alignement (qui peut être un
        fichier compressé avec “gzip” ou “bzip2”)
    -c  indique le nom du répertoire contenant les tables de correspondance
        entre codes de classement Pascal ou Francis et verbalisation (“CC” par 
        défaut)
    -d  indique la date à laquelle a été fait l’alignement, en utilisant le format
        “aaaa-mm-jj” (par ex. “2020-09-28”)
    -f  indique le nom du fichier de notices Pascal/Francis (qui peut être un 
        fichier compressé avec “gzip” ou “bzip2”). Pour utiliser l’entrée standard, 
        mettre un tiret “-” comme argument
    -h  indique le nom du fichier HFD de notices Pascal/Francis servant d’entrée 
        au programme
    -i  affiche cette aide
    -l  indique le nom du fichier “log” recevant la liste des notices INIST
        appariées ainsi que les identifiants des documents ISTEX correspondants
    -r  crée l'organisation hiérarchique en 4 répertoires d’ISTEX si la valeur
        est 1 (valeur par défaut). Autrement, les fichiers sont créés dans le
        répertoire courant
    -v  indique le numéro de version du programme “matchStan2Istex.pl” utilisé
        pour réaliser l’alignement
    -x  accepte comme valides les appariements lorsque la valeur du score est
        suivie d’un point d’exclamation (“!”)

Description

Le programme lit le fichier de résultat de l'alignement, après correction (si nécessaire) et dédoublonnage, établit la liste des notices Inist et documents Istex appariés et, à partir des informations extraites des notices Inist, génère pour chaque document Istex un fichier XML au format TEI contenant des données identifiant la notice bibliographique et le document lui-même, ainsi que les codes de classement, avec leur verbalisation en français et en anglais pour chaque niveau hiérarchique du code en question, comme dans l’exemple suivant avec le code 001B30B80P :

  <keywords resp="#inist-cnrs" scheme="https://inist-category.data.istex.fr">
      <term key="001B" level="1" ref="https://inist-category.data.istex.fr/ark:/67375/RZL-8WV8N6BQ-7">
          <term>Physique</term>
      </term>
      <term key="001B30" level="2" ref="https://inist-category.data.istex.fr/ark:/67375/RZL-F41V3KVK-6">
          <term>Physique atomique et moléculaire</term>
      </term>
      <term key="001B30B" level="3">
          <term>Propriétés atomiques et interactions avec les photons</term>
      </term>
      <term key="001B30B80" level="4">
          <term>Interactions des photons avec les atomes</term>
      </term>
      <term key="001B30B80P" level="5">
          <term>Refroidissement optique d'atomes; piégeage</term>
      </term>
  </keywords>

On y trouve aussi les mots-clés extraits de la notice bibliographique, également en français et en anglais, avec pour certains descripteurs leur nature ou fonction, ou leur statut dans la base (i.e. candidat descripteur ou terme libre), comme dans l’exemple suivant :

  <term>
      <term>Lithium</term>
      <fs type="codes-inist">
          <f name="nature-fonction">
              <symbol value="NC" />
          </f>
          <f name="nature-fonction">
              <string>Cation</string>
          </f>
      </fs>
  </term>
  <term>
      <term>Constante Rydberg</term>
  </term>
  <term>
      <term>Spectrométrie microonde</term>
      <fs type="codes-inist">
          <f name="statut">
              <symbol value="CD" />
          </f>
          <f name="statut">
              <string>Candidat descripteur</string>
          </f>
      </fs>
  </term>

Pour verbaliser les codes de classement, le programme utilise plusieurs tables de correspondance, par défaut présentes dans le répertoire CC ou dans le répertoire défini par l’option -c. Ces tables contiennent :

  • la verbalisation en français et en anglais des différents codes Pascal ou Francis :
    • verbFrancisEn.txt
    • verbFrancisFr.txt
    • verbPascalEn.txt
    • verbPascalFr.txt
  • les équivalences entre codes pour avoir une verbalisation unique quelle que soit la date de production de la notice :
    • equivCCFrancis.txt
    • equivCCPascal.txt
  • la liste des liens vers l’application Lodex définissant les domaines scientifiques :
    • liensLodex.txt