Newer
Older
alignement-pascal-francis / alignement / README.md
@besagni besagni on 12 Oct 2021 2 KB Premier commit

Alignement Pascal-Francis / Istex

Programmes d’alignement des notices bibliographiques Inist avec les documents Istex

Ce programme permet d’aligner les bases bibliographiques Pascal et Francis de l’Inist avec la base Istex, c’est-à-dire retrouver dans la base Istex les documents correspondants aux notices bibliographiques des base Pascal ou Francis.

À noter que si ce programme est utilisé à l'Inist, il est recommandé d’éviter de passer par le proxy. Pour cela, il faut supprimer les variables globales le définissant, ce qui se fait avec la commande unset http_proxy https_proxy no_proxy. Vérifiez également avec la commande env si ces mêmes variables n'existent pas en majuscule. Auquel cas, supprimez les avec la commandeunset HTTP_PROXY HTTPS_PROXY NO_PROXY.

Prérequis

Le programme matchStan2Istex.pl fonctionne sous Unix/Linux ainsi qu’avec Cygwin sous Windows. Il utilise plusieurs modules qui ne sont pas tous dans la distribution standard de Perl. Les modules qu’on peut être amené à installer sont :

  • HTML::Entities
  • HTTP::CookieJar::LWP
  • JSON
  • LWP::userAgent
  • Number::Convert::Roman
  • Text::Unidecode
  • URI::Encode

Usage

    matchStan2Istex.pl -f (fichier|-) [ -d ] [ -v nombre ] [ -r id ]
                       [ -n notices ] [ -c corpus[,corpus]* ]*
    matchStan2Istex.pl -h fichier_HFD [ -d ] [ -v nombre ] [ -r id ]
                       [ -n notices ] [ -c corpus[,corpus]* ]*
    matchStan2Istex.pl -i

Options

    -c  indique le nom du ou des corpus de la base Istex à interroger (on peut soit répéter
        cette option, soit mettre tous les noms de corpus séparés par des virgules, mais sans
        espace)
    -d  active le mode “débogage”
    -f  indique le nom du fichier d’entrée (qui peut être un fichier compressé avec “gzip” ou
        “bzip2”). Pour utiliser l’entrée standard, mettre un tiret “-”
        comme argument
    -h  indique le nom du fichier HFD servant d’entrée au programme
    -i  affiche cette aide.
    -n  indique le nom du fichier contenant les notices Pascal ou Francis modifiées parce
        que les notices originales provoquaient une erreur de syntaxe dans la requête à l’API
        ISTEX (N.B. : l’absence du fichier indiqué n’entraîne pas l’arrêt du programme)
    -r  indique le numéro de la dernière notice Pascal ou Francis traitée précédemment, pour
        permettre la reprise de l’alignement si celui-ci a été prématurément arrêté
    -v  permet de suivre la progression du traitement en affichant sur la sortie erreur l’heure
        de début, l’heure de fin et l’heure chaque fois qu’un lot de notices, correspondant au
        nombre de notices donné en argument, a été traité

Formats d’entrée et de sortie