Script Perl pour calculer les offsets des entités nommées annotées dans le fichier original non annoté

besagni authored on 14 Aug 2020
README.md Premier dépôt, version 0.6.2 1 year ago
calculeOffsetsEN.pl Premier dépôt, version 0.6.2 1 year ago
README.md

calcule-offsets

Calculer des offsets des entités nommées

Permet de générer un fichier JSON avec les offsets des entités nommées dans le fichier en entrée en utilisant un fichier où ces entitées ont été balisées.

Prérequis

Le programme calculeOffsetsEN.pl fonctionne sous Unix/Linux ainsi qu’avec Cygwin sous Windows. Il utilise plusieurs modules dont la plupart sont présents dans la distribution standard de Perl. Normalement, les seuls modules à installer sont :

  • Digest::MD5
  • XML::TokeParser
  • XML::Twig

Usage

    calculeOffsetsEN.pl -i input_file -e entities_file -o output_file
                        [ -n new_input_file ] [ -d ]
    calculeOffsetsEN.pl -h

Options

    -d  active le mode “débogage”
    -e  indique le nom du fichier au format TEI où les entitées nommées 
        sont balisées
    -h  affiche cette aide.
    -i  indique le nom du fichier d’entrée, au format TEI, qui doit être 
        le fichier présent sur le serveur Istex
    -n  crée un nouveau fichier d’entrée, identique à celui indiqué par 
        l’option “-i”, mais où les entitées nommées sont balisées
    -o  indique le nom du fichier de sortie,  au format JSON, avec les 
        offsets des entitées nommées