Newer
Older
harvest-corpus / outils / README.md
@besagni besagni on 13 Dec 2017 1 KB Simple correction
Outils
===============

Ensemble d’outils destinés aux corpus ISTEX  et autres fichiers extraits par **harvestCorpus.pl**.

### extrait-xml-éditeur

Outil qui permet d'extraire le fichier XML éditeur d’une archive ZIP et de le renommer pour lui donner la même racine que le document auquel il fait référence. Il travaille sur un fichier ou sur un répertoire de fichiers “.zip”. 

### ligature

Outil qui permet de rechercher et remplacer dans un fichier ou un répertoire de fichiers une ligature, c’est-à-dire la fusion de deux ou trois caractères en un caractère unique, par la séquence de caractères correspondants. 

#### Liste des ligatures traitées
```
    Ligature	Équivalent		Code hexadécimal
      ff				ff				 FB00
      fi				fi				 FB01
      fl				fl				 FB02
      ffi				ffi				FB03
      ffl				ffl				FB04
```

### stats-corpus

Outil de statistiques descriptives sur les corpus ISTEX extraits. 

### stats-revues

Outil de statistiques descriptives sur les revues contenues dans un corpus extrait d’ISTEX.