diff --git a/README.md b/README.md index 9adb525..d93ce3d 100644 --- a/README.md +++ b/README.md @@ -228,6 +228,14 @@ docker build -t istex/corpus . ``` +En plus du script `harvestCorpus.pl`, l’image Docker ainsi construite contient les csripts : + +* extraitXmlEditeur.pl : extraction des fichiers XML éditeurs depuis les fichiers ZIP téléchargés +* ligature.pl : remplacement des ligatures dans les fichiers textes (notamment ceux issus de PDF) +* statsCorpus.pl : statistiques descriptives sur les corpus ISTEX extraits par `harvestCorpus.pl` + +À noter que les programmes dans cette image Docker, comme défini dans le fichier “**Dockerfile**”, n'ont pas d’extension `.pl`. + Dans l’exemple suivant, on utilise `harvestCorpus.pl` à partir de son image Docker dans le cas où on veut télécharger des métadonnées à l’aide d’un fichier `.corpus` en supposant que : * l’utilisateur à l’identifiant (ou [UID](https://fr.wikipedia.org/wiki/User_identifier)) 1002 @@ -240,4 +248,3 @@ docker run --rm -u 1002:400 -v `pwd`:/tmp istex/corpus harvestCorpus -c exemple.corpus -m json,mods -d Metadata ``` -À noter que les programmes dans cette image Docker, comme défini dans le fichier “**Dockerfile**”, n'ont pas d’extension `.pl`.