explore-corpus / Niveau-3 / TXM /
@besagni besagni authored on 10 Jul 2018
..
Extraction_Corps_TEI.pl fourth commit 6 years ago
README.md Changement des droits 5 years ago
README.md

TXM

Script Perl développé pour générer des fichiers utilisables dans le logiciel de textométrie TXM.

A noter que TXM accepte également les données d’entrée utilisées pour Iramuteq (ce fait n'était pas identifié lors de l'exploration Niveau 1).

Il faut pour cela choisir le format d’entrée « Alceste » (Fichier > Importer > Alceste).

Programme

Extraction_Corps_TEI.pl

Ce programme extrait l’élément <body> des fichiers .tei pour ne cibler que le texte et le transposer dans un fichier .txt.

Il utilise le module twig pour manipuler le format .tei.

Syntaxe :

Perl Extraction\_Corps\_TEI.pl -i nom_du_fichier_tei -o nom_du_fichier_sortie

Données d'entrée :

Fichiers .tei extraits d'Istex.

Données de sortie :

Fichiers au format .txt