Newer
Older
explore-corpus / Niveau-3 / TXM / README.md
@besagni besagni on 10 Jul 2018 878 bytes Changement des droits

TXM

Script Perl développé pour générer des fichiers utilisables dans le logiciel de textométrie TXM.

A noter que TXM accepte également les données d’entrée utilisées pour Iramuteq (ce fait n'était pas identifié lors de l'exploration Niveau 1).

Il faut pour cela choisir le format d’entrée « Alceste » (Fichier > Importer > Alceste).

Programme

Extraction_Corps_TEI.pl

Ce programme extrait l’élément <body> des fichiers .tei pour ne cibler que le texte et le transposer dans un fichier .txt.

Il utilise le module twig pour manipuler le format .tei.

Syntaxe :

Perl Extraction\_Corps\_TEI.pl -i nom_du_fichier_tei -o nom_du_fichier_sortie

Données d'entrée :

Fichiers .tei extraits d'Istex.

Données de sortie :

Fichiers au format .txt