.. | |||
Extraction_Corps_TEI.pl | 6 years ago | ||
README.md | 6 years ago |
Script Perl développé pour générer des fichiers utilisables dans le logiciel de textométrie TXM.
A noter que TXM accepte également les données d’entrée utilisées pour Iramuteq (ce fait n'était pas identifié lors de l'exploration Niveau 1).
Il faut pour cela choisir le format d’entrée « Alceste » (Fichier > Importer > Alceste).
Ce programme extrait l’élément <body>
des fichiers .tei pour ne cibler que le texte et le transposer dans un fichier .txt.
Il utilise le module twig pour manipuler le format .tei.
Perl Extraction\_Corps\_TEI.pl -i nom_du_fichier_tei -o nom_du_fichier_sortie
Fichiers .tei extraits d'Istex.
Fichiers au format .txt