explore-corpus / Niveau-1 / TXM /
@sabine sabine authored on 1 Dec 2017
..
Extraction_Corps_TEI.pl second commit 6 years ago
Extraction_Infos_Depuis_wos.pl 6commits 6 years ago
Metadata1.pl 6commits 6 years ago
Metadata2.pl 6commits 6 years ago
README.md Update README.md 6 years ago
README.md

TXM

Ensemble de scripts Perl développés pour générer des fichiers utilisables dans le logiciel de textométrie TXM.

Programmes

Extraction_Corps_TEI.pl :

Extrait l’élément <body> des fichiers .tei pour ne cibler que le texte et le transposer dans un fichier .txt. Utilise le module twig pour manipuler le format .tei.

Syntaxe (à corriger)

Perl nom_du_script -i nom_du_fichier_WOS -o nom_du_fichier_sortie

Metadata1.pl :

Constitue le fichier de métadonnées au format .csv pour le sous-corpus « Arthropode ». Ce fichier contient 4 variables : id, corpus, journal et année.

Syntaxe (à corriger)

Perl nom_du_script -i nom_du_fichier_métadonnée -o nom_du_fichier_sortie

Metadata2.pl :

Constitue le fichier de métadonnées au format .csv pour l’ensemble du corpus « Systématique animale » v1.

Comme ce corpus est trop volumineux pour être utilisé tel quel dans TXM, ce programme ajoute une variable supplémentaire, sous-corpus, qui permettra de réaliser une partition pour chacun des sous-corpus.

Syntaxe (à corriger)

Perl nom_du_script -d nom_du_répertoire -o nom_du_fichier_sortie

Extraction_Infos_Depuis_wos.pl :

Programme à décrire