Préparation des données d'import dans TXM
Création d'un fichier .txt contenant les textes à analyser et d'un fichier .csv contenant les métadonnées associées aux textes.
Programmes
- Extraction_Corps_TEI.pl : extrait l’élément
<body> des fichiers .tei pour ne cibler que le texte et le transposer dans un fichier .txt. Utilise le module twig pour manipuler le format .tei.
Syntaxe (à corriger)
Perl nom_du_script -i nom_du_fichier_WOS -o nom_du_fichier_sortie
- Metadata1.pl : constitue le fichier de métadonnées au format .csv pour le sous-corpus « Arthropode ». Ce fichier contient 4 variables : id, corpus, journal et année.
Syntaxe (à corriger)
Perl nom_du_script -i nom_du_fichier_métadonnée -o nom_du_fichier_sortie
- Metadata2.pl : constitue le fichier de métadonnées au format .csv pour l’ensemble du corpus « Systématique animale » v1. Comme ce corpus est trop volumineux pour être utilisé tel quel dans TXM, ce programme ajoute une variable supplémentaire, sous-corpus, qui permettra de réaliser une partition pour chacun des sous-corpus.
Syntaxe (à corriger)
Perl nom_du_script -d nom_du_répertoire -o nom_du_fichier_sortie
- Extraction_Infos_Depuis_wos.pl : programme décrit nulle part