Newer
Older
explore-corpus / Niveau-2 / Vieillissement_V2 / Iramuteq / README.md
@U-ADS\barreaux U-ADS\barreaux on 6 Dec 2017 2 KB ajout ReadMe

pIRaMuTeQ

Scripts Perl développés par Panpan Hu pour générer des fichiers utilisables par le logiciel d’analyse statistique IRaMuTeQ.

Pour ce corpus, les données sont organisées de manière différente. Le nom de la revue utilisé comme variable n’apparaît plus dans le nom du fichier comme c'était le cas dans le corpus Vieillissement v1. Il faut aller le rechercher dans le fichier de métadonnées WoS généré pour le Niveau 0 dans lequel il est associé à un identifiant Istex. Pour ensuite savoir à quel nom de fichier correspond quel identifiant Istex, il faut interroger le fichier .corpus généré par le programme harvestCorpus.

Correspondance_Identifient_Istex_NomRevue.pl :

Récupère les correspondances entre identifiants Istex et nom de revue dans le fichier au format WoS.

Syntaxe

perl Correspondance_Identifient_Istex_NomRevue.pl -d nom_du_fichier_WoS -s nom_du_fichier_sortie

La mise en correspondance entre le nom du fichier et l'identifiant Istex dans fichier .corpus et entre identifiant Istex et nom de revue dans le fichier au format WoS est ensuite réalisée par Excel (fonction RECHERCHEV()).

Préparation_Données_entrée.pl :

Concatène les fichiers TXT du répertoire de données source en ajoutant le nom de la revue comme variable pour chaque fichier.

**** *souscorpus_1 
texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte
texte texte
**** *souscorpus_2 
texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte

Syntaxe

Afin de lancer ce script ci-dessus, déplacez-le au même niveau que le répertoire contenant des articles à traiter, le fichier contenant des noms de revue et le fichier contenant des ID des articles.

Ensuite, lancez la ligne de commande via un terminal :

perl Préparation_Données_entrée.pl -r nom_du_répertoire -j nom_fichier_revue -i nom_fichier_ID -s nom_du_fichier_sortie