explore-corpus/Niveau-1/TXM/README.md at 73357fbda0f57e00178e488c6ef07531bc24ee86

Fork: 0

scodex / explore-corpus

Find file

Newer

Older

explore-corpus / Niveau-1 / TXM / README.md

sabine on 1 Dec 2017 1 KB Update README.md

Raw Blame History

TXM
===

Ensemble de scripts Perl développés pour générer des fichiers utilisables dans le logiciel de textométrie **[TXM](http://textometrie.ens-lyon.fr/files/software/TXM/0.7.8/)**.

## Programmes

### **Extraction\_Corps\_TEI.pl** : 

Extrait l’élément `<body>` des fichiers .tei pour ne cibler que le texte et le transposer dans un fichier .txt. Utilise le module twig pour manipuler le format .tei.

#### Syntaxe (à corriger) 

```
Perl nom_du_script -i nom_du_fichier_WOS -o nom_du_fichier_sortie
```

### **Metadata1.pl** : 

Constitue le fichier de métadonnées au format .csv pour le sous-corpus « Arthropode ». Ce fichier contient 4 variables : id, corpus, journal et année.

#### Syntaxe (à corriger)

```
Perl nom_du_script -i nom_du_fichier_métadonnée -o nom_du_fichier_sortie
```

### **Metadata2.pl** : 

Constitue le fichier de métadonnées au format .csv pour l’ensemble du corpus « Systématique animale » v1. 

Comme ce corpus est trop volumineux pour être utilisé tel quel dans TXM, ce programme ajoute une variable supplémentaire, sous-corpus, qui permettra de réaliser une partition pour chacun des sous-corpus.

#### Syntaxe (à corriger) 

```
Perl nom_du_script -d nom_du_répertoire -o nom_du_fichier_sortie
```

### **Extraction_Infos_Depuis_wos.pl** : 

Programme à décrire