Newer
Older
explore-corpus / Niveau-1 / TXM / README.md
@sabine sabine on 7 Dec 2017 2 KB Update README.md
TXM
===

Ensemble de scripts Perl développés pour générer des fichiers utilisables dans le logiciel de textométrie **[TXM](http://textometrie.ens-lyon.fr/files/software/TXM/0.7.8/)**.

## Programmes

### **Extraction\_Corps\_TEI.pl** 

Extrait l’élément `<body>` des fichiers .tei pour ne cibler que le texte et le transposer dans un fichier .txt. Utilise le module twig pour manipuler le format .tei.

#### Syntaxe :

```
Perl Extraction\_Corps\_TEI.pl -i nom_du_fichier_tei -o nom_du_fichier_sortie
```

#### Données d'entrée :

Fichiers .tei extraits d'Istex.

#### Données de sortie :

Fichiers au format .txt

### **Metadata1.pl** 

Constitue le fichier de métadonnées au format .csv pour le sous-corpus « Arthropode » (volume : 171 documents). Ce fichier contient 4 variables : id, corpus, journal et année.

#### Syntaxe

```
Perl Metadata1.pl -i nom_du_fichier_métadonnée -o nom_du_fichier_sortie
```

#### Données d'entrée :

Fichier de métadonnées généré par le programme [istex2wos](https://git.istex.fr/scodex/istex2wos).

Il se présente sous la forme suivante :

```
1/171
NO : ISTEX 215705C88F5B577CA40741AF5CFD9B50DB7938F0 (corpus Degruyter-journals)
TI : Ostracoda (Crustacea) association and a new species (Dolerocypris anatolia nov. sp.) from the Pliocene-Pleistocene Afşin-Elbistan 
     (Kahraman Maraş) Coal Basin of Turkey 
AU : Cemal Tunoğlu ; Berk Besbelli ; İbrahim Ertekin
AF : Department of Geological Engineering, Hacettepe University, 06800 
     Beytepe/Ankara, Turkey (1 aut., 3 aut.) ; General Directorate of Mineral 
     Research and Exploration, 06520 Ankara, Turkey (2 aut.)
DT : Journal ; Research-article
SO : Geologica Carpathica ; ISSN 1335-0552 ; 2012 ; vol. 63 ; n° 2 ; p. 165-174
LA : Anglais
AB : The Afşin-Elbistan Coal Basin, which is one of the largest and most 
     important Pliocene-Pleistocene lignite basins of Turkey, is located in 
     Eastern Anatolia. 
OD : Pliocene-Quaternary ; Anatolia ; Afşin-Elbistan ; coal basin ; Ostracoda
LO : DOI 10.2478/v10096-012-0013-7
```

#### Données de sortie :
Fichier au format .csv.

### **Metadata2.pl** : 

Constitue le fichier de métadonnées au format .csv pour l’ensemble du corpus « Systématique animale » v1. 

Comme ce corpus est trop volumineux pour être utilisé tel quel dans TXM, ce programme ajoute une variable supplémentaire, sous-corpus, qui permettra de réaliser une partition pour chacun des sous-corpus.

#### Syntaxe (à corriger) 

```
Perl nom_du_script -d nom_du_répertoire -o nom_du_fichier_sortie
```

### **Extraction_Infos_Depuis_wos.pl** : 

Programme à décrire