TXM === Ensemble de scripts Perl développés pour générer des fichiers utilisables dans le logiciel de textométrie **[TXM](http://textometrie.ens-lyon.fr/files/software/TXM/0.7.8/)**. ## Programmes ### **Extraction\_Corps\_TEI.pl** Ce programme extrait l’élément `<body>` des fichiers .tei pour ne cibler que le texte et le transposer dans un fichier .txt. Il utilise le module twig pour manipuler le format .tei. #### Syntaxe : ``` Perl Extraction\_Corps\_TEI.pl -i nom_du_fichier_tei -o nom_du_fichier_sortie ``` #### Données d'entrée : Fichiers .tei extraits d'Istex. #### Données de sortie : Fichiers au format .txt ### **Metadata1.pl** Ce programme constitue le fichier de métadonnées au format .csv pour le sous-corpus « Arthropode » (volume : 171 documents) en l'organisant autour de 4 variables : id, corpus, journal et année. #### Syntaxe ``` Perl Metadata1.pl -i nom_du_fichier_métadonnée -o nom_du_fichier_sortie ``` #### Données d'entrée : Fichier de métadonnées généré par le programme [istex2wos](https://git.istex.fr/scodex/istex2wos) se présentant sous la forme suivante : ``` 1/171 NO : ISTEX 215705C88F5B577CA40741AF5CFD9B50DB7938F0 (corpus Degruyter-journals) TI : Ostracoda (Crustacea) association and a new species (Dolerocypris anatolia nov. sp.) from the Pliocene-Pleistocene Afşin-Elbistan (Kahraman Maraş) Coal Basin of Turkey AU : Cemal Tunoğlu ; Berk Besbelli ; İbrahim Ertekin AF : Department of Geological Engineering, Hacettepe University, 06800 Beytepe/Ankara, Turkey (1 aut., 3 aut.) ; General Directorate of Mineral Research and Exploration, 06520 Ankara, Turkey (2 aut.) DT : Journal ; Research-article SO : Geologica Carpathica ; ISSN 1335-0552 ; 2012 ; vol. 63 ; n° 2 ; p. 165-174 LA : Anglais AB : The Afşin-Elbistan Coal Basin, which is one of the largest and most important Pliocene-Pleistocene lignite basins of Turkey, is located in Eastern Anatolia. OD : Pliocene-Quaternary ; Anatolia ; Afşin-Elbistan ; coal basin ; Ostracoda LO : DOI 10.2478/v10096-012-0013-7 ``` #### Données de sortie : Fichier au format .csv se présentant sous la forme suivante : ``` "id","corpus","journal","annee" "Arthropodes_0002","Degruyter-journals","Geologica Carpathica","2012" "Arthropodes_0003","Degruyter-journals","Travaux du Muséum National d'Histoire Naturelle "Grigore Antipa"","2011" "Arthropodes_0004","Degruyter-journals","mammalia","2012" "Arthropodes_0005","Degruyter-journals","Biological Letters","2011" ``` ### **Metadata2.pl** : Ce programme constitue le fichier de métadonnées au format .csv pour l’ensemble du corpus « Systématique animale » v1. Comme ce corpus est trop volumineux pour être utilisé tel quel dans TXM, il ajoute une variable supplémentaire, "sous-corpus", qui permettra de réaliser une partition pour chacun des sous-corpus. #### Syntaxe ``` Perl Metadata2.pl -d nom_du_répertoire -o nom_du_fichier_sortie ``` ### **Extraction_Infos_Depuis_wos.pl** : Programme à décrire