explore-corpus / Niveau-1 /
@sabine sabine authored on 6 Dec 2017
..
Iramuteq Information complémentaire 6 years ago
TXM Update README.md 6 years ago
README.md Update README.md 6 years ago
README.md

Niveau-1

L’exploration de corpus Niveau 1 est destinée à repérer le bruit dans un corpus de faible volume à l’aide d’outils de textométrie. Elle a pour objectif de vérifier la présence d’au moins 1 nom d’espèce animale en latin dans chacun des documents. Seront donc considérés comme du bruit, les documents ne contenant aucun nom d'espèce, d'après la ressource servant de référence.

Corpus

Systématique animale v1 : 1 080 documents de zoologie répartis en 11 sous-corpus (arthropodes, batraciens, échinodermes, éponges, insectes, mammifères, mollusques, oiseaux, poissons, reptiles, vers).

Ressource de référence

Liste de 306 574 noms d'espèces animales extraits de la base de données Catalogue of Life.

Outils et procédure

Le logiciel de textométrie TXM est utilisé pour réaliser des partitions du corpus et calculer la fréquence d'occurrence de noms ressemblant à des noms d'espèces et détectés à partir d'une expression régulière.

Le logiciel d’analyse statistique IRaMuTeQ est utilisé pour détecter dans le corpus la présence des noms d'espèces issus de la ressource de référence.

La jonction entre les noms d'espèces présents dans le corpus et les fréquences d'occurrence des noms ressemblant à des noms d'espèces est réalisée grâce à des tableaux croisés dynamiques dans Calc.

Les documents ayant un nombre de noms d'espèces égal à 0 sont considérés comme du bruit.