explore-corpus / Niveau-1 /
@sabine sabine authored on 1 Dec 2017
..
Iramuteq Retour à la version précédente 6 years ago
TXM Update README.md 6 years ago
README.md Update README.md 6 years ago
README.md

Niveau-1

Détection du bruit dans un corpus à partir d'une ressource de référence.

Sont considérés comme du bruit, les documents ne contenant aucun nom issu de la ressource.

Corpus

Systématique animale v1 : 1 080 documents de zoologie répartis en 11 sous-corpus (arthropodes, batraciens, échinodermes, épondes, insectes, mammifères, mollusques, oiseaux, possons, reptiles, vers).

Ressource de référence

Liste de 306 574 noms d'espèces animales extraits de la base de données Catalogue of Life.

Outils et procédure

Le logiciel de textométrie TXM est utilisé pour réaliser des partitions du corpus et calculer la fréquence d'occurrence de noms ressemblant à des noms d'espèces et détectés à partir d'une expression régulière.

Le logiciel d’analyse statistique IRaMuTeQ est utilisé pour détecter dans le corpus la présence des noms d'espèces issus de la ressource de référence.

La jonction entre les noms d'espèces présents dans le corpus et les fréquences d'occurrence des noms ressemblant à des noms d'espèces est réalisée grâce à des tableaux croisés dynamiques dans Calc.

Les documents ayant un nombre de noms d'espèces égal à 0 sont considérés comme du bruit.