Niveau-3

L’exploration de corpus Niveau 3 est destinée à évaluer la qualité d'un corpus en identifiant le bruit et le silence dans un corpus de volume plus important, par rapport à une ressource de référence. Elle sert également à tester la performance d'outils de textométrie pour réaliser cette tâche.

Bruit : vérification de la présence d’au moins 1 nom d’espèce animale en latin dans chacun des documents. Seront donc considérés comme du bruit, les documents ne contenant aucun nom d'espèce, d'après la ressource servant de référence.
Silence : vérification de la représentation de tous les embranchements et de toutes les classes de la ressource chez les espèces trouvées dans le corpus.

Corpus

Systématique animale v2 : 36 778 documents de zoologie répartis en 11 sous-corpus (arthropodes, batraciens, échinodermes, épondes, insectes, mammifères, mollusques, oiseaux, poissons, reptiles, vers).

Ressource de référence

Liste de 864 420 noms d'espèces animales extraits de la base de données Catalogue of Life avec les informations de classification par famille, ordre, classe, embranchement.

Outils et procédure

Le logiciel de textométrie TXM est utilisé pour réaliser des partitions du corpus et calculer la fréquence d'occurrence de noms ressemblant à des noms d'espèces et détectés à partir d'une expression régulière.

Le logiciel d’analyse statistique IRaMuTeQ est utilisé pour détecter dans le corpus la présence des noms d'espèces issus de la ressource de référence (sans les informations de classification).

La jonction entre les noms d'espèces présents dans le corpus et les fréquences d'occurrence des noms ressemblant à des noms d'espèces est réalisée grâce à des tableaux croisés dynamiques dans Calc.

Les documents ayant un nombre de noms d'espèces égal à 0 sont considérés comme du bruit.

La jonction entre les noms d'espèces présents dans le corpus et la ressource de référence contenant les éléments de classification est réalisée grâce à la fonction Shell Join. Les comptages et l'identification de classes et embranchements manquants sont ensuite réalisés par des tableaux croisés dynamiques dans Calc.