L’exploration de corpus Niveau 3 est destinée à évaluer la qualité d'un corpus en identifiant le bruit et le silence dans un corpus de volume plus important, par rapport à une ressource de référence. Elle sert également à tester la performance d'outils de textométrie pour réaliser cette tâche.
Systématique animale v2 : 36 778 documents de zoologie répartis en 11 sous-corpus (arthropodes, batraciens, échinodermes, épondes, insectes, mammifères, mollusques, oiseaux, poissons, reptiles, vers).
Liste de 864 420 noms d'espèces animales extraits de la base de données Catalogue of Life avec les informations de classification par famille, ordre, classe, embranchement.
Le logiciel de textométrie TXM est utilisé pour réaliser des partitions du corpus et calculer la fréquence d'occurrence de noms ressemblant à des noms d'espèces et détectés à partir d'une expression régulière.
Le logiciel d’analyse statistique IRaMuTeQ est utilisé pour détecter dans le corpus la présence des noms d'espèces issus de la ressource de référence (sans les informations de classification).
La jonction entre les noms d'espèces présents dans le corpus et les fréquences d'occurrence des noms ressemblant à des noms d'espèces est réalisée grâce à des tableaux croisés dynamiques dans Calc.
Les documents ayant un nombre de noms d'espèces égal à 0 sont considérés comme du bruit.
La jonction entre les noms d'espèces présents dans le corpus et la ressource de référence contenant les éléments de classification est réalisée grâce à la fonction Shell Join. Les comptages et l'identification de classes et embranchements manquants sont ensuite réalisés par des tableaux croisés dynamiques dans Calc.