explore-corpus / Niveau-3 /
@sabine sabine authored on 7 Dec 2017
..
Iramuteq ajout ReadMed 6 years ago
TXM ajout ReadMe 6 years ago
README.md Update README.md 6 years ago
README.md

Niveau-3

L’exploration de Niveau 3 est destinée à évaluer la qualité d'un corpus en identifiant le bruit et le silence qu'il contient, par rapport à une ressource de référence.

  • Bruit : vérification de la présence d’au moins 1 nom d’espèce animale en latin dans chacun des documents. Seront donc considérés comme du bruit, les documents ne contenant aucun nom d'espèce, d'après la ressource servant de référence.
  • Silence : vérification de la représentation de tous les embranchements et de toutes les classes de la ressource chez les espèces trouvées dans le corpus.

Cette exploration sert également à tester la performance d'outils de textométrie pour réaliser cette tâche sur un corpus de volume plus important.

Corpus

Systématique animale v2 : 36 778 documents de zoologie répartis en 11 sous-corpus (arthropodes, batraciens, échinodermes, éponges, insectes, mammifères, mollusques, oiseaux, poissons, reptiles, vers).

Ressource de référence

Liste de 864 420 noms d'espèces animales extraits de la base de données Catalogue of Life avec les informations de classification par famille, ordre, classe, embranchement.

Outils et procédure

La combinaison entre les logiciels TXM et IRaMuTeQ telle qu'elle a été réalisée pour le Niveau 1 a été testée sur ce nouveau corpus mais n'a pas pu aboutir.

En effet, le volume des sous-corpus représente une limite forte pour l'utilisation de ces outils (le plus volumineux étant Poissons avec 10 251 documents).

Les fichiers d'entrée ont été tout de même créés, à l'aide des scripts présentés dans les répertoires correspondants, mais ceux générés pour TXM n'ont pas pu être chargés dans l'outil.

Pour aller jusqu'au bout de ce protocole d'exploration, nous avons finalement eu recours à l'outil d'extraction de formes figées IRC3.

La jonction entre les noms d'espèces détectés dans le corpus et la ressource de référence contenant les éléments de classification a été ensuite réalisée grâce à la fonction Shell Join.

Les comptages et l'identification de classes et embranchements manquants sont ensuite réalisés par des tableaux croisés dynamiques dans Calc.