diff --git a/Niveau-3/README.md b/Niveau-3/README.md new file mode 100755 index 0000000..3245f25 --- /dev/null +++ b/Niveau-3/README.md @@ -0,0 +1,29 @@ +Niveau-3 +======== + +L’exploration de corpus Niveau 3 est destinée à évaluer la qualité d'un corpus en identifiant le bruit et le silence dans un corpus de volume plus important, par rapport à une ressource de référence. Elle sert également à tester la performance d'outils de textométrie pour réaliser cette tâche. + +- Bruit : vérification de la présence d’au moins 1 nom d’espèce animale en latin dans chacun des documents. Seront donc considérés comme du bruit, les documents ne contenant aucun nom d'espèce, d'après la ressource servant de référence. +- Silence : vérification de la représentation de tous les embranchements et de toutes les classes de la ressource chez les espèces trouvées dans le corpus. + + +## Corpus + +**Systématique animale v2** : 36 778 documents de zoologie répartis en 11 sous-corpus (arthropodes, batraciens, échinodermes, épondes, insectes, mammifères, mollusques, oiseaux, poissons, reptiles, vers). + +## Ressource de référence + +Liste de **864 420** noms d'espèces animales extraits de la base de données **[Catalogue of Life](http://www.catalogueoflife.org/)** avec les informations de classification par famille, ordre, classe, embranchement. + +## Outils et procédure + +Le logiciel de textométrie **[TXM](http://textometrie.ens-lyon.fr/files/software/TXM/0.7.8/)** est utilisé pour réaliser des partitions du corpus et calculer la fréquence d'occurrence de noms ressemblant à des noms d'espèces et détectés à partir d'une expression régulière. + +Le logiciel d’analyse statistique **[IRaMuTeQ](http://iramuteq.org/)** est utilisé pour détecter dans le corpus la présence des noms d'espèces issus de la ressource de référence (sans les informations de classification). + +La jonction entre les noms d'espèces présents dans le corpus et les fréquences d'occurrence des noms ressemblant à des noms d'espèces est réalisée grâce à des tableaux croisés dynamiques dans **[Calc](https://www.openoffice.org/product/calc.html)**. + +Les documents ayant un nombre de noms d'espèces égal à 0 sont considérés comme du bruit. + +La jonction entre les noms d'espèces présents dans le corpus et la ressource de référence contenant les éléments de classification est réalisée grâce à la fonction Shell Join. Les comptages et l'identification de classes et embranchements manquants sont ensuite réalisés par des tableaux croisés dynamiques dans **[Calc](https://www.openoffice.org/product/calc.html)**. +