diff --git a/Niveau-1/README.md b/Niveau-1/README.md index 77c3054..e87cb9d 100644 --- a/Niveau-1/README.md +++ b/Niveau-1/README.md @@ -1,14 +1,24 @@ Niveau-1 ======== -Détection du bruit à partir d'une ressource de référence. +Détection du bruit dans un corpus à partir d'une ressource de référence. Sont considérés comme du bruit, les documents ne contenant aucun nom issu de la ressource. -**Corpus** +## Corpus -*Systématique animale v1* : 1 080 documents de zoologie répartis en 11 sous-corpus (arthropodes, batraciens, échinodermes, épondes, insectes, mammifères, mollusques, oiseaux, possons, reptiles, vers) +**Systématique animale v1** : 1 080 documents de zoologie répartis en 11 sous-corpus (arthropodes, batraciens, échinodermes, épondes, insectes, mammifères, mollusques, oiseaux, possons, reptiles, vers). -**Ressource de référence** +## Ressource de référence -Liste de 306 574 noms d'espèces animales extraits de la base de données **[Catalogue of Life](http://www.catalogueoflife.org/)** +Liste de **306 574** noms d'espèces animales extraits de la base de données **[Catalogue of Life](http://www.catalogueoflife.org/)**. + +## Outils et procédure + +Le logiciel de textométrie **[TXM](http://textometrie.ens-lyon.fr/files/software/TXM/0.7.8/)** est utilisé pour réaliser des partitions du corpus et calculer la fréquence d'occurrence de noms ressemblant à des noms d'espèces et détectés à partir d'une expression régulière. + +Le logiciel d’analyse statistique **[IRaMuTeQ](http://iramuteq.org/)** est utilisé pour détecter dans le corpus la présence des noms d'espèces issus de la ressource de référence. + +La jonction entre les noms d'espèces présents dans le corpus et les fréquences d'occurrence des noms ressemblant à des noms d'espèces est réalisée grâce à des tableaux croisés dynamiques dans **[Calc](https://www.openoffice.org/product/calc.html)**. + +Les documents ayant un nombre de noms d'espèces égal à 0 sont considérés comme du bruit.