diff --git a/Niveau-3/README.md b/Niveau-3/README.md index 9209389..1b7aa07 100755 --- a/Niveau-3/README.md +++ b/Niveau-3/README.md @@ -1,11 +1,13 @@ Niveau-3 ======== -L’exploration de Niveau 3 est destinée à évaluer la qualité d'un corpus en identifiant le bruit et le silence, par rapport à une ressource de référence. Elle sert également à tester la performance d'outils de textométrie pour réaliser cette tâche sur un corpus de volume plus important. +L’exploration de Niveau 3 est destinée à évaluer la qualité d'un corpus en identifiant le **bruit** et le **silence** qu'il contient, par rapport à une ressource de référence. - Bruit : vérification de la présence d’au moins 1 nom d’espèce animale en latin dans chacun des documents. Seront donc considérés comme du bruit, les documents ne contenant aucun nom d'espèce, d'après la ressource servant de référence. - Silence : vérification de la représentation de tous les embranchements et de toutes les classes de la ressource chez les espèces trouvées dans le corpus. +Cette exploration sert également à tester la performance d'outils de textométrie pour réaliser cette tâche sur un corpus de volume plus important. + ## Corpus @@ -17,7 +19,7 @@ ## Outils et procédure -La combinaison entre les logiciels **[TXM](http://textometrie.ens-lyon.fr/files/software/TXM/0.7.8/)** et **[IRaMuTeQ](http://iramuteq.org/)** telle qu'elle a été réalisée pour le **[Niveau 1](https://git.istex.fr/scodex/explore-corpus/tree/master/Niveau-3)** a été testée sur ce nouveau corpus mais n'a pas pu aboutir à cause du volume des sous-corpus, le plus volumineux étant Poissons avec 10 251 documents. +La combinaison entre les logiciels **[TXM](http://textometrie.ens-lyon.fr/files/software/TXM/0.7.8/)** et **[IRaMuTeQ](http://iramuteq.org/)** telle qu'elle a été réalisée pour le **[Niveau 1](https://git.istex.fr/scodex/explore-corpus/tree/master/Niveau-3)** a été testée sur ce nouveau corpus mais n'a pas pu aboutir. En effet, le volume des sous-corpus représente une limite pour l'utilisation de ces outils (le plus volumineux étant Poissons avec 10 251 documents). Les fichiers d'entrée ont été tout de même créés, à l'aide des scripts présentés dans les répertoires correspondants, mais ceux correspondant à TXM n'ont pas pu être chargés dans l'outil. Pour aller jusqu'au bout de ce protocole d'exploration nous avons finalement eu recours à l'outil d'extraction de formes figées **[IRC3](https://git.istex.fr/scodex/IRC3)**.