diff --git a/Niveau-3/README.md b/Niveau-3/README.md index 20b8c7e..9209389 100755 --- a/Niveau-3/README.md +++ b/Niveau-3/README.md @@ -1,7 +1,7 @@ Niveau-3 ======== -L’exploration de corpus Niveau 3 est destinée à évaluer la qualité d'un corpus de volume plus important en identifiant le bruit et le silence, par rapport à une ressource de référence. Elle sert également à tester la performance d'outils de textométrie pour réaliser cette tâche. +L’exploration de Niveau 3 est destinée à évaluer la qualité d'un corpus en identifiant le bruit et le silence, par rapport à une ressource de référence. Elle sert également à tester la performance d'outils de textométrie pour réaliser cette tâche sur un corpus de volume plus important. - Bruit : vérification de la présence d’au moins 1 nom d’espèce animale en latin dans chacun des documents. Seront donc considérés comme du bruit, les documents ne contenant aucun nom d'espèce, d'après la ressource servant de référence. - Silence : vérification de la représentation de tous les embranchements et de toutes les classes de la ressource chez les espèces trouvées dans le corpus. @@ -17,12 +17,9 @@ ## Outils et procédure -Le logiciel de textométrie **[TXM](http://textometrie.ens-lyon.fr/files/software/TXM/0.7.8/)** est utilisé pour réaliser des partitions du corpus et calculer la fréquence d'occurrence de noms ressemblant à des noms d'espèces et détectés à partir d'une expression régulière. +La combinaison entre les logiciels **[TXM](http://textometrie.ens-lyon.fr/files/software/TXM/0.7.8/)** et **[IRaMuTeQ](http://iramuteq.org/)** telle qu'elle a été réalisée pour le **[Niveau 1](https://git.istex.fr/scodex/explore-corpus/tree/master/Niveau-3)** a été testée sur ce nouveau corpus mais n'a pas pu aboutir à cause du volume des sous-corpus, le plus volumineux étant Poissons avec 10 251 documents. +Les fichiers d'entrée ont été tout de même créés, à l'aide des scripts présentés dans les répertoires correspondants, mais ceux correspondant à TXM n'ont pas pu être chargés dans l'outil. -Le logiciel d’analyse statistique **[IRaMuTeQ](http://iramuteq.org/)** est utilisé pour détecter dans le corpus la présence des noms d'espèces issus de la ressource de référence (sans les informations de classification). +Pour aller jusqu'au bout de ce protocole d'exploration nous avons finalement eu recours à l'outil d'extraction de formes figées **[IRC3](https://git.istex.fr/scodex/IRC3)**. -La jonction entre les noms d'espèces présents dans le corpus et les fréquences d'occurrence des noms ressemblant à des noms d'espèces est réalisée grâce à des tableaux croisés dynamiques dans **[Calc](https://www.openoffice.org/product/calc.html)**. - -Les documents ayant un nombre de noms d'espèces égal à 0 sont considérés comme du bruit. - -La jonction entre les noms d'espèces présents dans le corpus et la ressource de référence contenant les éléments de classification est réalisée grâce à la fonction Shell Join. Les comptages et l'identification de classes et embranchements manquants sont ensuite réalisés par des tableaux croisés dynamiques dans **[Calc](https://www.openoffice.org/product/calc.html)**. +La jonction entre les noms d'espèces détectés dans le corpus et la ressource de référence contenant les éléments de classification a été ensuite réalisée grâce à la fonction Shell Join. Les comptages et l'identification de classes et embranchements manquants sont ensuite réalisés par des tableaux croisés dynamiques dans **[Calc](https://www.openoffice.org/product/calc.html)**.