Niveau-2 ======== L’exploration de corpus Niveau 2 est destinée à évaluer la qualité d’un corpus en identifiant les thématiques qu’il contient. Cette exploration a pour objectif de mettre en évidence les différentes thématiques abordées ou les différents points de vue sous lesquels est abordée une thématique. Elle vise également à identifier les éventuels manques et/ou anomalies dans les thématiques. Elle permettra ainsi d’améliorer la qualité du corpus et de cibler la meilleure manière de le valoriser. ## Corpus ### Polaris ### Vieillissement **vieillissement v1** : 7 434 documents **vieillissement v2** : 8 707 documents ## Outils Le logiciel d’analyse statistique **[IRaMuTeQ](http://iramuteq.org/)** est utilisé pour détecter les thématiques pertinentes et les représenter sous forme de dendrogrammes et de nuages de mots dans les corpus Polaris et Vieillissement. Le logiciel d’analyse statistique **[R](https://www.r-project.org/)** est également utilisé pour détecter les thématiques pertinentes d'un corpus (grâce à ses packaqges NLP, tm, topicmodels, dplyr, ggplot2). Il a été testé uniquement sur le corpus Vieillissement 2.