Niveau-2
========

L’exploration de corpus Niveau 2 est destinée à évaluer la qualité d’un corpus en identifiant les thématiques qu’il contient.

Cette exploration a pour objectif de mettre en évidence les différentes thématiques abordées ou les différents points de vue sous lesquels est abordée une thématique. Elle vise également à identifier les éventuels manques et/ou anomalies dans les thématiques. Elle permettra ainsi d’améliorer la qualité du corpus et de cibler la meilleure manière de le valoriser.

## Corpus

### Polaris
**Polaris récent v1 (sans documents de l'éditeur Cambridge)** : 11 731 documents 

**Polaris récent v2 (avec documents de l'éditeur Cambridge)** : 12 303 documents

**Polaris ancien v1 (sans documents de l'éditeur Cambridge)** : 583 documents

**Polaris ancien v2 (avec documents de l'éditeur Cambridge)** : 783 documents

### Vieillissement

**vieillissement v1** : 7 434 documents 

**vieillissement v2** : 8 707 documents 

## Outils

Le logiciel d’analyse statistique **[IRaMuTeQ](http://iramuteq.org/)** est utilisé pour détecter les thématiques pertinentes et les représenter sous forme de dendrogrammes et de nuages de mots dans les corpus Polaris et Vieillissement.

Le logiciel d’analyse statistique **[R](https://www.r-project.org/)** est également utilisé pour détecter les thématiques pertinentes d'un corpus (grâce à ses packaqges NLP, tm, topicmodels, dplyr, ggplot2). Il a été testé uniquement sur le corpus Vieillissement 2.
