explore-corpus / Niveau-2 /
@camille camille authored on 19 Feb 2018
..
Polaris Suppression des 2 programmes Perl 6 years ago
Vieillissement_V1 Update README.md 6 years ago
Vieillissement_V2/ Iramuteq Update README.md 6 years ago
post_traitement_corpus Create ReadMe 6 years ago
README.md corrections données Polaris 6 years ago
README.md

Niveau-2

L’exploration de corpus Niveau 2 est destinée à évaluer la qualité d’un corpus en identifiant les thématiques qu’il contient.

Cette exploration a pour objectif de mettre en évidence les différentes thématiques abordées ou les différents points de vue sous lesquels est abordée une thématique. Elle vise également à identifier les éventuels manques et/ou anomalies dans les thématiques. Elle permettra ainsi d’améliorer la qualité du corpus et de cibler la meilleure manière de le valoriser.

Corpus

Polaris

Polaris ancien v1 (sans documents de l'éditeur Cambridge) : 583 documents

Polaris ancien v2 (avec documents de l'éditeur Cambridge) : 783 documents

Polaris récent v1 (sans documents de l'éditeur Cambridge) : 11 731 documents

Polaris récent v2 (avec documents de l'éditeur Cambridge) : 12 303 documents

Vieillissement

vieillissement v1 : 7 434 documents

vieillissement v2 : 8 707 documents

Outils

Le logiciel d’analyse statistique IRaMuTeQ est utilisé pour détecter les thématiques pertinentes et les représenter sous forme de dendrogrammes et de nuages de mots dans les corpus Polaris et Vieillissement.

Le logiciel d’analyse statistique R est également utilisé pour détecter les thématiques pertinentes d'un corpus (grâce à ses packaqges NLP, tm, topicmodels, dplyr, ggplot2). Il a été testé uniquement sur le corpus Vieillissement 2.