diff --git a/README.md b/README.md index 1bba0a1..cd3e935 100644 --- a/README.md +++ b/README.md @@ -39,6 +39,24 @@ ## Préparation des données +TODO: ici, on pourra voir l'intérêt de préparer une étape (_stage_) +reproductible à partir d'un fichier de données d'origine. + +- [nettoyage du corpus](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/notes/2022-03-25.md#retravail-des-donne%cc%81es-%28de-pascal%29-conditor-rnsr) + (mais la méthode de nettoyage était très manuelle) +- [suppression des petites classes](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/notes/2022-05-17.md#enlever-les-petites-classes-du-fichier-wos-addresse-rnsr.txt) +- [supprimer les virgules du corpus](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/notes/2022-05-30.md#supprimer-les-virgules-des-corpus-test-et-apprentissage) +- [créer les fichiers d'entraînement et de test](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/notes/2022-05-17.md#cre%cc%81er-les-fichiers-d%26%2339%3bentrai%cc%82nement-et-de-test) (en utilisant des paramètres: `proportion`, `min`, `max`) + +Le résultat de la préparation des données, c'est un fichier d'entraînement et un +fichier de test. + +Pour l'instant, on repart de ceux de l'étude précédente: +[addresses-40-cnrs-rnsr-big-classes-train.txt](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/data/addresses-40-cnrs-rnsr-big-classes-train.txt) +et +[addresses-40-cnrs-rnsr-big-classes-test.txt](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/data/addresses-40-cnrs-rnsr-big-classes-test.txt) +(renommés `train.txt` et `test.txt`). + ## Paramétrage des modèles ## Expériences (experiments)