diff --git a/README.md b/README.md
index 1bba0a1..cd3e935 100644
--- a/README.md
+++ b/README.md
@@ -39,6 +39,24 @@
 
 ## Préparation des données
 
+TODO: ici, on pourra voir l'intérêt de préparer une étape (_stage_)
+reproductible à partir d'un fichier de données d'origine.
+
+- [nettoyage du corpus](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/notes/2022-03-25.md#retravail-des-donne%cc%81es-%28de-pascal%29-conditor-rnsr)
+  (mais la méthode de nettoyage était très manuelle)
+- [suppression des petites classes](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/notes/2022-05-17.md#enlever-les-petites-classes-du-fichier-wos-addresse-rnsr.txt)
+- [supprimer les virgules du corpus](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/notes/2022-05-30.md#supprimer-les-virgules-des-corpus-test-et-apprentissage)
+- [créer les fichiers d'entraînement et de test](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/notes/2022-05-17.md#cre%cc%81er-les-fichiers-d%26%2339%3bentrai%cc%82nement-et-de-test) (en utilisant des paramètres: `proportion`, `min`, `max`)
+
+Le résultat de la préparation des données, c'est un fichier d'entraînement et un
+fichier de test.
+
+Pour l'instant, on repart de ceux de l'étude précédente:
+[addresses-40-cnrs-rnsr-big-classes-train.txt](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/data/addresses-40-cnrs-rnsr-big-classes-train.txt)
+et
+[addresses-40-cnrs-rnsr-big-classes-test.txt](https://gitbucket.inist.fr/parmentf/rnsr-ml/blob/master/data/addresses-40-cnrs-rnsr-big-classes-test.txt)
+(renommés `train.txt` et `test.txt`).
+
 ## Paramétrage des modèles
 
 ## Expériences (experiments)