Apprentissage du RNSR avec répartition géographique - essai avec DVC
.dvc | 2 years ago | ||
.vscode | 2 years ago | ||
bin | 2 years ago | ||
data | 2 years ago | ||
libs | 2 years ago | ||
.dvcignore | 2 years ago | ||
.gitignore | 2 years ago | ||
README.md | 2 years ago | ||
dvc.lock | 2 years ago | ||
dvc.yaml | 2 years ago | ||
package-lock.json | 2 years ago | ||
package.json | 2 years ago | ||
params.yaml | 2 years ago |
Apprentissage du RNSR avec répartition géographique - essai avec DVC.
Voir les travaux précédents: https://gitbucket.inist.fr/parmentf/rnsr-ml.
La documentation de l'extension DVC de VSCode dit que pour initialiser le dépôt il faut taper dvc exp init -i
, mais ça ne marche pas avec ma version de DVC (qui est apparemment plus récente que ce à quoi s'attend l'extension).
$ dvc init Initialized DVC repository. You can now commit the changes to git. +---------------------------------------------------------------------+ | | | DVC has enabled anonymous aggregate usage analytics. | | Read the analytics documentation (and how to opt-out) here: | | <https://dvc.org/doc/user-guide/analytics> | | | +---------------------------------------------------------------------+ What's next? ------------ - Check out the documentation: <https://dvc.org/doc> - Get help and share ideas: <https://dvc.org/chat> - Star us on GitHub: <https://github.com/iterative/dvc>
Cette commande a créé:
.dvcignore
.dvc
.gitignore
config
Alors que l'installation de l'extension VSCode a ajouté:
.vscode
settings.json
Pour créer un remote, je tape dvc remote add -d local /home/parmentf/data/dvc
.
Il faut juste que le répertoire existe (et soit vide ou déjà consacré à ça).
$ dvc add data/netscity-ville-aire-uniq.tsv 100% Adding...|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████|1/1 [00:00, 20.28file/s] To track the changes with git, run: git add data/netscity-ville-aire-uniq.tsv.dvc data/.gitignore To enable auto staging, run: dvc config core.autostage true
Donc, si on veut se simplifier la vie sur les ajouts suivants:
dvc config core.autostage true
Pour initialiser le fichier dvc.yaml
, générant les expériences, on peut utiliser dvc exp init --interactive
.
Pour lancer le pipeline d'une expérience, il suffit de faire dvc repro
.
Les fichiers résultats outs
d'un stage (une étape) sont automatiquement ajoutés à DVC.
Le split
donne 100 aires géographiques, dont plus de 50 avec moins de 40 adresses.
On les rassemble donc dans areas/GatheredLittleAreas
, ce qui laisse 48 aires (dont celle-ci) avec au moins 40 (inclus) aires.