Apprentissage du RNSR avec répartition géographique - essai avec DVC

.dvc chore(dvc): Add a file to DVC 1 year ago
.vscode chore(vscode,dvc,yaml): Make DVC files YAML files 1 year ago
bin feat(split): Reduce the number of areas 1 year ago
data feat(extract-areas): Add extract-areas to dvc.yaml 1 year ago
libs feat(params): Add getParam 1 year ago
.dvcignore chore(dvc): Initialize DVC in the repo 1 year ago
.gitignore feat(create-tree): Create areas directory 1 year ago
README.md docs: À propos des aires géographiques 1 year ago
dvc.lock feat(split): Reduce the number of areas 1 year ago
dvc.yaml feat(split): Reduce the number of areas 1 year ago
package-lock.json feat(params): Add getParam 1 year ago
package.json feat(params): Add getParam 1 year ago
params.yaml feat(address-to-area): Use params.yaml 1 year ago
README.md

rnsr-geo-ml-dvc

Apprentissage du RNSR avec répartition géographique - essai avec DVC.

Voir les travaux précédents: https://gitbucket.inist.fr/parmentf/rnsr-ml.

DVC

Initialisation

La documentation de l'extension DVC de VSCode dit que pour initialiser le dépôt il faut taper dvc exp init -i, mais ça ne marche pas avec ma version de DVC (qui est apparemment plus récente que ce à quoi s'attend l'extension).

$ dvc init  
Initialized DVC repository.

You can now commit the changes to git.

+---------------------------------------------------------------------+
|                                                                     |
|        DVC has enabled anonymous aggregate usage analytics.         |
|     Read the analytics documentation (and how to opt-out) here:     |
|             <https://dvc.org/doc/user-guide/analytics>              |
|                                                                     |
+---------------------------------------------------------------------+

What's next?
------------
- Check out the documentation: <https://dvc.org/doc>
- Get help and share ideas: <https://dvc.org/chat>
- Star us on GitHub: <https://github.com/iterative/dvc>

Cette commande a créé:

  • .dvcignore
  • .dvc
    • .gitignore
    • config

Alors que l'installation de l'extension VSCode a ajouté:

  • .vscode
    • settings.json

Pour créer un remote, je tape dvc remote add -d local /home/parmentf/data/dvc.
Il faut juste que le répertoire existe (et soit vide ou déjà consacré à ça).

Ajout de fichier

$ dvc add data/netscity-ville-aire-uniq.tsv 
100% Adding...|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████|1/1 [00:00, 20.28file/s]
                                                                                                                                                                                                                               
To track the changes with git, run:

    git add data/netscity-ville-aire-uniq.tsv.dvc data/.gitignore

To enable auto staging, run:

        dvc config core.autostage true

Donc, si on veut se simplifier la vie sur les ajouts suivants:

dvc config core.autostage true

Experiments

Pour initialiser le fichier dvc.yaml, contenant les expériences, on peut utiliser dvc exp init --interactive.

Pour lancer le pipeline d'une expérience, il suffit de faire dvc repro.

Les fichiers résultats outs d'un stage (une étape) sont automatiquement ajoutés à DVC.

Aires géographiques

Le split donne 100 aires géographiques, dont plus de 50 avec moins de 40 adresses.

On les rassemble donc dans areas/GatheredLittleAreas, ce qui laisse 48 aires (dont celle-ci) avec au moins 40 (inclus) aires.