diff --git a/authors-tools/README.md b/authors-tools/README.md index 342da7e..798b900 100644 --- a/authors-tools/README.md +++ b/authors-tools/README.md @@ -1,8 +1,33 @@ -# orcid-disambiguation +# Authors-Tools -Cette instance propose un outil de de désambiguisation d'auteur orcid +Cette instance propose un outil pour traiter les auteurs. -## Description et utilisation du programme +## Configuration + +L'application à utiliser est `lodex-workers-python`. + +Il faut préciser dans le fichier de configuration de l'instance qu'elle utilise les paquets node: + +- `@ezs/spawn` +- `@ezs/analytics` +- `@ezs/basics` + +```json +{ + "packages": [ + "@ezs/spawn@1.1.0", + "@ezs/analytics@1.18.4", + "@ezs/basics@1.17.1" + ] +} +``` + +## Utilisation + +- [v1/orcid-disambiguation/orcidDisambiguation](#v1/orcid-disambiguation/orcidDisambiguation) +- [v1/name_gender/gender](#v1/name_gender/gender) + +### v1/orcid-disambiguation/orcidDisambiguation - [v1/orcid-disambiguation/orcidDisambiguation](#v1%2forcid-disambiguation%2forcidDisambiguation) @@ -72,7 +97,7 @@ compte orcid, par conséquent une personne étant sur orcid mais n'ayant mis aucune information à disposition peut ne pas être trouvée. -## Exemple +### Exemple v1/orcid-disambiguation/orcidDisambiguation ```bash $ cat < + +### v1/name_gender/gender + +- [v1/name_gender/gender] + +Ce web-service renvoie le genre d'un prénom. + +Il prend en entrée du JSON avec deux champs, `id` et `value`, et renvoie un JSON avec le genre du prénom dans le champ `value`. + +#### Données de v1/name_gender/gender + +Le fichier `nam_dict_merged.txt` est la fusion de deux fichiers venant de sources différentes : + +- `nam_dict.txt` vient de données de la librairie [`gender_guesser`](). Ces données sont sous licence GNU. +- `national_name_gender.csv` vient de la base de données [`Kaggle`](https://www.kaggle.com/datasets/haezer/french-baby-names?select=national_names.csv) et contient tous les prénoms français données depuis 1900. Ce fichier a été pré-traité pour correspondre à la structure du `nam_dict.txt`. On le retrouve ainsi dans le fichier `nam_dict_merged.txt` à partir de la ligne 48822. + +Le fichier `preprocessing.py` permet de créer le `name_gender.pickle` qui contient des couples {"prénom":"genre"}. +Enfin le fichier `gender.py` permet de renvoyer le genre d'un prénom en gérant les différentes types de prénoms. Il renvoie le genre si le prénom est trouvé, un "unknown" si le prénom n'est pas dans la base et une "erreur" si le prénom n'a pas le format attendu par le web-service. + +### Exemple de v1/name_gender/gender + +```bash +$ cat <