diff --git a/authors-tools/v1/name_gender/name_gender.pickle b/authors-tools/v1/name_gender/name_gender.pickle index 7749182..0a14569 100644 --- a/authors-tools/v1/name_gender/name_gender.pickle +++ b/authors-tools/v1/name_gender/name_gender.pickle Binary files differ diff --git a/authors-tools/v1/name_gender/preprocessing.py b/authors-tools/v1/name_gender/preprocessing.py index 973910f..a319ef6 100644 --- a/authors-tools/v1/name_gender/preprocessing.py +++ b/authors-tools/v1/name_gender/preprocessing.py @@ -3,7 +3,7 @@ import pickle """ -Script qui permet de générer un pickle à partir des données fusionnées de la librairie 'gender_guesser' +Script qui permet de générer un pickle à partir des données fusionnées de la librairie 'gender_guesser' (https://pypi.org/project/gender-guesser/) et de Kaggle (https://www.kaggle.com/datasets/haezer/french-baby-names?select=national_names.csv). Présentes dans le fichier 'nam_dict_merged.txt'. """ @@ -35,7 +35,26 @@ my_dict = {} for index, row in df.iterrows(): my_dict[row['name'].lower()] = row['gender'] -print(my_dict) +# print(my_dict) + +def modified_name_plus(my_dict): + key_plus = [] + for key in my_dict : + if "+" in key : + key_plus.append(key) + for key in key_plus: + value = my_dict[key] + new_key_space = key.replace('+', ' ') + new_key = key.replace('+', '') + new_key_dash = key.replace('+', '-') + my_dict[new_key_space] = value # ajouter une copie de la paire clé-valeur avec un espace à la fin du dictionnaire + my_dict[new_key] = value # ajouter une copie de la paire clé-valeur sans le "+" à la fin du dictionnaire + my_dict[new_key_dash] = value + del my_dict[key] # supprimer la paire clé-valeur d'origine contenant le "+" + return my_dict + +my_dict_modified = modified_name_plus(my_dict) +# print(my_dict_modified) with open('name_gender.pickle', 'wb') as handle: - pickle.dump(my_dict, handle, protocol=pickle.HIGHEST_PROTOCOL) \ No newline at end of file + pickle.dump(my_dict_modified, handle, protocol=pickle.HIGHEST_PROTOCOL) \ No newline at end of file