docs(lda):added coherence system in comment #57

Merged leog merged 13 commits into tdm:master from tdm:lda on 21 Nov 2023
@leog leog commented on 9 Nov 2023

added coherence metric.

Now, the output of the ws is in "value" and have the best topic with his words and weight

@leog leog referenced the pull request on 21 Nov 2023

docs(lda):changed output of lda (now in "value") and add "best_topic"

@leog leog merged commit e954696 into master from lda on 21 Nov 2023
@leog leog closed this pull request on 21 Nov 2023
@leog leog deleted the lda branch on 21 Nov 2023
data-computer/v1/lda.py
2323
2424def uniformize(text):
25 # del accents
25 # del accents, using remove_accents function
@parmentf parmentf on 21 Nov 2023

Ce commentaire t'est-il utile ?
À moi, non: il décrit simplement la ligne suivante (appel de la fonction remove_accents) et reformule avec un synonyme le nom de la fonction.

Félicitations: le nom de la fonction est suffisamment bien choisi pour ne plus avoir besoin du commentaire ! :+1:

data-computer/v1/lda.py
4646
47# Max topic
48def max_topic(dico):
49 # for a dictionary of topics, return a json with a single key "best topic" and his value is the value of the dictionary.
@parmentf parmentf on 21 Nov 2023

M'est avis que c'est l'emplacement idéal pour une docstring, à la place d'un commentaire (mais ce n'est que pure forme).

data-computer/v1/lda.py
2121 text_with_no_accent = re.sub("[\u0300-\u036f]", "", normalized_text)
@parmentf parmentf on 21 Nov 2023

Pourquoi ne pas utiliser Unidecode pour translittérer les lettres accentuées?
J'ai l'impression que certains caractères sont purement et simplement supprimés.

Si je ne dis pas de bêtise, les caractères sur cette plage "\u0300-\u036f" sont uniquement les caractères "diacritiques combinatoires" : un " ê " s'encode comme " ^e " et seul le " ^ " est supprimé.

Cela évite d'installer une dépendance en plus, mais si tu penses que c'est mieux je peux le modifier en conséquent (re est installé de base avec python 3.8+).

J'avais oublié ce fonctionnement.
Une dépendance de moins, c'est pas mal.
C'est juste au prix d'un code un peu plus long.
Laisse comme ça :)

@leog leog removed the do not merge label on 21 Nov 2023
Labels

Priority
default
Milestone
No milestone
Assignee
No one
2 participants
@leog @parmentf