diff --git a/kos2vec/README.md b/kos2vec/README.md index 40417dd..207c2b0 100755 --- a/kos2vec/README.md +++ b/kos2vec/README.md @@ -1,7 +1,71 @@ -## Installation -pip3 install -r requirements.txt --user -## execution -python3 exec_indexer.py -indent data/ +#kos2vec - Application d’indexation sémantique sur une ressource termino-ontologique (RTO) + +**Identification de concepts sur la mémoire basé sur une ontology et utilisant un modèle de langue** + +## Principe de fonctionnement + + +![text](image.jpg) + + +Le système prend en entrée les métadonnées associées à un article (titre, résumé) et renvoie une sélection de concepts tirés du thesaurus mémoire. +Il se compose de 3 modules principaux : + +- le module syntaxique analyse les documents d'entrée et identifie les concepts qui sont explicitement mentionnés dans le document. + +- le Module semantique extrait des candidats termes (cunking) et calcule la similarité de ceux-ci avec les nœuds de l'ontologie en tirant parti de l'intégration des mots dans un modèle Embedding. Il sélection des termes RTO directement présent ou proche voisin dans le modèle. + +![text](image2.jpg) + + +- le module de post-traitement combine les résultats de ces deux modules, élimine les valeurs aberrantes et les améliore en incluant les "super-concepts pertinents" (broader). + + +L'approche exploite une RTO de loterre et des plongements lexicaux calculés sur un corpus du domaine. + + * Le modele de langue est de type Word2Vec et il construit sur un corpus Istex de 540.000 résumés annotés par les termes de la RTO et les ngrams les plus fréquents (collocation lexicale). + * L'Ontology mémoire provient du site Inist Loterre : https://skosmos.loterre.fr/P66/fr/ + + +## Utilisation + +### Sollicitation du WebService + + +[/v1/en/index?indent=True](/v1/en/index?indent=True) + + + +* Prend en entrée un flux **json** au format **id/value** : +``` +[ +{"idt":"11-0278198","value":"reduction fear child comparison positive information imagery control condition study... + effect ... "}, +{"idt":"07-0413881","value":"avoidance hemodilution selective cerebral perfusion neurobehavioral outcome ... "} +] +``` +* Produit en sortie un **flux json** contenant les résultats d'une indexation sur le thesaurus mémoire : + + + * **"idt"** : identifiant fourni en entrée + * **"syntactic"** : résultat de l'indexation syntactique + * **"semantic"** : résultat de l'indexation semantique + * **"union"** : union des deuc indexations + * **"enhancement"** : trace textuelle des indexations + * **"explanation"** : les concepts broader de tous les concepts trouvés + +#### Exemple +``` +cat <