diff --git a/kos2vec/README.md b/kos2vec/README.md index d52eb11..020f620 100755 --- a/kos2vec/README.md +++ b/kos2vec/README.md @@ -1,74 +1,74 @@ - - # kos2vec ## Application d’indexation sémantique sur une ressource termino-ontologique (RTO) ------------- -**Identification de concepts sur la mémoire basé sur une ontology et utilisant un modèle de langue** + +Identification de concepts sur la mémoire basé sur une ontology et utilisant un modèle de langue. ## Principe de fonctionnement - -![text](image.jpg) - - -Le système prend en entrée les métadonnées associées à un article (titre, résumé) et renvoie une sélection de concepts tirés du thesaurus mémoire. -Il se compose de 3 modules principaux : - -- le module syntaxique analyse les documents d'entrée et identifie les concepts qui sont explicitement mentionnés dans le document. - -- le Module semantique extrait des candidats termes (cunking) et calcule la similarité de ceux-ci avec les nœuds de l'ontologie en tirant parti de l'intégration des mots dans un modèle Embedding. Il sélection des termes RTO directement présent ou proche voisin dans le modèle. +![schéma de principe](image.jpg) -![text](image2.jpg) - +Le système prend en entrée les métadonnées associées à un article (titre, +résumé) et renvoie une sélection de concepts tirés du thesaurus mémoire. +Il se compose de 3 modules principaux : -- le module de post-traitement combine les résultats de ces deux modules, élimine les valeurs aberrantes et les améliore en incluant les "super-concepts pertinents" (broader). +1. le module syntaxique analyse les documents d'entrée et identifie les concepts + qui sont explicitement mentionnés dans le document. +2. le Module sémantique extrait des candidats termes (*cunking*) et calcule la + similarité de ceux-ci avec les nœuds de l'ontologie en tirant parti de + l'intégration des mots dans un modèle *Embedding*. Il sélectionne des termes + RTO directement présents ou proches voisins dans le modèle. + ![text](image2.jpg) +3. le module de post-traitement combine les résultats de ces deux modules, + élimine les valeurs aberrantes et les améliore en incluant les + "super-concepts pertinents" (broader). +L'approche exploite une RTO de loterre et des plongements lexicaux calculés sur +un corpus du domaine. -L'approche exploite une RTO de loterre et des plongements lexicaux calculés sur un corpus du domaine. - - * Le modele de langue est de type **Word2Vec** et il construit sur un corpus Istex de 587.721 résumés **annotés par les termes de la RTO et les ngrams les plus fréquents** (collocation lexicale). - * L'Ontology mémoire provient du site Inist **Loterre** : https://skosmos.loterre.fr/P66/fr/ - +- Le modèle de langue est de type **Word2Vec** et il est construit sur un corpus + Istex de 587.721 résumés **annotés par les termes de la RTO et les ngrams les + plus fréquents** (collocation lexicale). +- L'ontologie mémoire provient du site Inist **Loterre** : ## Utilisation ### Sollicitation du WebService - [/v1/{code_vocab}/index?indent=True](/v1/en/index?indent=True) -| nom de la ressource|Code_vocab|Sur loterre| -|--- |:-: |:-: | -| memoire Psychologie | P66 | https://skosmos.loterre.fr/P66/en/ | -| MeSH |JVR|https://skosmos.loterre.fr/JVR/en/| -| education | 216 |https://skosmos.loterre.fr/216/en/| -| sociologie | 3JP |https://skosmos.loterre.fr/3JP/en/| -| philosophie | 73G |https://skosmos.loterre.fr/73G/en/| -| litterature | P21 |https://skosmos.loterre.fr/P21/en/| -| SAGEThesaurus | SAG || - - -* Prend en entrée un flux **json** au format **id/value** : -``` +| nom de la ressource | Code_vocab | Sur loterre | +| ------------------- | :--------: | :----------------------------------: | +| memoire Psychologie | P66 | | +| MeSH | JVR | | +| education | 216 | | +| sociologie | 3JP | | +| philosophie | 73G | | +| litterature | P21 | | +| SAGEThesaurus | SAG | | + +Prend en entrée un flux **json** au format **id/value** : + +```json [ {"idt":"11-0278198","value":"reduction fear child comparison positive information imagery control condition study... effect ... "}, {"idt":"07-0413881","value":"avoidance hemodilution selective cerebral perfusion neurobehavioral outcome ... "} ] ``` -* Produit en sortie un **flux json** contenant les résultats d'une indexation sur le thesaurus mémoire : - - * **"idt"** : identifiant fourni en entrée - * **"syntactic"** : résultat de l'indexation syntaxique - * **"semantic"** : résultat de l'indexation semantique - * **"union"** : union des deux indexations - * **"enhancement"** : trace textuelle des indexations - * **"explanation"** : les concepts broader de tous les concepts trouvés +Produit en sortie un **flux json** contenant les résultats d'une indexation sur le thesaurus mémoire : + +- **"idt"** : identifiant fourni en entrée +- **"syntactic"** : résultat de l'indexation syntaxique +- **"semantic"** : résultat de l'indexation semantique +- **"union"** : union des deux indexations +- **"enhancement"** : trace textuelle des indexations +- **"explanation"** : les concepts broader de tous les concepts trouvés #### Exemple -``` + +```bash cat <