diff --git a/data-computer/swagger.json b/data-computer/swagger.json index bbe4b85..a43e5d1 100644 --- a/data-computer/swagger.json +++ b/data-computer/swagger.json @@ -3,7 +3,7 @@ "info": { "title": "data-computer - Calculs sur fichier corpus compressé", "summary": "Algorithmes de calculs sur un corpus compressé", - "version": "2.5.0", + "version": "2.5.2", "termsOfService": "https://services.istex.fr/", "contact": { "name": "Inist-CNRS", diff --git a/data-computer/v1/charger.cfg b/data-computer/v1/charger.cfg index 9250763..7bff09a 100644 --- a/data-computer/v1/charger.cfg +++ b/data-computer/v1/charger.cfg @@ -1,6 +1,5 @@ [use] plugin = basics -plugin = analytics # Step 0 (générique) : Lire le fichier standard tar.gz [TARExtract] @@ -9,10 +8,20 @@ # Step 1 (générique) : Créer un identifiant unique pour le corpus reçu [singleton] + +# Step 1.1 : On évite de récupere un champ uri existant +[singleton/env] +path = pid +value = fix(`PID${Date.now()}`) + +# Step 1.2 : On génére un identifiant unique [singleton/identify] +path = env('pid') + +# Step 1.3: On garde en mémoire l'identifiant généré (en le simplifiant) [singleton/env] path = identifier -value = get('uri').replace('uid:/', '') +value = get(env('pid')).replace('uid:/', '') [metrics] bucket = charger diff --git a/data-workflow/swagger.json b/data-workflow/swagger.json index 4a39cd8..e58cb39 100644 --- a/data-workflow/swagger.json +++ b/data-workflow/swagger.json @@ -3,7 +3,7 @@ "info": { "title": "data-workflow - Enchainement de traitements asynchrones", "summary": "Les worflows permettent de traiter des fichiers corpus compressés en appelant des webservices d'enrichissement par documents (webservices synchrones)", - "version": "1.2.0", + "version": "1.2.3", "termsOfService": "https://services.istex.fr/", "contact": { "name": "Inist-CNRS", diff --git a/data-workflow/v1/charger.cfg b/data-workflow/v1/charger.cfg index 9250763..7bff09a 100644 --- a/data-workflow/v1/charger.cfg +++ b/data-workflow/v1/charger.cfg @@ -1,6 +1,5 @@ [use] plugin = basics -plugin = analytics # Step 0 (générique) : Lire le fichier standard tar.gz [TARExtract] @@ -9,10 +8,20 @@ # Step 1 (générique) : Créer un identifiant unique pour le corpus reçu [singleton] + +# Step 1.1 : On évite de récupere un champ uri existant +[singleton/env] +path = pid +value = fix(`PID${Date.now()}`) + +# Step 1.2 : On génére un identifiant unique [singleton/identify] +path = env('pid') + +# Step 1.3: On garde en mémoire l'identifiant généré (en le simplifiant) [singleton/env] path = identifier -value = get('uri').replace('uid:/', '') +value = get(env('pid')).replace('uid:/', '') [metrics] bucket = charger diff --git a/data-workflow/v1/conditormetrie.cfg b/data-workflow/v1/conditormetrie.cfg index 401058a..c89ac5b 100644 --- a/data-workflow/v1/conditormetrie.cfg +++ b/data-workflow/v1/conditormetrie.cfg @@ -165,7 +165,7 @@ #Transformer des données inconnues de 'HostType' en repository si absence d'un DOI mais présence de Hal dans 'fulltext' [assign] path=ApilOaLocationsHal -value=get("enrichments.openAccess.unpaywall.oaLocations").map("hostType").concat([self.fulltextUrl].map((value)=>value && value.replace(/^((?!hal).)*$/,"@@@@").replace(/.*hal.*/,"repository"))).uniq().filter((value, index, collection)=>{if(!(value === "OA - Inconnu" && collection[index+1] === "repository" )){return true}}).filter(value=>value!=="@@@@").compact() +value=get("enrichments.openAccess.unpaywall.oaLocations").map("hostType").concat([self.fulltextUrl].map((value)=>value && String(value).replace(/^((?!hal).)*$/,"@@@@").replace(/.*hal.*/,"repository"))).uniq().filter((value, index, collection)=>{if(!(value === "OA - Inconnu" && collection[index+1] === "repository" )){return true}}).filter(value=>value!=="@@@@").compact() #Transformer des données inconnues en "green" si absence d'un DOI mais présence de "repository" dans 'ApilOaLocationsHal' [assign] diff --git a/diseases-ner/README.md b/diseases-ner/README.md index 6607594..a360f01 100644 --- a/diseases-ner/README.md +++ b/diseases-ner/README.md @@ -1,4 +1,4 @@ -# chem-ner +# diseases-ner Cette instance propose un outil de reconnaissance d'entités nommées de maladies.