diff --git a/bash/get_docs.sh b/bash/get_docs.sh deleted file mode 100755 index 6839015..0000000 --- a/bash/get_docs.sh +++ /dev/null @@ -1,39 +0,0 @@ -#!/usr/bin/env bash -######################################################################## -# -# Récupère les documents (META + FT) d'un résultat de recherche -# (pour être parallélisé) -# -######################################################################## - - DOC_IDX=$(wcalc -q "$DOC_IDX - 1") - DOC=$(echo $PAGE | $JQ ".hits[$DOC_IDX]") - DOC_ISTEXID=$(echo $DOC | $JQ ".id") - DOC_FULLTEXT=$(echo $DOC | $JQ ".fulltext") - DOC_METADATA=$(echo $DOC | $JQ ".metadata") - DOC_NB_METADATA=$(echo $DOC_METADATA | $JQ ". | length") - DOC_NB_FULLTEXT=$(echo $DOC_FULLTEXT | $JQ ". | length") - - echo "--> Téléchargement du document $DOC_ISTEXID (nb meta = $DOC_NB_METADATA ; nb ft = $DOC_NB_FULLTEXT)" - - # On télécharge les métadonnées du document - for DOC_META_IDX in $(seq 1 $DOC_NB_METADATA) - do - DOC_META_IDX=$(wcalc -q "$DOC_META_IDX - 1") - URI=$(echo $DOC_METADATA | $JQ ".[$DOC_META_IDX].uri") - FILETYPE=$(echo $DOC_METADATA | $JQ ".[$DOC_META_IDX].extension") - FILENAME="$DOC_ISTEXID.$FILETYPE" - curl -s $URI > $FILENAME - echo "--> Métadonnées téléchargé : $FILENAME" - done - - # On télécharge les plein textes du document - for DOC_FT_IDX in $(seq 1 $DOC_NB_FULLTEXT) - do - DOC_FT_IDX=$(wcalc -q "$DOC_FT_IDX - 1") - URI=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].uri") - FILETYPE=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].extension") - FILENAME="$DOC_ISTEXID.$FILETYPE" - curl -s $URI > $FILENAME - echo "--> Plein texte téléchargé : $FILENAME" - done diff --git a/bash/get_page.sh b/bash/get_page.sh new file mode 100755 index 0000000..f681512 --- /dev/null +++ b/bash/get_page.sh @@ -0,0 +1,46 @@ +#!/usr/bin/env bash +######################################################################## +# +# Récupère les documents (META + FT) d'un résultat de recherche +# (pour être parallélisé) +# +######################################################################## + +# Arguments ldc +DOC_IDX="$1" +PAGE="$2" + +# Outils +JQ="jq -c -M -r" + + DOC_IDX=$(wcalc -q "$DOC_IDX - 1") + DOC=$(echo $PAGE | $JQ ".hits[$DOC_IDX]") + DOC_ISTEXID=$(echo $DOC | $JQ ".id") + DOC_FULLTEXT=$(echo $DOC | $JQ ".fulltext") + DOC_METADATA=$(echo $DOC | $JQ ".metadata") + DOC_NB_METADATA=$(echo $DOC_METADATA | $JQ ". | length") + DOC_NB_FULLTEXT=$(echo $DOC_FULLTEXT | $JQ ". | length") + + echo "--> Téléchargement du document $DOC_ISTEXID (nb meta = $DOC_NB_METADATA ; nb ft = $DOC_NB_FULLTEXT)" + + # On télécharge les métadonnées du document + for DOC_META_IDX in $(seq 1 $DOC_NB_METADATA) + do + DOC_META_IDX=$(wcalc -q "$DOC_META_IDX - 1") + URI=$(echo $DOC_METADATA | $JQ ".[$DOC_META_IDX].uri") + FILETYPE=$(echo $DOC_METADATA | $JQ ".[$DOC_META_IDX].extension") + FILENAME="$DOC_ISTEXID.$FILETYPE" + curl -s $URI > $FILENAME + echo "--> Métadonnées téléchargé : $FILENAME" + done + + # On télécharge les plein textes du document + for DOC_FT_IDX in $(seq 1 $DOC_NB_FULLTEXT) + do + DOC_FT_IDX=$(wcalc -q "$DOC_FT_IDX - 1") + URI=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].uri") + FILETYPE=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].extension") + FILENAME="$DOC_ISTEXID.$FILETYPE" + curl -s $URI > $FILENAME + echo "--> Plein texte téléchargé : $FILENAME" + done diff --git a/bash/harvest-perf.sh b/bash/harvest-perf.sh index 4e3a2f7..fc32456 100755 --- a/bash/harvest-perf.sh +++ b/bash/harvest-perf.sh @@ -45,7 +45,7 @@ NB_HITS=$(echo $PAGE | $JQ ".hits | length") # On récupère les différents documents (hits) de la page - seq 1 $NB_HITS | parallel --gnu "./get_docs.sh {}" + seq 1 $NB_HITS | parallel --gnu "./get_docs.sh {} $PAGE" #for DOC_IDX in $(seq 1 $NB_HITS) #do