diff --git a/bash/harvest-perf.sh b/bash/harvest-perf.sh index c218923..4e3a2f7 100755 --- a/bash/harvest-perf.sh +++ b/bash/harvest-perf.sh @@ -45,22 +45,21 @@ NB_HITS=$(echo $PAGE | $JQ ".hits | length") # On récupère les différents documents (hits) de la page - for DOC_IDX in $(seq 1 $NB_HITS) - do - DOC_IDX=$(wcalc -q "$DOC_IDX - 1") - DOC=$(echo $PAGE | $JQ ".hits[$DOC_IDX]") - DOC_ISTEXID=$(echo $DOC | $JQ ".id") - DOC_FULLTEXT=$(echo $DOC | $JQ ".fulltext") - DOC_METADATA=$(echo $DOC | $JQ ".metadata") - DOC_NB_METADATA=$(echo $DOC_METADATA | $JQ ". | length") - DOC_NB_FULLTEXT=$(echo $DOC_FULLTEXT | $JQ ". | length") + seq 1 $NB_HITS | parallel --gnu "./get_docs.sh {}" + + #for DOC_IDX in $(seq 1 $NB_HITS) + #do + #DOC_IDX=$(wcalc -q "$DOC_IDX - 1") + #DOC=$(echo $PAGE | $JQ ".hits[$DOC_IDX]") + #DOC_ISTEXID=$(echo $DOC | $JQ ".id") + #DOC_FULLTEXT=$(echo $DOC | $JQ ".fulltext") + #DOC_METADATA=$(echo $DOC | $JQ ".metadata") + #DOC_NB_METADATA=$(echo $DOC_METADATA | $JQ ". | length") + #DOC_NB_FULLTEXT=$(echo $DOC_FULLTEXT | $JQ ". | length") - # On récupère le document dont l'istexid a été extrait - echo "--> Téléchargement du document $DOC_ISTEXID (nb meta = $DOC_NB_METADATA ; nb ft = $DOC_NB_FULLTEXT)" - - # On télécharge les métadonnées du document - seq 1 $DOC_NB_METADATA | parallel --gnu "./get_doc.sh {} $DOC_ISTEXID" - + ## On récupère le document dont l'istexid a été extrait + #echo "--> Téléchargement du document $DOC_ISTEXID (nb meta = $DOC_NB_METADATA ; nb ft = $DOC_NB_FULLTEXT)" + #for DOC_META_IDX in $(seq 1 $DOC_NB_METADATA) #do #DOC_META_IDX=$(wcalc -q "$DOC_META_IDX - 1") @@ -71,16 +70,16 @@ #echo "--> Métadonnées téléchargé : $FILENAME" #done - # On télécharge les plein textes du document - for DOC_FT_IDX in $(seq 1 $DOC_NB_FULLTEXT) - do - DOC_FT_IDX=$(wcalc -q "$DOC_FT_IDX - 1") - URI=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].uri") - FILETYPE=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].extension") - FILENAME="$DOC_ISTEXID.$FILETYPE" - curl -s $URI > $FILENAME - echo "--> Plein texte téléchargé : $FILENAME" - done + ## On télécharge les plein textes du document + #for DOC_FT_IDX in $(seq 1 $DOC_NB_FULLTEXT) + #do + #DOC_FT_IDX=$(wcalc -q "$DOC_FT_IDX - 1") + #URI=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].uri") + #FILETYPE=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].extension") + #FILENAME="$DOC_ISTEXID.$FILETYPE" + #curl -s $URI > $FILENAME + #echo "--> Plein texte téléchargé : $FILENAME" + #done - done + #done done