diff --git a/bash/get_page.sh b/bash/get_page.sh index ea114c0..51aa8f6 100755 --- a/bash/get_page.sh +++ b/bash/get_page.sh @@ -6,21 +6,27 @@ # ######################################################################## -# Arguments ligne de commande +# Conf +PAGE_SIZE=10 +# Arguments ligne de commande +PAGE_N="$1" +ISTEX_URI="$2" # Outils JQ="jq -c -M -r" # On récupère les différents documents (hits) de la page -for DOC_IDX in $(seq 1 $NB_HITS) - do + echo "--> Téléchargement de la page $PAGE_N/$TOTAL_PAGE" FROM=$(wcalc -q "$PAGE_N.0 * $PAGE_SIZE") URL="$ISTEX_URI&from=$FROM&output=fulltext,metadata" PAGE=$(curl -s $URL) NB_HITS=$(echo $PAGE | $JQ ".hits | length") + for DOC_IDX in $(seq 1 $NB_HITS) + do + DOC_IDX=$(wcalc -q "$DOC_IDX - 1") DOC=$(echo $PAGE | $JQ ".hits[$DOC_IDX]") DOC_ISTEXID=$(echo $DOC | $JQ ".id") @@ -41,7 +47,7 @@ curl -s $URI > $FILENAME echo "--> Métadonnées téléchargé : $FILENAME" done - + # On télécharge les plein textes du document for DOC_FT_IDX in $(seq 1 $DOC_NB_FULLTEXT) do @@ -52,4 +58,5 @@ curl -s $URI > $FILENAME echo "--> Plein texte téléchargé : $FILENAME" done + done diff --git a/bash/harvest-perf.sh b/bash/harvest-perf.sh index 7715896..7c93d00 100755 --- a/bash/harvest-perf.sh +++ b/bash/harvest-perf.sh @@ -11,6 +11,9 @@ # apt-get install wcalc # +# ---------------------------------------------------------------------- +# Configuration locale +# ---------------------------------------------------------------------- URL="$1" if [ -z "$URL" ]; then @@ -21,6 +24,10 @@ ISTEX_QUERY="degrowth%20AND%20ecology" ISTEX_URI="$URL/document/?q=$ISTEX_QUERY&size=$PAGE_SIZE" +# ---------------------------------------------------------------------- +# Outils +# ---------------------------------------------------------------------- + # Outil JQ permettant de manipuler le JSON en ligne de commande # http://stedolan.github.io/jq/ JQ="jq -c -M -r" @@ -35,52 +42,53 @@ echo "--> Téléchargement de $TOTAL_DOC documents" # On récupère les pages de resultats une par une +for PAGE_N in $(seq 0 $TOTAL_PAGE) +do -seq 0 $TOTAL_PAGE | parallel --gnu "./get_page.sh {}" - -#for PAGE_N in $(seq 0 $TOTAL_PAGE) -#do - - #echo "--> Téléchargement de la page $PAGE_N/$TOTAL_PAGE" - #FROM=$(wcalc -q "$PAGE_N.0 * $PAGE_SIZE") - #URL="$ISTEX_URI&from=$FROM&output=fulltext,metadata" - #PAGE=$(curl -s $URL) - #NB_HITS=$(echo $PAGE | $JQ ".hits | length") + echo "--> Téléchargement de la page $PAGE_N/$TOTAL_PAGE" + FROM=$(wcalc -q "$PAGE_N.0 * $PAGE_SIZE") + URL="$ISTEX_URI&from=$FROM&output=fulltext,metadata" + PAGE=$(curl -s $URL) + NB_HITS=$(echo $PAGE | $JQ ".hits | length") # On récupère les différents documents (hits) de la page - #for DOC_IDX in $(seq 1 $NB_HITS) - #do - #DOC_IDX=$(wcalc -q "$DOC_IDX - 1") - #DOC=$(echo $PAGE | $JQ ".hits[$DOC_IDX]") - #DOC_ISTEXID=$(echo $DOC | $JQ ".id") - #DOC_FULLTEXT=$(echo $DOC | $JQ ".fulltext") - #DOC_METADATA=$(echo $DOC | $JQ ".metadata") - #DOC_NB_METADATA=$(echo $DOC_METADATA | $JQ ". | length") - #DOC_NB_FULLTEXT=$(echo $DOC_FULLTEXT | $JQ ". | length") + for DOC_IDX in $(seq 1 $NB_HITS) + do + DOC_IDX=$(wcalc -q "$DOC_IDX - 1") + DOC=$(echo $PAGE | $JQ ".hits[$DOC_IDX]") + DOC_ISTEXID=$(echo $DOC | $JQ ".id") + DOC_FULLTEXT=$(echo $DOC | $JQ ".fulltext") + DOC_METADATA=$(echo $DOC | $JQ ".metadata") + DOC_NB_METADATA=$(echo $DOC_METADATA | $JQ ". | length") + DOC_NB_FULLTEXT=$(echo $DOC_FULLTEXT | $JQ ". | length") - ## On récupère le document dont l'istexid a été extrait - #echo "--> Téléchargement du document $DOC_ISTEXID (nb meta = $DOC_NB_METADATA ; nb ft = $DOC_NB_FULLTEXT)" + # On récupère le document dont l'istexid a été extrait + echo "--> Téléchargement du document $DOC_ISTEXID (nb meta = $DOC_NB_METADATA ; nb ft = $DOC_NB_FULLTEXT)" - #for DOC_META_IDX in $(seq 1 $DOC_NB_METADATA) - #do - #DOC_META_IDX=$(wcalc -q "$DOC_META_IDX - 1") - #URI=$(echo $DOC_METADATA | $JQ ".[$DOC_META_IDX].uri") - #FILETYPE=$(echo $DOC_METADATA | $JQ ".[$DOC_META_IDX].extension") - #FILENAME="$DOC_ISTEXID.$FILETYPE" - #curl -s $URI > $FILENAME - #echo "--> Métadonnées téléchargé : $FILENAME" - #done + for DOC_META_IDX in $(seq 1 $DOC_NB_METADATA) + do + DOC_META_IDX=$(wcalc -q "$DOC_META_IDX - 1") + URI=$(echo $DOC_METADATA | $JQ ".[$DOC_META_IDX].uri") + FILETYPE=$(echo $DOC_METADATA | $JQ ".[$DOC_META_IDX].extension") + FILENAME="$DOC_ISTEXID.$FILETYPE" + curl -s $URI > $FILENAME + echo "--> Métadonnées téléchargé : $FILENAME" + done - ## On télécharge les plein textes du document - #for DOC_FT_IDX in $(seq 1 $DOC_NB_FULLTEXT) - #do - #DOC_FT_IDX=$(wcalc -q "$DOC_FT_IDX - 1") - #URI=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].uri") - #FILETYPE=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].extension") - #FILENAME="$DOC_ISTEXID.$FILETYPE" - #curl -s $URI > $FILENAME - #echo "--> Plein texte téléchargé : $FILENAME" - #done + # On télécharge les plein textes du document + for DOC_FT_IDX in $(seq 1 $DOC_NB_FULLTEXT) + do + DOC_FT_IDX=$(wcalc -q "$DOC_FT_IDX - 1") + URI=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].uri") + FILETYPE=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].extension") + FILENAME="$DOC_ISTEXID.$FILETYPE" + curl -s $URI > $FILENAME + echo "--> Plein texte téléchargé : $FILENAME" + done - #done + done done + + + +