Newer
Older
istex-api-harvester / bash / get_docs.sh
@perrin perrin on 11 Aug 2015 1 KB Commit -- 11/08/2015 @ 08:14:31
#!/usr/bin/env bash
########################################################################
#
# Récupère les documents (META + FT) d'un résultat de recherche
# (pour être parallélisé)
#
########################################################################

    DOC_IDX=$(wcalc -q "$DOC_IDX - 1")
    DOC=$(echo $PAGE | $JQ ".hits[$DOC_IDX]")
    DOC_ISTEXID=$(echo $DOC | $JQ ".id")
    DOC_FULLTEXT=$(echo $DOC | $JQ ".fulltext")
    DOC_METADATA=$(echo $DOC | $JQ ".metadata")
    DOC_NB_METADATA=$(echo $DOC_METADATA | $JQ ". | length")
    DOC_NB_FULLTEXT=$(echo $DOC_FULLTEXT | $JQ ". | length")

    echo "--> Téléchargement du document $DOC_ISTEXID (nb meta = $DOC_NB_METADATA ; nb ft = $DOC_NB_FULLTEXT)"

    # On télécharge les métadonnées du document
    for DOC_META_IDX in $(seq 1 $DOC_NB_METADATA)
    do
      DOC_META_IDX=$(wcalc -q "$DOC_META_IDX - 1")
      URI=$(echo $DOC_METADATA | $JQ ".[$DOC_META_IDX].uri")
      FILETYPE=$(echo $DOC_METADATA | $JQ ".[$DOC_META_IDX].extension")
      FILENAME="$DOC_ISTEXID.$FILETYPE"
      curl -s $URI > $FILENAME
      echo "--> Métadonnées téléchargé : $FILENAME"
    done
    
    # On télécharge les plein textes du document
    for DOC_FT_IDX in $(seq 1 $DOC_NB_FULLTEXT)
    do
      DOC_FT_IDX=$(wcalc -q "$DOC_FT_IDX - 1")
      URI=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].uri")
      FILETYPE=$(echo $DOC_FULLTEXT | $JQ ".[$DOC_FT_IDX].extension")
      FILENAME="$DOC_ISTEXID.$FILETYPE"
      curl -s $URI > $FILENAME
      echo "--> Plein texte téléchargé : $FILENAME"
    done