Nouveau test d'indexation corpus Elsevier sur vp-istex-index #28

Closed niederle opened this issue on 9 Mar 2015 - 7 comments

@niederle niederle commented on 9 Mar 2015

Pour corser le tout, un snapshot global est en cours (en principe, ça ne gène pas Elasticsearch)

Après un abandon hier (j'avais été un peu trop gourmand...), je reprend le test ce matin :

  • 12 bulks de 100 documents envoyés en parallèle
  • heap size à 8 Go
  • jConsole activée

Ressources utilisées :

  • CPU ~ 50%
  • Heap size qui oscille entre 1 et 6,5 Go

Traitement partiellement terminé, les fichiers d'index étant incomplets. je reprendrai plus tard...
Par contre Elasticsearch a encaissé les 1.7M de docs sans broncher

@niederle niederle closed this issue on 10 Mar 2015
@ringot ringot commented on 10 Mar 2015

Les 4 courbes en vis à vis

JConsoleAll_10_mars_2013

La courbe mémoire

JConsoleMem_10_mars_2013

@niederle niederle referenced the issue on 10 Mar 2015

reprise du test.
Indexation du corpus complet Elsevier (~ 6 millions de docs) dans les mêmes condiftions

@niederle niederle reopened the issue on 10 Mar 2015
@ringot ringot commented on 10 Mar 2015

Ne pas oublier à la fin du test de noter le nombre exact de documents indexés ainsi que le temps complet pris par cette opération d'indexation.

@ringot ringot commented on 10 Mar 2015

On constaté un arrêt vers 18h18, suivi d'un petit plateau CPU et de l'activité disque en ecriture (dans les diagrammes VSphere). Puis vers 19h10, plus d'activité CPU.

IndexationNumero2du10MarsJVM

Traitement terminé avec succès :

  • 6 015 066 documents indexés en 217min et 12 sec, soit 3h37.
  • Vitesse moyen d'indexation : 4609 doc/sec
  • Aucune erreur (ni rejet, ni timeout)
  • Nb total de docs indexés tous corpus confondus : 13 651 633

Prochaines étapes :
1) snapshot
2) réplications pour mise à disposition de l'API

@niederle niederle closed this issue on 11 Mar 2015
Labels

Priority
No priority
Milestone
No milestone
Assignee
@niederle niederle
2 participants
@niederle @ringot