vp-istex-es2 est tombé #137

Closed paul opened this issue on 8 Jul 2016 - 6 comments

@paul paul commented on 8 Jul 2016

Salut,

L'API ne répondait plus ce matin car la machine vp-istex-es2 semble morte. J'ai donc branché l'API sur un autre nœud. Je ne crois pas avoir accès au monitoring des VM comme Claude. Est-ce que vous avez une idée de ce qu'il s'est passé ? Car du coup la production était en rade alors même que nous nous faisons harvest...

@scheffer scheffer commented on 8 Jul 2016

vp-istex-es2 n'est pas tombée.
Du point de vue du système, la machine n'a pas cessé de fonctionner, elle est même stable depuis au moins les trois jours derniers.
un problème applicatif?

@paul paul commented on 8 Jul 2016

Je n'arrive pas à la pinger n'y à m'y connecter en ssh. Une idée ?

@scheffer scheffer commented on 8 Jul 2016

L'idée c'est que vp-istex-es2 s'appelle depuis mars 2015 vp-istex-index.

@paul paul commented on 8 Jul 2016

Zut ça m'avait échappé ça. Merci.
elasticsearch semble s'être arrêté sans raison particulièrement. Il y a eu un événement particulier qui aurait pu le conduire à se stopper (non-applicatif je veux dire) ?

@paul paul commented on 8 Jul 2016

Ok, en examinant les logs de plus prêt j'ai une piste. Il semblerait que le garbage collector de la JVM n'avait plus suffisamment de RAM dédiée et a swappé.

En l’occurrence c'est un parametre ulimit qui est en cause :
max locked memory (kbytes, -l) 64

Tu peux l'augmenter s'il te plaît ? à 128 dans un premier temps, on verra si ça tient comme ça. Merci :-)

Si tu pouvais augmenter la max open files à 64000 ça serait cool aussi, stp.

Et je pense que ce genre de prob risque également de se produire sur les autres nœuds. C'est arrivé sur celui-ci en premier car il était master. En cause, un de nos vieux index qui n'a pas encore été supprimé et qui a 6M de documents. Je sais pas ce que Claude compte en faire.

En conséquence, tu peux répercuter ces modif du ulimit sur les autres bécane vp-istex-es* ?

@scheffer scheffer commented on 8 Jul 2016

C'est fait.
Il faut relancer les sessions pour la prise en compte des nouveaux paramètres.

@ponticel ponticel closed this issue on 26 Jul 2016
Labels

Priority
No priority
Milestone
No milestone
Assignee
No one
3 participants
@paul @scheffer @ponticel