Hello,
J'ai besoin de conseil/aide pour le serveur d'un client.
Le serveur est un scale a4, un raid1 pour / et un autre raid1 pour /home.
256Go de RAM, 48 coeurs/96 threads, bref, une belle bestiole.
En temps normal, ce serveur ronronne... Il tourne parfaitement bien... Un load average <5, <128Go de ram utilisée, les disques sont zen, en moyenne entre 10 et 20 connexions sql simultanées.
On est sur 600 à 700 requêtes seconde (sur le sgbd), 80% de SELECT, bref, rien d'insurmontable pour ce serveur.
Mais, environ, 1x / semaine, ce serveur décide de me casser les c...lles...
Sur le SGBD les requêtes restent "bloquées", généralement sur "Statistics".
Impossible de kill ces requêtes, le kill xx ne fait rien du tout, malgré innodb_lock_wait_timeout = 50 / wait_timeout = 300 / interactive_timeout = 300 les requêtes ne sont pas kill par le système, et il est même impossible d'arrêter le serveur sql... Tout ce que je vais avoir dans les logs à l'arrêt c'est : [Warning] /usr/sbin/mariadbd: Thread 660021 (xxx) did not exit...
Je dois kill le process (mariadb), le relancer... Là évidemment j'ai des tas de tables qui sont marquées crashed, je dois lancer des check/repairs sur tout ce beau monde...
Puis, une fois relancé, tout fonctionne à nouveau à merveille pendant plusieurs jours avant de recommencer...
Je n'ai strictement rien dans les logs, ni alerte sur la ram, le cpu, le raid, les disques... Les logs sql sont particulièrement muets également...
Il n'y a pas d'activité particulièrement élevée avant le blocage, ça se met à partir en live d'un coup...
L'open file limit est ok et n'est pas responsable du problème non plus.
Je suis franchement à bout d'idée... En dehors du bug tout est clean, pendant le bug je n'ai pas bcp de tps pour faire des tests car le client râle vu que ses sites sont down...
J'ai éventuellement dans l'idée de passer en rescue pour tester la RAM, mais je doute qu'il y ait un problème à ce niveau, et ça implique à nouveau un downtime, même si je dois pouvoir tester une partie de la RAM en prod...
@le_sbraz une idée de ce qui pourrait provoquer ces bugs ?
Quelqu'un d'autre ?