Panne SQL-01 08/10

Bonjour,

 

Quelques jours après la panne de notre serveur SQL, nous revenons vers vous pour vous expliquer ce qu’il s’est passé.

 

Tout d’abord, SQL-01 est une machine  » historique  » qui est là depuis les débuts de l’association avec tout simplement 0 coupure ( à l’exception des 2 déménagements ) et qui est partagée entre plusieurs serveurs Plesk ( 4 au total ).

 

Il a été décidé, il y a plusieurs semaines, qu’il fallait remplacer cette machine par un cluster SQL ( plusieurs machines SQL ). Nous avions planifié cela dans quelques semaines de notre côté ( Fin novembre ).
Malheureusement, ce serveur qui tournait bien depuis tout ce temps ( exception faite des quelques ralentissements en heures de pointe ), s’est mis a partir en vrille.

MariaDB a décidé de planter de manière récurrente, sans erreur, rien. Dans les logs, nous voyons juste une extinction propre du service comme si il avait été éteint volontairement, ce qui n’est pas le cas.

A ce moment là, nous sommes samedi soir….

Nous relançons le service MySQL, une fois, deux fois.. Il finit par tenir.

Dimanche, 1h31 :

Le serveur SQL retombe. Nos équipes interviennent afin de le remettre en ligne, et c’est à ce moment que nous avons ENFIN une erreur dans le logs :

* buffer overflow detected *: /usr/sbin/mysqld terminated

Nous pensons que cette coupure est dûe aux sauvegardes, qui ont générées un grand nombre de réquêtes au même moment.

Ce serveur est en effet assez chargé en terme de base de données, traffic.. Cela peut s’expliquer. Nous avons gonflé la configuration de la machine mais rien n’y fait, MySQL nous rejette toujours une erreur au redémarrage :

sql-01 mysql[503]: Starting MariaDB database server: mysqld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . failed!

 

Dans la matinée, nous avons réussi a refaire partir le serveur, nous avons immédiatement relancé une sauvegarde, afin d’avoir un export SQL le plus à jour possible. Le serveur a continué à tourner quelques petites heures, et rebellote, il retombe.

Nous repassons l’après midi dessus, il finit par encore repartir. En parallèle, nous préparons également le cluster qui devait être mis en place à la fin novembre pour migrer dessus au plus vite. Nous montons également un 2ème cluster avec la sauvegarde des bases faites à 10h, dans le cas ou la copie ne marcherait pas.

Nous décidons le soir de couper le serveur, lancer le transfert des bases ( Avec divers soucis qui s’y sont invités entre temps ).

Vers 22h, le serveur retombe. Il ne repartira jamais.

Plus de retour en arrière possible. Nous allumons le cluster avec les bases les plus à jour.
Verdict : Il démarre bien, tourne bien, et tout est bien répliqué en temps réel. Il est environ 23h.

Nous le surveillons quelques temps et tout va bien, nous décidons donc d’aller nous coucher ( Il est 2h30, on y est depuis le matin tout de même ).

Les 4 serveurs du pool retomberont, les uns après les autres dans la nuit.

Le dernier tient jusqu’au matin. Lundi, 8h30, le dernier SQL lâche. Nous le redémarrons, nous revenons dans le même cas de figure que le premier, la remise d’un serveur dans le cluster de base de données fait tomber tout le serveur et on recommence, etc etc …

Mardi matin, une solution provisoire est trouvée !

Lors de la migration, certains bases sont passées en MyISAM. La solution de clustering que nous utilisons ne supporte QUE InnoDB.
Mardi matin, nous repassons toutes les base MyISAM en InnoDB.

Depuis, le serveur est en ligne, et aucune coupure depuis ( Uptime de 16h au moment où nous écrivons ).

 

La suite  ???

Nous allons remettre en place le cluster comme initialement prévu. Nous avons maintenant un serveur stable, c’est le bon moment et tout sera expliqué dans un notre article afin, encore une fois d’être le plus transparent possible avec vous.

 

Proxgroup présente une nouvelle fois ses excuses à tous les clients touchés par cette panne.

Nous proposons à nos clients qui ont subi cette coupure de prolonger leur abonnement de la manière suivante :

  • Offre au mois ->  1 Semaine offerte
  • Offre au trimestre -> 2 Semaines offerte
  • Offre semi annuelle -> 3 Semaines offert
  • Offre annuelle -> 1 mois offert

Nous tenons également à souligner que cette panne est un incident majeur chez nous, que nous n’avions jamais eu d’aussi longues coupures ( La plus longue étant la coupure électrique ) et que nos services dans l’ensemble d’une bonne stabilité sur laquelle les bénévoles de l’association œuvre tous les jours pour vous fournir un service de qualité.

Si vous souhaitez discuter de cet incident, notre équipe reste ouverte à toutes vos questions par ticket, par commentaire sur cet article et sur notre forum.

 

L’équipe Proxgroup.

Avatar de Frédéric
Frédéric

Merci pour le super boulot ! De l'hébergement web au top comme toujours !


Avatar de Benoît
Benoît

Bonjour à tous, Simplement bravo. J'imagine la galère, les "petites" poussées de stress ...et le temps passé ! Alors, tout refonctionne et c'est très bien. Je vous félicite pour l'investissement. Cordialement


Avatar de Xavier
Xavier

Bonjour. Je ne sais pas si tous les utilisateurs sont des spécialistes comme vous, mais ça serait sympa d'avoir une version pour les béotiens, parce que moi, je n'ai pas compris grand chose ! :-) Et je n'arrive pas à faire le lien avec la panne SQL et les problèmes sur les répertoires TEMP introuvables qui sont survenus par la suite, sans parler des problèmes e-mails semble-t-il perdus en ce qui me concerne. Merci néanmoins d'avoir rétabli les services. XT


Envie de rajouter quelque chose ? :) :

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *