probleme raid

Bonjour à tous,

Avant toute chose, nous souhaitons présenter nos excuses à l’ensemble de nos clients impactés par cette coupure.

Nous allons essayer d’être le plus clair possible vis à vis de ce qu’il s’est passé.

Depuis quelques mois, l’association évolue dans le bon sens et grandit. Nous avons de plus en plus de clients, ce qui implique une augmentation de la charge des serveurs et du stockage. Nous constatons depuis quelques semaines des latences aléatoires en fonction de la charge. Nous avons donc pris la décision de sortir les VPS des baies de stockage dédiés des hôtes physiques avec un RAID en direct dessus. Les serveurs seront rackés le 19/01.

Pour revenir sur l’incident d’hier, actuellement notre infrastructure est composé de cette manière :

  • 6 serveurs physiques
    • Dont 4 pour la production client ( Hébergements Mutualisés + VPS )
    • Dont 2 pour les besoins internes ( Messagerie, outils internes… )
  • 4 baies de stockage

Les serveurs sont connectés aux baies de stockage via un lien iSCSI ( Lien virtuel de protocole de stockage ), et c’est ce lien qui nous a fait défaut sur une des baies.
Un des serveurs internes ne répondant plus, nous avons décidé de le redémarrer électriquement. Cela aurait dû être sans effet, mais la loi de Murphy s’étant mêlés de l’incident, un effet boule de neige s’est produit. La dizaine de machines virtuelles ont tenté de redémarrer sur le 2ème serveur dédié a l’intranet, ces 10 machines ont donc tirées sur les disques, impactant toute la production, faisant planter un à un les serveurs dédié à la production.

Vers 23h, la décision a été prise de stopper l’ensemble des serveurs électriquement. Nous avons relancé 1 seul serveur dans un premier temps, et nous nous sommes aperçus que le lien iSCSI ne répondait pas. Nous l’avons donc relancé, et les machines virtuelles ont bien redémarrées.

Nous avons donc relancé tous les serveurs. Et arrivé au serveur interne 06, le lien iSCSI est de nouveau tombé, et tous les serveurs avec. Nous l’avons donc éteint, relancé l’iSCSI et les autres serveurs sont bien repartis.

Le serveur en question a été isolé, et un de nos technicien est sur place dès ce matin afin d’identifier l’origine de l’incident.

Et maintenant ?

Nous allons attendre la mise en place du nouveau cluster VPS le 19/01 avant d’intervenir. Nous allons mettre en place un second lien iSCSI afin d’éviter que l’incident se reproduise.

Le passage des VPS sur une infrastructure devrait également alléger grandement les baies de stockage.

Pour toute(s) question sur cet incident, notre support technique reste à votre entière disposition.

Leave A Comment

What’s happening in your mind about this post !

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *