Intervention du 16/05/2009 [MaJ 02:03]

Une intervention a eu lieu (sur filer1 et filer2) et a provoqué une coupure du service web de 12 minutes.

Un serveur auquel nous n’avons pas touché a décider de tomber (defi). Ce dernier héberge les mails et les listes de diffusions

Dès que nous avons plus d’info, nous les mettrons ici. Nous sommes en intervention. Un root se tiens prêt à se (re-)déplacer physiquement pour porter assistance à la machine incriminée.

Maj de 01h30 :
Grâce a l’intervention sur place de l’un des roots, nous avons put récupérer un accès à Defi. Ce dernier a deux disques dur de sa baie de disque qui sont indiqué comme HS, et le système de fichier nécessite une analyse (fsck, équivalent de scandisk).
Nous sommes actuellement en train de sauvegarder les données de Defi, avant de lancer une analyse du disque dur, puis d’agir en fonction.

Le transfert et l’analyse dureront à priori toute la nuit. Nous ne faisons pas de pronostic : la perte d’un disque dur n’est pas grave (RAID), la perte de deux disque d’un coup l’est beaucoup plus. En outre, la corruption du système de fichier nous inquiète.

Maj de 03h40 :
Nous avons put reconstruire la configuration web et ainsi redémarré les serveurs web. Aucune données concernant les sites web n’est impacté par la panne.
L’analyse du système de fichiers corrompu de defi est en cours.

Maj de 10h20 :
L’analyse du système de fichier a terminé sa première passe à 07h42. Il a automatiquement commencé la seconde passe.
Wait & see.

Maj de 19h10 :
Toujours en train d’analyser le système de fichier.
Nous sommes toujours dans l’expectative, nous ne pouvons rien faire sauf attendre.

Maj de 09h39 :
Ce matin, à 7h, l’analyse du système de fichier était terminé. Nous ne savons pas dans quel états ils sont, nous transférons les fichiers sur un autre serveur.

Maj de 01h35 (mardi) :
Vers midi nous avions récupéré une partie des données sur un serveur tempo. A 16h nous avons préparé le nouveau serveur de fichier. Transfert des fichiers du serveur tempo vers le serveur definitif.
Vers 20h, le transfert était fait. Redémarrage du nouveau serveur de fichier pour qu’on soit bien d’accord lui et nous sur son but dans la vie (a savoir : démarrer sagement, et une fois démarré, servir des fichiers).
Reconfiguration des frontaux web.
21h : les frontaux web sont avec la nouvelle conf.
21h30 : le bureau est de retour, en https uniquement. https://admin.lautre.net fonctionne, http://admin.lautre.net ne fonctionne pas. On regardera plus tard.
22h : les frontaux web sont de nouveau vivant. Délestage des frontaux web et du mx secondaire qui étaient en standby.
23h : probleme avec les replicats sql, ce qui créé des pb d’imap. Deux réplicats repartent, un troisieme est mort (et bien mort). Sa réparation est réporté a demain, ses clients sont répartis sur d’autres réplicats.
23h40 : Les serveurs de courrier assument leurs chargent. Nous forcons les différents serveur resté actif pendant la panne a servir leurs courriers.

Etat actuel de la plateforme :
Le bureau ne fonctionne qu’en https.
Le reste doit normalement tourner.
Nous n’avons aucune idée d’a quel point les mails et les archives de mailing list on pu souffrir.
Tout les services monitorés sont au vert.

Intervention prévue à court terme :
Sauvegarde puis extinction définitive de Defi. Danse rituelle autour de sa carcasse afin d’apaiser les mauvais esprits.
Mise en place de sauvegarde sur le nouveau serveur de fichier.
Réparation du réplicat SQL incriminé.
Réparation de l’http pour le bureau.
Repos des roots.

Maj 02h03 :
Replicat SQL réparé.