Intervention du 23/24 mai 2009

Une intervention d’envergure a été effectuée ce week afin de mettre a jour la plate forme de l’association. Au programme des réjouissances :

– Réinstallation des backups mail, systeme, html en backup croisés sur les deux serveurs de fichier
– Mise a jour des systèmes (debian etch) vers Debian Lenny. Cette mise à jour importante sur le plan sécurité a été appliquée sur les machines suivante :
– elga (serveurs hébergeant machines virtuelles et stats web)
– emma (webserver 1)
– ella (webserver 2)
– etna (mailserver primaire 1)
– eyra (mailserver primaire 2)
– elsa (bureau et mailing list)
– Migration des serveurs web (ella et emma) vers apache2 et optimisation des configurations
– Suppression definitive de eaccelerator (precompilateur PHP) et remplacement par APC

Un énorme travail a été effectué sur alternC (le logiciel gérant le panel d’administration) afin de fournir au projet nos patchs et évolutions.

De ce travail est née une nouvelle version proposée a la communauté (AlternC 0.9.10-PRE1) qui sera validée dans les jours a venir (+ de 11000 lignes de code proposées).

Reste à valider :

– listes de diffusions (mailman) a stabiliser, et réinitialiser les listes des utilisateurs maudits par la derniere panne du serveur de fichier
– statistiques web (a priori ok mais à vérifier après rotation journalière demain lundi 25 mai 2009).

Dans le cas où vous constateriez des soucis sur votre compte ou un quelconque service de l’association, nous vous demandons d’ouvrir un ticket sur l’interface de gestion de bug :

http://bugs.lautre.net

N’oubliez pas d’etre le plus précis possible et de préciser le login de votre compte et vos coordonnées pour que nous recontactions.

[update 26 mai 2009]

– Les listes mailman sont de nouveau fonctionnelles.
– Le serveur d’authentification (freeradius) est de nouveau opérationnel, l’accès a usenet est donc possible de nouveau.

Intervention du 16/05/2009 [MaJ 02:03]

Une intervention a eu lieu (sur filer1 et filer2) et a provoqué une coupure du service web de 12 minutes.

Un serveur auquel nous n’avons pas touché a décider de tomber (defi). Ce dernier héberge les mails et les listes de diffusions

Dès que nous avons plus d’info, nous les mettrons ici. Nous sommes en intervention. Un root se tiens prêt à se (re-)déplacer physiquement pour porter assistance à la machine incriminée.

Maj de 01h30 :
Grâce a l’intervention sur place de l’un des roots, nous avons put récupérer un accès à Defi. Ce dernier a deux disques dur de sa baie de disque qui sont indiqué comme HS, et le système de fichier nécessite une analyse (fsck, équivalent de scandisk).
Nous sommes actuellement en train de sauvegarder les données de Defi, avant de lancer une analyse du disque dur, puis d’agir en fonction.

Le transfert et l’analyse dureront à priori toute la nuit. Nous ne faisons pas de pronostic : la perte d’un disque dur n’est pas grave (RAID), la perte de deux disque d’un coup l’est beaucoup plus. En outre, la corruption du système de fichier nous inquiète.

Maj de 03h40 :
Nous avons put reconstruire la configuration web et ainsi redémarré les serveurs web. Aucune données concernant les sites web n’est impacté par la panne.
L’analyse du système de fichiers corrompu de defi est en cours.

Maj de 10h20 :
L’analyse du système de fichier a terminé sa première passe à 07h42. Il a automatiquement commencé la seconde passe.
Wait & see.

Maj de 19h10 :
Toujours en train d’analyser le système de fichier.
Nous sommes toujours dans l’expectative, nous ne pouvons rien faire sauf attendre.

Maj de 09h39 :
Ce matin, à 7h, l’analyse du système de fichier était terminé. Nous ne savons pas dans quel états ils sont, nous transférons les fichiers sur un autre serveur.

Maj de 01h35 (mardi) :
Vers midi nous avions récupéré une partie des données sur un serveur tempo. A 16h nous avons préparé le nouveau serveur de fichier. Transfert des fichiers du serveur tempo vers le serveur definitif.
Vers 20h, le transfert était fait. Redémarrage du nouveau serveur de fichier pour qu’on soit bien d’accord lui et nous sur son but dans la vie (a savoir : démarrer sagement, et une fois démarré, servir des fichiers).
Reconfiguration des frontaux web.
21h : les frontaux web sont avec la nouvelle conf.
21h30 : le bureau est de retour, en https uniquement. https://admin.lautre.net fonctionne, http://admin.lautre.net ne fonctionne pas. On regardera plus tard.
22h : les frontaux web sont de nouveau vivant. Délestage des frontaux web et du mx secondaire qui étaient en standby.
23h : probleme avec les replicats sql, ce qui créé des pb d’imap. Deux réplicats repartent, un troisieme est mort (et bien mort). Sa réparation est réporté a demain, ses clients sont répartis sur d’autres réplicats.
23h40 : Les serveurs de courrier assument leurs chargent. Nous forcons les différents serveur resté actif pendant la panne a servir leurs courriers.

Etat actuel de la plateforme :
Le bureau ne fonctionne qu’en https.
Le reste doit normalement tourner.
Nous n’avons aucune idée d’a quel point les mails et les archives de mailing list on pu souffrir.
Tout les services monitorés sont au vert.

Intervention prévue à court terme :
Sauvegarde puis extinction définitive de Defi. Danse rituelle autour de sa carcasse afin d’apaiser les mauvais esprits.
Mise en place de sauvegarde sur le nouveau serveur de fichier.
Réparation du réplicat SQL incriminé.
Réparation de l’http pour le bureau.
Repos des roots.

Maj 02h03 :
Replicat SQL réparé.