Intervention du 16/05/2009 [MaJ 02:03]

Une intervention a eu lieu (sur filer1 et filer2) et a provoqué une coupure du service web de 12 minutes.

Un serveur auquel nous n’avons pas touché a décider de tomber (defi). Ce dernier héberge les mails et les listes de diffusions

Dès que nous avons plus d’info, nous les mettrons ici. Nous sommes en intervention. Un root se tiens prêt à se (re-)déplacer physiquement pour porter assistance à la machine incriminée.

Maj de 01h30 :
Grâce a l’intervention sur place de l’un des roots, nous avons put récupérer un accès à Defi. Ce dernier a deux disques dur de sa baie de disque qui sont indiqué comme HS, et le système de fichier nécessite une analyse (fsck, équivalent de scandisk).
Nous sommes actuellement en train de sauvegarder les données de Defi, avant de lancer une analyse du disque dur, puis d’agir en fonction.

Le transfert et l’analyse dureront à priori toute la nuit. Nous ne faisons pas de pronostic : la perte d’un disque dur n’est pas grave (RAID), la perte de deux disque d’un coup l’est beaucoup plus. En outre, la corruption du système de fichier nous inquiète.

Maj de 03h40 :
Nous avons put reconstruire la configuration web et ainsi redémarré les serveurs web. Aucune données concernant les sites web n’est impacté par la panne.
L’analyse du système de fichiers corrompu de defi est en cours.

Maj de 10h20 :
L’analyse du système de fichier a terminé sa première passe à 07h42. Il a automatiquement commencé la seconde passe.
Wait & see.

Maj de 19h10 :
Toujours en train d’analyser le système de fichier.
Nous sommes toujours dans l’expectative, nous ne pouvons rien faire sauf attendre.

Maj de 09h39 :
Ce matin, à 7h, l’analyse du système de fichier était terminé. Nous ne savons pas dans quel états ils sont, nous transférons les fichiers sur un autre serveur.

Maj de 01h35 (mardi) :
Vers midi nous avions récupéré une partie des données sur un serveur tempo. A 16h nous avons préparé le nouveau serveur de fichier. Transfert des fichiers du serveur tempo vers le serveur definitif.
Vers 20h, le transfert était fait. Redémarrage du nouveau serveur de fichier pour qu’on soit bien d’accord lui et nous sur son but dans la vie (a savoir : démarrer sagement, et une fois démarré, servir des fichiers).
Reconfiguration des frontaux web.
21h : les frontaux web sont avec la nouvelle conf.
21h30 : le bureau est de retour, en https uniquement. https://admin.lautre.net fonctionne, http://admin.lautre.net ne fonctionne pas. On regardera plus tard.
22h : les frontaux web sont de nouveau vivant. Délestage des frontaux web et du mx secondaire qui étaient en standby.
23h : probleme avec les replicats sql, ce qui créé des pb d’imap. Deux réplicats repartent, un troisieme est mort (et bien mort). Sa réparation est réporté a demain, ses clients sont répartis sur d’autres réplicats.
23h40 : Les serveurs de courrier assument leurs chargent. Nous forcons les différents serveur resté actif pendant la panne a servir leurs courriers.

Etat actuel de la plateforme :
Le bureau ne fonctionne qu’en https.
Le reste doit normalement tourner.
Nous n’avons aucune idée d’a quel point les mails et les archives de mailing list on pu souffrir.
Tout les services monitorés sont au vert.

Intervention prévue à court terme :
Sauvegarde puis extinction définitive de Defi. Danse rituelle autour de sa carcasse afin d’apaiser les mauvais esprits.
Mise en place de sauvegarde sur le nouveau serveur de fichier.
Réparation du réplicat SQL incriminé.
Réparation de l’http pour le bureau.
Repos des roots.

Maj 02h03 :
Replicat SQL réparé.

Correction d’un bug lié aux nouveaux mails et listes

Depuis environ deux jours, la création d’adresses mails et de listes mailman n’était plus fonctionnelle : impossibilité de se connecter au webmail, messages rejetés, etc.

Ces difficultés étaient liées à une désynchronisation de réplicats de bases de données. Le souci a été corrigé ce soir et normalement tout devrait être rentré dans l’ordre.

Correction d’un bug dans les relances de cotisation

Un bug quelque peu ancien a été corrigé dans la journée. Depuis la mi septembre 2008, les avertissements jusqu’alors envoyés aux membres 60 jours et 30 jours avant échéance de leur cotisation ne fonctionnaient plus. Seul le message d’alerte une fois l’échéance passée était envoyé.

Le bug a été corrigé et une série de rappel de cotisations a donc été envoyée en fin de matinée. Nous espérons que cela pourra réduire le nombre de paiements en retard. Au passage, pensez à vérifier que l’adresse de contact de votre compte est toujours valide et active.

Appel à contibution – groupe de travail “Aide-rédaction”

Un nouveau groupe de travail baptisé “Aide – rédaction” vient d’être mis en place. Ce groupe sera chargé de :

  • dans un premier temps, restructurer le wiki aide pour le rendre ergonomique
  • dans un second temps, compléter le wiki aide
  • dans un troisieme temps, faire de la veille sur la liste aide et sur les changements lautriens pour completer le wiki au fur et a mesure

Le but serait d’avoir, à terme, un wiki agréable, complet et tenu à jour.
Ça serait beau, n’est-ce pas ?

Pour cela, nous comptons sur vous. Nous invitons donc les personnes intéressées à se rendre dans le bureau Alternc, et d’aller dans la section “Inscription aux listes” pour s’inscrire à la liste aide-redac@listes.lautre.net.

Passage des quotas d’espace disque à 1Go

Suite à l’installation récente des nouveaux serveurs de fichiers et à leur mise en production, et conformément à ce qui avit été annoncé il y a quelques mois, le quota d’espace disque pour l’ensemble des membres vient d’être passé de 512Mo à 1Go.

Un peu plus d’espace, donc, pour stocker vos mails, vos données et les fichiers qui composent vos sites Web…

Migration des données vers les nouveaux serveurs de fichier.

Les nouveaux serveurs de fichiers venant remplacer Defi (notre ancien filer et sa baie de disques SCSI) sont arrivés et installés dans notre baie.
Une longue opération de maintenance visant a synchroniser les données et a basculer sur les nouveaux serveurs va débuter.

Durant cette opération, plusieurs coupures de services sont a prévoir notamment a partir de ce dimanche soir 1 mars 2009.

Nouveau routeur

Un nouveau routeur est entré en fonction cette nuit, en remplacement de l’un des deux anciens routeurs, ayant montrés des signes de faiblesse. Son voisin ira le rejoindre tout prochainement, pour obtenir un accès fiable et redondé à la plateforme.

Service de gestion de bugs

Un service de gestion d’incidents a été mis en production, ouvert à tous les adhérents, pour signaler une défaillance et demander une réparation du service.

Il est disponible sur http://bugs.lautre.net/ ; il est conseillé de se créer un compte sur le système pour pouvoir suivre l’évolution des tickets d’incident qui y seront créés.

Corruption de données

En fin de matinée du 7 janvier, le filer de notre plateforme a perdu sa baie de disques. L’alimentation de ses disques a été interrompue.

Le temps de comprendre ce qui s’était passé, et le temps de relancer le filer pour qu’il vérifie les partitions de données (ce qui a pris plus de 2h), additionnés de quelques effets de bords, le service a été rétabli à 16:15 ; la page d’indisponibilité a été brièvement enlevée, le temps de vérifier que des données avaient été corrompues par la panne de la baie.

Un arrêt du filer pour procéder à un examen approfondi, et une réparation de la partition de données a été lancée. Procédure qui a pris plus de 24h.

Sur la période, l’ensemble des services de l’Autre Net a été interrompu, ne laissant qu’une page d’indisponibilité à la connaissance des visisteurs des sites web hébergés.

Les comptes ayant fait des modifications de fichiers le 07-01 (transferts de fichiers) ont perdu des données. Les bases de données n’ont rien.

Les sites du type SPIP, utilisant des fichiers de cache doivent se faire réinitialiser le cache, mais tous les ajouts d’articles sont conservés. Les images et fichiers joints ajoutés ce jour là par contre, sont probablement corrompus.

  • Un backup intégral du 18-12 est à disposition des adhérents pour récupérer les données qui ont été perduse.
  • des recherches sont possibles sur les fichiers corrompus, pour retrouver des données importantes modifiées entre le 18-12 et le 07-01.