Grosse intervention technique vendredi 6 novembre

U

ne grosse intervention technique est prévue sur les serveurs de la plateforme vendredi prochain 6 novembre, à partir de 21h.

Cette intervention permettra de mettre à jour les alimentations de certains équipements pour se conformer à de nouvelles spécifications du datacenter qui nous héberge, mais elle consistera surtout en l’amélioration et l’installation de nouveaux serveurs :

  • le serveur MySQL verra sa mémoire vive doublée, passant de 4 à 8 Go
  • un nouveau serveur frontal Web neuf sera installé en remplacement d’un des deux frontaux actuels (emma)
  • l’ancien frontal actuel (emma) sera installé en remplacement du serveur qui héberge actuellement le bureau et l’interface d’administration (elsa)
  • l’ancien serveur du bureau (elsa) sera définitivement démobilisé après de nombreuses années de bons et loyaux services

Cette intervention plutôt lourde entraînera de fortes perturbations pendant la soirée de vendredi, dont une coupure totale des services qui ne devrait pas excéder quelques minutes. Nous espérons que l’installation du nouveau serveur permettra d’améliorer sensiblement les problèmes de lenteur de ces dernières semaines.

7 novembre, 1h30 : fin de l’intervention. La coupure de services a duré environ deux heures. Les alims ont été changées, le nouveau frontal a été mis en place. Faute de temps cependant, l’augmentation de RAM du serveur SQL et le remplacement d’elsa par l’ancienne emma n’ont pas pu être effectués et sont reportés à une prochaine intervention.

Coupure momentanée de la plateforme (Maj 22h15)

15h45 : Suite aux problèmes rencontrés pendant le week-end, l’équipe technique a décidé d’effectuer un redémarrage complet de la plateforme. Compte tenu du nombre de serveurs, une coupure momentanée mais totale des services est en cours.

Nous mettrons à jour dès que les services seront revenus, merci de votre patience.

16h15 : Nous sommes dans l’attente de l’intervention d’un technicien du datacenter où sont hébergés nos serveurs. Cette intervention prend malheureusement plus de temps que prévu…

16h38 : Le technicien est intervenu, poursuite du redémarrage des services.

17h27 : Les services sont repartis, mais les pages Web dynamiques sont toujours extrêmement lentes…

22h15 : Les services devraient être revenus à la normale.

Correction d’un bug lié aux nouveaux mails et listes

Depuis environ deux jours, la création d’adresses mails et de listes mailman n’était plus fonctionnelle : impossibilité de se connecter au webmail, messages rejetés, etc.

Ces difficultés étaient liées à une désynchronisation de réplicats de bases de données. Le souci a été corrigé ce soir et normalement tout devrait être rentré dans l’ordre.

Correction d’un bug dans les relances de cotisation

Un bug quelque peu ancien a été corrigé dans la journée. Depuis la mi septembre 2008, les avertissements jusqu’alors envoyés aux membres 60 jours et 30 jours avant échéance de leur cotisation ne fonctionnaient plus. Seul le message d’alerte une fois l’échéance passée était envoyé.

Le bug a été corrigé et une série de rappel de cotisations a donc été envoyée en fin de matinée. Nous espérons que cela pourra réduire le nombre de paiements en retard. Au passage, pensez à vérifier que l’adresse de contact de votre compte est toujours valide et active.

Corruption de données

En fin de matinée du 7 janvier, le filer de notre plateforme a perdu sa baie de disques. L’alimentation de ses disques a été interrompue.

Le temps de comprendre ce qui s’était passé, et le temps de relancer le filer pour qu’il vérifie les partitions de données (ce qui a pris plus de 2h), additionnés de quelques effets de bords, le service a été rétabli à 16:15 ; la page d’indisponibilité a été brièvement enlevée, le temps de vérifier que des données avaient été corrompues par la panne de la baie.

Un arrêt du filer pour procéder à un examen approfondi, et une réparation de la partition de données a été lancée. Procédure qui a pris plus de 24h.

Sur la période, l’ensemble des services de l’Autre Net a été interrompu, ne laissant qu’une page d’indisponibilité à la connaissance des visisteurs des sites web hébergés.

Les comptes ayant fait des modifications de fichiers le 07-01 (transferts de fichiers) ont perdu des données. Les bases de données n’ont rien.

Les sites du type SPIP, utilisant des fichiers de cache doivent se faire réinitialiser le cache, mais tous les ajouts d’articles sont conservés. Les images et fichiers joints ajoutés ce jour là par contre, sont probablement corrompus.

  • Un backup intégral du 18-12 est à disposition des adhérents pour récupérer les données qui ont été perduse.
  • des recherches sont possibles sur les fichiers corrompus, pour retrouver des données importantes modifiées entre le 18-12 et le 07-01.