Filer HS

Update (samedi 15 nov 11h 50): We’re back online!

L’infra (http) est down, parcequ’on a un soucis de filer..
En voulant mettre en prod les SSDs, le kernel n’a pas été aussi content que prévu.

Update (samedi 15 nov, 2h00): la maintenance se poursuit, une opération est terminée, c’est bon signe. Par contre, pour une raison très bête, il faut une intervention humaine. La suite demain matin donc.

En mode plus geek : le volume logique qui contient les données des sites web a bien été migré vers les SSD, mais à cause du crash du kernel, xfs a besoin de reconstruire sa base de quota, avant de monter la partition. Problème: ça explose en consommation mémoire (16G + swap mangés comme des petits pains), du coup mount se fait tuer, et le boot échoue (grosso modo).
Du coup demain matin quelqu’un (merci encore encore liazo) devrait aller désactiver les quotas, espérant que ça refasse tomber tout ça en marche.

On vous tient au courant.

Infra down – résolu

Bonjour/Bonsoir,

pour la deuxieme fois « aujourd’hui », l’infra ne répond plus. Hier après-midi, nous avons redémarré le switch (merci Fred!) ce qui a relancé la machine. Vu que les symptômes sont les mêmes, il y a fort à parier que ce soit le switch qui refasse des siennes.

Bref, on sait, on s’en occupe, il faut le changer, et configurer le nouveau. Normalement rien ne sera perdu, la magie d’avoir plusieurs serveurs mails.

Désolé pour la gène occasionnée.

Grâce à un switch de prêt (merci aux copains de chez Liazo) on a pu remettre l’infra d’aplomb. Une maintenance sera à prévoir lorsque nous recevrons nos switch dans les jours à venir pour repasser en fonctionnement nominal. Merci particulièrement à olive, fremo et cephick!

Gros travail de mise à jour en cours.

Un grand chantier de mise a jour de l’ensemble de la plateforme vers la nouvelle version de Debian est en cours sur lautre.net depuis quelques jours. Comme a chaque mise a jour majeure des distributions, l’équipe technique travaille serveur par serveur dans chaque grappe de machine.

Ainsi chaque mise à jour est effectuée sur l’un des frontaux (web, mail etc …) mais jamais simultanément sur les deux serveurs de façon à garantir le service en cas de problème. De cette manière, si l’une des mise à jour devait mal se passer, le service continuerait à être opérationnel, en mode certes un peu dégradé mais opérationnel tout de même.

C’est justement ce que nous vivons actuellement, preuve s’il en faut que la méthode n’est pas mauvaise.

Nous rencontrons des soucis sur la couche NFS de GNU/Debian Squeeze, qui semble mal fonctionner en l’état. Nous sommes en train d’investiguer pour comprendre où se situe le problème et avons donc décidé de stopper les mises a jour des autres frontaux tant que ce ne sera pas résolu.

De fait, actuellement, sur les deux frontaux web, l’un d’eux sert 90% de la charge de la plateforme (plusieurs milliers de sites web) ce qui explique les quelques latences que vous pouvez constater.

Le second frontal web (nouvellement migré) ne sert que 10% de la charge (avec difficultés).

Il faut comprendre que le service NFS nous permet de lier les serveurs web, mail, etc… au contenu hébergé sur la plateforme. Il est donc vital que la communication se passe bien et ce n’est pas le cas.

Plus nous équilibrerons la charge, plus le service sera lent, plus ce serveur sera lent et plus il ralentira les serveurs de fichier.

Parrallèlement à cela, nous sommes en train de finaliser les mise à jour d’un autre serveur (Elga pour les intimes), le serveur qui héberge :

  • le service de machine virtuelle SSH,
  • le calcul des statistiques web,
  • le service jabber en test.
Une troisième machine, etna, qui sert de frontal mail est aussi en cours de mise à jour, et est actuellement coupée tant que les services ne seront pas correctement reconfigurés.

Si tout se passe bien les services de statistiques web, ainsi que le service de machines virtuelles devrait être de retour ce soir ou au pire a la fin du week-end.

Nous ne manquerons pas de vous tenir informés sur l’évolution de ce travail en alimentant le présent billet.

Probleme sur la plate-forme

Bonjour,

Depuis ce matin 01h, la plateforme est injoignable.
Nous travaillons activement dessus afin de la rétablir dans les meilleurs délai.

Nous ne manquerons pas de vous tenir au courant dès que nous auront des informations concrète sur l’heure du rétablissement.

Edit : Il semblerait qu’il y ai eu un problème électrique dans le data-center cette nuit.

Edit de 15h : tout est réparé. La coupure de courant a endommagé du matériel de notre prestataire internet, dans l’attente du changement de matériel une solution de secours a été mise en place.

Incident important sur la plateforme ce soir

Un problème sur un filer entraîne de fortes perturbations sur la plateforme ce soir. Les listes et mails ne fonctionnent plus et certains sites sont sans doute impactés également.

Les roots sont au courant et vont travailler dessus dès que possible, merci de votre patience.

Mise à jour 22:30 : le problème vient du fait qu’une partition n’a plus d’inodes de libres. Nous avons dépacé quelques données pour régler temporairement le problème.

Mise à jour 00:20 : à nouveau des problèmes par intermittence. Le service de news et donc les forums internes ont été arrêtés temporairement.

Mise à jour 23/09 : le problème est résolu, les services refonctionnent normalement, seules les news refonctionneront très prochainement.

Coupure momentanée de la plateforme (Maj 22h15)

15h45 : Suite aux problèmes rencontrés pendant le week-end, l’équipe technique a décidé d’effectuer un redémarrage complet de la plateforme. Compte tenu du nombre de serveurs, une coupure momentanée mais totale des services est en cours.

Nous mettrons à jour dès que les services seront revenus, merci de votre patience.

16h15 : Nous sommes dans l’attente de l’intervention d’un technicien du datacenter où sont hébergés nos serveurs. Cette intervention prend malheureusement plus de temps que prévu…

16h38 : Le technicien est intervenu, poursuite du redémarrage des services.

17h27 : Les services sont repartis, mais les pages Web dynamiques sont toujours extrêmement lentes…

22h15 : Les services devraient être revenus à la normale.

Plateforme inaccessible ce week-end

Suite à des problèmes dont nous n’avons pas encore cerné l’origine, la plateforme a été quasiment inaccessible tout au long du week-end, avec des sites Web extrêmement ralentis ou remplacés par la page de maintenance.

Une intervention ce matin semble avoir amélioré la situation, sans que nous puissions garantir une résolution complète et durable. Nous comptons sur l’achat et l’installation d’un nouveau frontal Web dans les semaines qui viennent pour apporter une vraie amélioration à ces problèmes de lenteur.

Merci pour votre patience.

Intervention du 16/05/2009 [MaJ 02:03]

Une intervention a eu lieu (sur filer1 et filer2) et a provoqué une coupure du service web de 12 minutes.

Un serveur auquel nous n’avons pas touché a décider de tomber (defi). Ce dernier héberge les mails et les listes de diffusions

Dès que nous avons plus d’info, nous les mettrons ici. Nous sommes en intervention. Un root se tiens prêt à se (re-)déplacer physiquement pour porter assistance à la machine incriminée.

Maj de 01h30 :
Grâce a l’intervention sur place de l’un des roots, nous avons put récupérer un accès à Defi. Ce dernier a deux disques dur de sa baie de disque qui sont indiqué comme HS, et le système de fichier nécessite une analyse (fsck, équivalent de scandisk).
Nous sommes actuellement en train de sauvegarder les données de Defi, avant de lancer une analyse du disque dur, puis d’agir en fonction.

Le transfert et l’analyse dureront à priori toute la nuit. Nous ne faisons pas de pronostic : la perte d’un disque dur n’est pas grave (RAID), la perte de deux disque d’un coup l’est beaucoup plus. En outre, la corruption du système de fichier nous inquiète.

Maj de 03h40 :
Nous avons put reconstruire la configuration web et ainsi redémarré les serveurs web. Aucune données concernant les sites web n’est impacté par la panne.
L’analyse du système de fichiers corrompu de defi est en cours.

Maj de 10h20 :
L’analyse du système de fichier a terminé sa première passe à 07h42. Il a automatiquement commencé la seconde passe.
Wait & see.

Maj de 19h10 :
Toujours en train d’analyser le système de fichier.
Nous sommes toujours dans l’expectative, nous ne pouvons rien faire sauf attendre.

Maj de 09h39 :
Ce matin, à 7h, l’analyse du système de fichier était terminé. Nous ne savons pas dans quel états ils sont, nous transférons les fichiers sur un autre serveur.

Maj de 01h35 (mardi) :
Vers midi nous avions récupéré une partie des données sur un serveur tempo. A 16h nous avons préparé le nouveau serveur de fichier. Transfert des fichiers du serveur tempo vers le serveur definitif.
Vers 20h, le transfert était fait. Redémarrage du nouveau serveur de fichier pour qu’on soit bien d’accord lui et nous sur son but dans la vie (a savoir : démarrer sagement, et une fois démarré, servir des fichiers).
Reconfiguration des frontaux web.
21h : les frontaux web sont avec la nouvelle conf.
21h30 : le bureau est de retour, en https uniquement. https://admin.lautre.net fonctionne, http://admin.lautre.net ne fonctionne pas. On regardera plus tard.
22h : les frontaux web sont de nouveau vivant. Délestage des frontaux web et du mx secondaire qui étaient en standby.
23h : probleme avec les replicats sql, ce qui créé des pb d’imap. Deux réplicats repartent, un troisieme est mort (et bien mort). Sa réparation est réporté a demain, ses clients sont répartis sur d’autres réplicats.
23h40 : Les serveurs de courrier assument leurs chargent. Nous forcons les différents serveur resté actif pendant la panne a servir leurs courriers.

Etat actuel de la plateforme :
Le bureau ne fonctionne qu’en https.
Le reste doit normalement tourner.
Nous n’avons aucune idée d’a quel point les mails et les archives de mailing list on pu souffrir.
Tout les services monitorés sont au vert.

Intervention prévue à court terme :
Sauvegarde puis extinction définitive de Defi. Danse rituelle autour de sa carcasse afin d’apaiser les mauvais esprits.
Mise en place de sauvegarde sur le nouveau serveur de fichier.
Réparation du réplicat SQL incriminé.
Réparation de l’http pour le bureau.
Repos des roots.

Maj 02h03 :
Replicat SQL réparé.

Corruption de données

En fin de matinée du 7 janvier, le filer de notre plateforme a perdu sa baie de disques. L’alimentation de ses disques a été interrompue.

Le temps de comprendre ce qui s’était passé, et le temps de relancer le filer pour qu’il vérifie les partitions de données (ce qui a pris plus de 2h), additionnés de quelques effets de bords, le service a été rétabli à 16:15 ; la page d’indisponibilité a été brièvement enlevée, le temps de vérifier que des données avaient été corrompues par la panne de la baie.

Un arrêt du filer pour procéder à un examen approfondi, et une réparation de la partition de données a été lancée. Procédure qui a pris plus de 24h.

Sur la période, l’ensemble des services de l’Autre Net a été interrompu, ne laissant qu’une page d’indisponibilité à la connaissance des visisteurs des sites web hébergés.

Les comptes ayant fait des modifications de fichiers le 07-01 (transferts de fichiers) ont perdu des données. Les bases de données n’ont rien.

Les sites du type SPIP, utilisant des fichiers de cache doivent se faire réinitialiser le cache, mais tous les ajouts d’articles sont conservés. Les images et fichiers joints ajoutés ce jour là par contre, sont probablement corrompus.

  • Un backup intégral du 18-12 est à disposition des adhérents pour récupérer les données qui ont été perduse.
  • des recherches sont possibles sur les fichiers corrompus, pour retrouver des données importantes modifiées entre le 18-12 et le 07-01.