Panne des services mails et listes de diffusion

Depuis ce dimanche 17 décembre 2023 après-midi, un équipement visiblement mal redondé entraîne des perturbations de service sur l’infrastructure de L’Autre Net.

Les mails et listes de diffusions sont parmi les plus impactés. Les sites internet ne demandant que peu d’accès disque sont fonctionnels.

Un premier passage au centre de données a permis de diagnostiquer une panne d’alimentation. Un second passage ce mardi matin a permis de mettre en production un tout nouveau switch pour résoudre la situation.

Tout est rentré dans l’ordre. Merci pour votre confiance et votre patience.

Panne du filer (coupure web générale)

Entre le 7 et le 11 décembre 2021, suite à une panne, puis une réparation, puis divers souci de reconfiguration du filer (machine de stockage principale) de Lautre Net, l’ensemble des sites web a subi des interruptions de plusieurs heures.

Le filer a été reinstallé et une copie en temps réel est en cours d’installation, qui devrait permettre de rétablir la situation plus rapidement en cas de problème.

Nous sommes désolé de la gêne occasionée, les roots se sont relayés pour réparer ce filer, tout semble OK à ce jour.

Panne du panel & accélération

Bonjour à toutes et à tous,

Suite à un problème de processus de renouvellement pour le certificat wildcar « *.lautre.net », une panne des mails pop/imap ainsi que du panel a eu lieu ce 25 juin 2020 de 8h à 11h.

Après renouvellement du certificat, les services de mail et du panel sont revenus à la normale. Aucun mail n’a du être perdu pendant cette opération

Dans ce contexte, nous avons trouvé un bug dans le code spécifique de Lautre Net dans AlternC, qui provoquait 10 à 12 secondes d’attente à chaque page du panel ! C’est désormais corrigé, et le panel decrait être beaucoup plus rapide !

Indisponibilité dans la nuit du 18 au 19 décembre

Bonjour à tous,

vous aurez peut-être remarqué que vos sites n’étaient pas joignables dans la nuit du 18 au 20 (de minuit et demi à environ 10h du matin).
Notre filer nous a encore fait une blague: pas de perte de données, juste un plantage difficile à diagnostiquer.
Et comme il a eu la bonne idée de faire ça juste après l’heure du coucher des roots, la situation a trainé.

Tout devrait être rentré dans l’ordre.

Indisponibilité du 19/20 février

Nos sites Internet sont restés injoignables pendant quelques heures hier, et certains de nos mails aussi.

La situation devrait être rentré dans l’ordre. C’était du à .. une incompatibilité entre les deux version d’AlternC; l’actuelle et celle vers laquelle nous migrons. Désolé pour le désagrément!

filer HS

Update (samedi 15 nov 11h 50): We’re back online!

L’infra (http) est down, parcequ’on a un soucis de filer..
En voulant mettre en prod les SSDs, le kernel n’a pas été aussi content que prévu.

Update (samedi 15 nov, 2h00): la maintenance se poursuit, une opération est terminée, c’est bon signe. Par contre, pour une raison très bête, il faut une intervention humaine. La suite demain matin donc.

En mode plus geek : le volume logique qui contient les données des sites web a bien été migré vers les SSD, mais à cause du crash du kernel, xfs a besoin de reconstruire sa base de quota, avant de monter la partition. Problème: ça explose en consommation mémoire (16G + swap mangés comme des petits pains), du coup mount se fait tuer, et le boot échoue (grosso modo).
Du coup demain matin quelqu’un (merci encore encore liazo) devrait aller désactiver les quotas, espérant que ça refasse tomber tout ça en marche.

On vous tient au courant.

Infra down – résolu

Bonjour/Bonsoir,

pour la deuxieme fois « aujourd’hui », l’infra ne répond plus. Hier après-midi, nous avons redémarré le switch (merci Fred!) ce qui a relancé la machine. Vu que les symptômes sont les mêmes, il y a fort à parier que ce soit le switch qui refasse des siennes.

Bref, on sait, on s’en occupe, il faut le changer, et configurer le nouveau. Normalement rien ne sera perdu, la magie d’avoir plusieurs serveurs mails.

Désolé pour la gène occasionnée.

Grâce à un switch de prêt (merci aux copains de chez Liazo) on a pu remettre l’infra d’aplomb. Une maintenance sera à prévoir lorsque nous recevrons nos switch dans les jours à venir pour repasser en fonctionnement nominal. Merci particulièrement à olive, fremo et cephick!

Attaque DoS en cours sur la plateforme

Bonjour,

Une partie du routage vers notre plateforme est actuellement bloquée suite à une attaque contre nos serveurs par Déni de Service de plusieurs Gbps en amplification DNS : en terme simple, une tempête si forte qu’on n’a d’autres choix que de fermer les volets en attendant que le calme ne revienne.

Si vous avez des difficultés à consulter vos e-mails avec votre logiciel habituel, vous pouvez accéder au webmail

N’hésitez pas à rejoindre nos bénévoles sur IRC

Mise à jour – 11/02/2014 :

Nous avons décidé de répartir les sites sur plusieurs adresses IP pour ventiler le plus possible. Nous espérons donc pouvoir identifier les sites visés, pour potentiellement les isoler; évitant de paralyser toute l’infra. Il se peut donc que vous ayez des soucis de résolution DNS.

Excusez la nature technique de nos propos, mais nous n’avons pas le temps de rendre cela plus simple. Je vous invite donc de nouveau, à rejoindre nos bénévoles sur IRC pour de plus amples informations. Attention, temps de réponse non garanti 

Mise à jour – 12/02/2014 :

Un ticket unique a été créé pour centraliser les soucis d’accès à l’infra à l’adresse https://bugs.lautre.net/index.php?do=details&task_id=257

Quoi de neuf chez lautre.net?

Dans un billet précédent, nous avions identifié 3 points pour les évolutions de lautre.net:

  • supprimer les IPs publiques des frontaux
  • mettre à jour AlternC (le bureau)
  • rajouter un/des serveurs MySQL

Depuis environ 2 semaines, nous avons supprimé les IPs des frontaux web. Contrairement à ce qui a été annoncé, mêmes les sites qui avaient gardé les IPs des frontaux en dur continuent de fonctionner (les répartiteurs de chargent portent encore ces adresses pour des raisons de rétro-compatibilité). Une étape de moins donc! Il nous reste à valider l’installation de nouveaux frontaux, pour passer au point suivant.

Pour ce qui est de la mise à jour d’AlternC, les avis sont partagés. D’une part, la nouvelle version d’AlternC demande plus de ressources (puisque le serveur web prend l’identité de l’utilisateur, plus de processus sont créés, entrainant une hausse de consommation). La mise à plat des frontaux permet donc de contrer ce premier argument, c’est en bon chemin.
Ensuite, la nouvelle version d’AlternC n’a pas été testé à aussi grande échelle que lautre.net. Couplé aux disponibilités décroissantes des roots, cela implique que si l’infra tombe, il sera plus difficile de diagnostiquer et corriger. C’est encore en débat donc.

Le 3ème point n’a que peu évolué, puisqu’il dépend beaucoup du précédent.

Concernant les ralentissements perçus sur l’acheminement des mails, il s’agit semble-t-il d’une recrudescence d’envoi de SPAM qui aurait provoqué cette gène. D’un point de vue système, tout est ok.

Pour ce qui est des statistiques, nous avons effectivement constaté que le robot avait cessé de fonctionner pendant quelques jours. Après un redémarrage manuel, ça semblait OK pour ce jour là. Reste à vérifier si c’est le cas. Pour ces quelques jours manquants, il se pourrait que ce soit également du à la mise à jour de l’infra, qui fausse ce jeu de stats. (mode jargon: on utilise un reverse proxy en front, qui ne relayait pas l’adresse du visiteur mais celle du proxy).

Voilà un petit peu pour ce qui se passe en ce moment. Désolé pour le manque de communication de ces derniers temps.

Mise à jour:

Deux choses.

  1. Du fait du reverse proxy (oui le truc qui a cassé les stats), vous ne pouvez plus vous fier aux IP des visiteurs dans vos htaccess. Les directives allow from <<ip>> sont donc inopérantes (pour l’instant, on travaille à résoudre cela).
  2. À cause d’une charge importante sur les machines, nous avons choisi de désactiver l’execution de programmes depuis php. Les fonctions type exec sont donc maintenant désactivées, avec effet immédiat. Espérant que cela ne perturbe pas trop vos sites (sinon, contactez-nous  )

Roadmap prévisionelle

Voici la liste des projets techniques officiels dans les tuyaux:

Supprimer les IP publiques des frontaux. Conséquence: si des gens n’utilisent pas l’IP 80.67.160.70, leur site ne fonctionnera plus.
Mettre à jour AlternC en 3.1. Conséquence: ça risque de casser beaucoup de choses, mais nous prévoyons une migration en douceur. Toute fois, il y a fort à parier que ce ne soit pas transparent. On attend donc des retours et une aide rédactionnelle pour « ce qu’il faut faire pour réparer ».
Rajout de serveur(s) MySQL. Conséquence: modifier un chouilla la conf de vos cms pour taper dans le bon.
Le reste devrait être trensparent pour vous!