Indisponibilité dans la nuit du 18 au 19 décembre

Bonjour à tous,

vous aurez peut-être remarqué que vos sites n’étaient pas joignables dans la nuit du 18 au 20 (de minuit et demi à environ 10h du matin).
Notre filer nous a encore fait une blague: pas de perte de données, juste un plantage difficile à diagnostiquer.
Et comme il a eu la bonne idée de faire ça juste après l’heure du coucher des roots, la situation a trainé.

Tout devrait être rentré dans l’ordre.

Attaque DoS en cours sur la plateforme

Bonjour,

Une partie du routage vers notre plateforme est actuellement bloquée suite à une attaque contre nos serveurs par Déni de Service de plusieurs Gbps en amplification DNS : en terme simple, une tempête si forte qu’on n’a d’autres choix que de fermer les volets en attendant que le calme ne revienne.

Si vous avez des difficultés à consulter vos e-mails avec votre logiciel habituel, vous pouvez accéder au webmail

N’hésitez pas à rejoindre nos bénévoles sur IRC

Mise à jour – 11/02/2014 :

Nous avons décidé de répartir les sites sur plusieurs adresses IP pour ventiler le plus possible. Nous espérons donc pouvoir identifier les sites visés, pour potentiellement les isoler; évitant de paralyser toute l’infra. Il se peut donc que vous ayez des soucis de résolution DNS.

Excusez la nature technique de nos propos, mais nous n’avons pas le temps de rendre cela plus simple. Je vous invite donc de nouveau, à rejoindre nos bénévoles sur IRC pour de plus amples informations. Attention, temps de réponse non garanti 🙂

Mise à jour – 12/02/2014 :

Un ticket unique a été créé pour centraliser les soucis d’accès à l’infra à l’adresse https://bugs.lautre.net/index.php?do=details&task_id=257

Quoi de neuf chez lautre.net?

Dans un billet précédent, nous avions identifié 3 points pour les évolutions de lautre.net:

  • supprimer les IPs publiques des frontaux
  • mettre à jour AlternC (le bureau)
  • rajouter un/des serveurs MySQL

Depuis environ 2 semaines, nous avons supprimé les IPs des frontaux web. Contrairement à ce qui a été annoncé, mêmes les sites qui avaient gardé les IPs des frontaux en dur continuent de fonctionner (les répartiteurs de chargent portent encore ces adresses pour des raisons de rétro-compatibilité). Une étape de moins donc! Il nous reste à valider l’installation de nouveaux frontaux, pour passer au point suivant.

Pour ce qui est de la mise à jour d’AlternC, les avis sont partagés. D’une part, la nouvelle version d’AlternC demande plus de ressources (puisque le serveur web prend l’identité de l’utilisateur, plus de processus sont créés, entrainant une hausse de consommation). La mise à plat des frontaux permet donc de contrer ce premier argument, c’est en bon chemin.
Ensuite, la nouvelle version d’AlternC n’a pas été testé à aussi grande échelle que lautre.net. Couplé aux disponibilités décroissantes des roots, cela implique que si l’infra tombe, il sera plus difficile de diagnostiquer et corriger. C’est encore en débat donc.

Le 3ème point n’a que peu évolué, puisqu’il dépend beaucoup du précédent.

Concernant les ralentissements perçus sur l’acheminement des mails, il s’agit semble-t-il d’une recrudescence d’envoi de SPAM qui aurait provoqué cette gène. D’un point de vue système, tout est ok.

Pour ce qui est des statistiques, nous avons effectivement constaté que le robot avait cessé de fonctionner pendant quelques jours. Après un redémarrage manuel, ça semblait OK pour ce jour là. Reste à vérifier si c’est le cas. Pour ces quelques jours manquants, il se pourrait que ce soit également du à la mise à jour de l’infra, qui fausse ce jeu de stats. (mode jargon: on utilise un reverse proxy en front, qui ne relayait pas l’adresse du visiteur mais celle du proxy).

Voilà un petit peu pour ce qui se passe en ce moment. Désolé pour le manque de communication de ces derniers temps.

Mise à jour:

Deux choses.

  1. Du fait du reverse proxy (oui le truc qui a cassé les stats), vous ne pouvez plus vous fier aux IP des visiteurs dans vos htaccess. Les directives allow from <<ip>> sont donc inopérantes (pour l’instant, on travaille à résoudre cela).
  2. À cause d’une charge importante sur les machines, nous avons choisi de désactiver l’execution de programmes depuis php. Les fonctions type exec sont donc maintenant désactivées, avec effet immédiat. Espérant que cela ne perturbe pas trop vos sites (sinon, contactez-nous :-))

 

Lenteurs sur la plateforme

Bonjour à tous,

un petit billet pour vous confirmer que oui, nous savons que la plateforme est lente en ce moment.
Il y a plusieurs explications, dont le serveur MySQL, ou plutôt l’usage qui en est fait.

Cependant, comme l’a dit fufroma par mail, nous avons bon espoir que la mise à jour d’AlternC améliore considérablement la situation, tout en fournissant de nouvelles fonctionnalités. Un peu de patience donc, cette mise à jour est envisagée pour la fin du mois de mars environ.

Plus de détails, plus tard. Merci!

Perturbations sur la plateforme

Nous vous parlions sur la liste assemblee@ de problèmes sur l’infra remonté par notre fournisseur d’accès. Et pour cause! Comme vous pouvez le voir sur l’image (le pic vers le bas), nous consommons habituellement environ 10M/s (ligne rouge), mais au moment du pic de consommation (vers 16h30) nous avons atteint quasiment 70M/s!!

pic de consommation

Le motif a été identifié: un des site des membre a été corrompu, et a servi à mener une attaque de plus grande envergure contre (semble-t-il) un organisme bancaire.

Qu’est-ce que ça change pour nous?

À l’heure actuelle, les connexions sortantes vers des sites sécurisés (HTTPS) ont été désactivé sur les frontaux. Si vous avez des sites qui vérifient des mises à jour, où font de la syndication de contenus distants en HTTPS, ceux-ci ne fonctionneront plus. Nous attendons que le membre concerné prenne les mesures nécessaires avant de ré-ouvrir les flux.

Une petite conclusion?

Mettez à jours les logiciels que vous utilisez sur l’infra. Oh puis au passage, celle là est cadeau: essayez de penser à utiliser les ressources (rappelons le) MUTUALISÉES à bon escient… (je pense aux requêtes SQL lourdes (et bêtes (oops))).

 

Migration de filer2 vers Filou

Bonjour à tous,

comme annoncé par mail, nous effectuerons ce soir la migration vers le nouveau filer (si vous savez, le truc qui fait que ça va aller plus vite après). Cependant, vu la quantité de données à sauvegarder, il se peut que la plateforme soit un peu moins réactive en attendant la fin de l’intervention.
Étant donné que le premier transfert est lancé… Il est possible que vous constatiez déjà une dégradation des performances.

Nous mettrons à jour ce billet au fur et à mesure. Merci de votre compréhension.

Ps: cela n’impactera que les sites webs.

Edit: L’intervention commence, l’accès aux serveurs web ne va donc plus fonctionner.