Indisponibilité dans la nuit du 18 au 19 décembre

Bonjour à tous,

vous aurez peut-être remarqué que vos sites n’étaient pas joignables dans la nuit du 18 au 20 (de minuit et demi à environ 10h du matin).
Notre filer nous a encore fait une blague: pas de perte de données, juste un plantage difficile à diagnostiquer.
Et comme il a eu la bonne idée de faire ça juste après l’heure du coucher des roots, la situation a trainé.

Tout devrait être rentré dans l’ordre.

Indisponibilité du 19/20 février

Nos sites Internet sont restés injoignables pendant quelques heures hier, et certains de nos mails aussi.

La situation devrait être rentré dans l’ordre. C’était du à .. une incompatibilité entre les deux version d’AlternC; l’actuelle et celle vers laquelle nous migrons. Désolé pour le désagrément!

filer HS

Update (samedi 15 nov 11h 50): We’re back online!

L’infra (http) est down, parcequ’on a un soucis de filer..
En voulant mettre en prod les SSDs, le kernel n’a pas été aussi content que prévu.

Update (samedi 15 nov, 2h00): la maintenance se poursuit, une opération est terminée, c’est bon signe. Par contre, pour une raison très bête, il faut une intervention humaine. La suite demain matin donc.

En mode plus geek : le volume logique qui contient les données des sites web a bien été migré vers les SSD, mais à cause du crash du kernel, xfs a besoin de reconstruire sa base de quota, avant de monter la partition. Problème: ça explose en consommation mémoire (16G + swap mangés comme des petits pains), du coup mount se fait tuer, et le boot échoue (grosso modo).
Du coup demain matin quelqu’un (merci encore encore liazo) devrait aller désactiver les quotas, espérant que ça refasse tomber tout ça en marche.

On vous tient au courant.

Mise à jour des certificats SSL/TLS

Bonjour à tous,

comme certains ont pu le remarquer, nous avons mis à jour notre certificat SSL.
Pas d’inquiétude à avoir, l’ancien était juste arrivé à expiration.
L’autorité de certification pour ce certificat est Comodo, et son empreinte est : SHA1 Fingerprint=21:96:5B:C6:A4:C8:9A:4E:B0:2A:7C:A7:C8:0B:9F:9E:24:17:12:F5

Un nouveau frontal est arrivé, bienvenue effa!

Bonjour à tous et à toutes,

Nous avons mis en production un frontal supplémentaire (travail commencé il y a de nombreux mois…). Son petit nom est effa, mais ça ça ne vous interesse probablement pas.

Logiquement, vous ne devriez percevoir aucun changement, si ce n’est une amélioration des performances de vos sites. Il y a toujours un entête HTTP supplémentaire ajouté X-Frontal-Lautre pour avoir le nom du frontal qui traite votre requête, utile pour reporter des problèmes.

En cas de problème inhabituel, comme d’habitude, un mail sur aide, puis si ça ne bouge pas, un ticket, ou alors passez directement sur IRC.

Infra down – résolu

Bonjour/Bonsoir,

pour la deuxieme fois « aujourd’hui », l’infra ne répond plus. Hier après-midi, nous avons redémarré le switch (merci Fred!) ce qui a relancé la machine. Vu que les symptômes sont les mêmes, il y a fort à parier que ce soit le switch qui refasse des siennes.

Bref, on sait, on s’en occupe, il faut le changer, et configurer le nouveau. Normalement rien ne sera perdu, la magie d’avoir plusieurs serveurs mails.

Désolé pour la gène occasionnée.

Grâce à un switch de prêt (merci aux copains de chez Liazo) on a pu remettre l’infra d’aplomb. Une maintenance sera à prévoir lorsque nous recevrons nos switch dans les jours à venir pour repasser en fonctionnement nominal. Merci particulièrement à olive, fremo et cephick!

Quoi de neuf chez lautre.net?

Dans un billet précédent, nous avions identifié 3 points pour les évolutions de lautre.net:

  • supprimer les IPs publiques des frontaux
  • mettre à jour AlternC (le bureau)
  • rajouter un/des serveurs MySQL

Depuis environ 2 semaines, nous avons supprimé les IPs des frontaux web. Contrairement à ce qui a été annoncé, mêmes les sites qui avaient gardé les IPs des frontaux en dur continuent de fonctionner (les répartiteurs de chargent portent encore ces adresses pour des raisons de rétro-compatibilité). Une étape de moins donc! Il nous reste à valider l’installation de nouveaux frontaux, pour passer au point suivant.

Pour ce qui est de la mise à jour d’AlternC, les avis sont partagés. D’une part, la nouvelle version d’AlternC demande plus de ressources (puisque le serveur web prend l’identité de l’utilisateur, plus de processus sont créés, entrainant une hausse de consommation). La mise à plat des frontaux permet donc de contrer ce premier argument, c’est en bon chemin.
Ensuite, la nouvelle version d’AlternC n’a pas été testé à aussi grande échelle que lautre.net. Couplé aux disponibilités décroissantes des roots, cela implique que si l’infra tombe, il sera plus difficile de diagnostiquer et corriger. C’est encore en débat donc.

Le 3ème point n’a que peu évolué, puisqu’il dépend beaucoup du précédent.

Concernant les ralentissements perçus sur l’acheminement des mails, il s’agit semble-t-il d’une recrudescence d’envoi de SPAM qui aurait provoqué cette gène. D’un point de vue système, tout est ok.

Pour ce qui est des statistiques, nous avons effectivement constaté que le robot avait cessé de fonctionner pendant quelques jours. Après un redémarrage manuel, ça semblait OK pour ce jour là. Reste à vérifier si c’est le cas. Pour ces quelques jours manquants, il se pourrait que ce soit également du à la mise à jour de l’infra, qui fausse ce jeu de stats. (mode jargon: on utilise un reverse proxy en front, qui ne relayait pas l’adresse du visiteur mais celle du proxy).

Voilà un petit peu pour ce qui se passe en ce moment. Désolé pour le manque de communication de ces derniers temps.

Mise à jour:

Deux choses.

  1. Du fait du reverse proxy (oui le truc qui a cassé les stats), vous ne pouvez plus vous fier aux IP des visiteurs dans vos htaccess. Les directives allow from <<ip>> sont donc inopérantes (pour l’instant, on travaille à résoudre cela).
  2. À cause d’une charge importante sur les machines, nous avons choisi de désactiver l’execution de programmes depuis php. Les fonctions type exec sont donc maintenant désactivées, avec effet immédiat. Espérant que cela ne perturbe pas trop vos sites (sinon, contactez-nous  )

Déménagement

Comme vous avez pu le constater, le déménagement s’est bien passé.
Avec un peu de retard, nous souhaitons remercier les membres qui étaient présents:

  • Pascal de l’Yonne Lautre
  • Léo de l’Yonne Lautre
  • Daniel de l’Yonne Lautre
  • Jean de l’Yonne Lautre
  • Benoit
  • Pierre
  • olive
  • daffy
  • fufroma
  • squidly
  • xals
  • et votre fidèle serviteur

Merci également à l’équipe de liazo pour leur accueil chaleureux.

Roadmap prévisionelle

Voici la liste des projets techniques officiels dans les tuyaux:

Supprimer les IP publiques des frontaux. Conséquence: si des gens n’utilisent pas l’IP 80.67.160.70, leur site ne fonctionnera plus.
Mettre à jour AlternC en 3.1. Conséquence: ça risque de casser beaucoup de choses, mais nous prévoyons une migration en douceur. Toute fois, il y a fort à parier que ce ne soit pas transparent. On attend donc des retours et une aide rédactionnelle pour « ce qu’il faut faire pour réparer ».
Rajout de serveur(s) MySQL. Conséquence: modifier un chouilla la conf de vos cms pour taper dans le bon.
Le reste devrait être trensparent pour vous!

Lenteurs sur la plateforme

Bonjour à tous,

un petit billet pour vous confirmer que oui, nous savons que la plateforme est lente en ce moment.
Il y a plusieurs explications, dont le serveur MySQL, ou plutôt l’usage qui en est fait.

Cependant, comme l’a dit fufroma par mail, nous avons bon espoir que la mise à jour d’AlternC améliore considérablement la situation, tout en fournissant de nouvelles fonctionnalités. Un peu de patience donc, cette mise à jour est envisagée pour la fin du mois de mars environ.

Plus de détails, plus tard. Merci!