un petit billet pour vous confirmer que oui, nous savons que la plateforme est lente en ce moment. Il y a plusieurs explications, dont le serveur MySQL, ou plutôt l’usage qui en est fait.
Cependant, comme l’a dit fufroma par mail, nous avons bon espoir que la mise à jour d’AlternC améliore considérablement la situation, tout en fournissant de nouvelles fonctionnalités. Un peu de patience donc, cette mise à jour est envisagée pour la fin du mois de mars environ.
Nous vous parlions sur la liste assemblee@ de problèmes sur l’infra remonté par notre fournisseur d’accès. Et pour cause! Comme vous pouvez le voir sur l’image (le pic vers le bas), nous consommons habituellement environ 10M/s (ligne rouge), mais au moment du pic de consommation (vers 16h30) nous avons atteint quasiment 70M/s!!
Le motif a été identifié: un des site des membre a été corrompu, et a servi à mener une attaque de plus grande envergure contre (semble-t-il) un organisme bancaire.
Qu’est-ce que ça change pour nous?
À l’heure actuelle, les connexions sortantes vers des sites sécurisés (HTTPS) ont été désactivé sur les frontaux. Si vous avez des sites qui vérifient des mises à jour, où font de la syndication de contenus distants en HTTPS, ceux-ci ne fonctionneront plus. Nous attendons que le membre concerné prenne les mesures nécessaires avant de ré-ouvrir les flux.
Une petite conclusion?
Mettez à jours les logiciels que vous utilisez sur l’infra. Oh puis au passage, celle là est cadeau: essayez de penser à utiliser les ressources (rappelons le) MUTUALISÉES à bon escient… (je pense aux requêtes SQL lourdes (et bêtes (oops))).
comme annoncé par mail, nous effectuerons ce soir la migration vers le nouveau filer (si vous savez, le truc qui fait que ça va aller plus vite après). Cependant, vu la quantité de données à sauvegarder, il se peut que la plateforme soit un peu moins réactive en attendant la fin de l’intervention. Étant donné que le premier transfert est lancé… Il est possible que vous constatiez déjà une dégradation des performances.
Nous mettrons à jour ce billet au fur et à mesure. Merci de votre compréhension.
Ps: cela n’impactera que les sites webs.
Edit: L’intervention commence, l’accès aux serveurs web ne va donc plus fonctionner.
L’intervention est terminée. Elle s’est plutôt bien déroulée. Malheureusement, nous avons constaté le lendemain des problèmes généralisés. Ils étaient en fait causés par le switch tout neuf… Après un remplacement de celui-ci, l’infra semble repartir. Des problèmes subsistent, mais les roots dorment là..
Bonjour,
l’intervention a commencé. Ce jeudi 19 janvier, les machines virtuelles ont été coupées en début de matinée.
Depuis ce matin 01h, la plateforme est injoignable. Nous travaillons activement dessus afin de la rétablir dans les meilleurs délai.
Nous ne manquerons pas de vous tenir au courant dès que nous auront des informations concrète sur l’heure du rétablissement.
Edit : Il semblerait qu’il y ai eu un problème électrique dans le data-center cette nuit.
Edit de 15h : tout est réparé. La coupure de courant a endommagé du matériel de notre prestataire internet, dans l’attente du changement de matériel une solution de secours a été mise en place.
Deux problèmes susceptibles de dégrader les performances de la plateforme ont été corrigés hier :
un compte mal configuré et actuellement très sollicité entraînait une surcharge de la machine servant notamment pour le bureau d’administration. Le problème a été réglé et celui-ci devrait donc être plus réactif.
un réglage de la configuration des Apache des frontaux Web devrait également améliorer l’accessibilité des sites pendant les périodes de pointes.
Comme d’habitude, n’hésitez pas à nous signaler tout problème.
Un problème sur un filer entraîne de fortes perturbations sur la plateforme ce soir. Les listes et mails ne fonctionnent plus et certains sites sont sans doute impactés également.
Les roots sont au courant et vont travailler dessus dès que possible, merci de votre patience.
Mise à jour 22:30 : le problème vient du fait qu’une partition n’a plus d’inodes de libres. Nous avons dépacé quelques données pour régler temporairement le problème.
Mise à jour 00:20 : à nouveau des problèmes par intermittence. Le service de news et donc les forums internes ont été arrêtés temporairement.
Mise à jour 23/09 : le problème est résolu, les services refonctionnent normalement, seules les news refonctionneront très prochainement.
Nous avons constaté récemment plusieurs problèmes avec Mailman, notre gestionnaire de listes de discussions. Deux problèmes en particulier :
– les abonnements en nombre qui ne fonctionnent pas et ne sont pas pris en compte – des envois qui ne parviennent pas à de nouveaux abonnés aux listes
Nous n’avons pas encore identifié la source du bug, mais deux possibilités semblent permettre de contourner en partie ces difficultés :
– faire les abonnements en nombre par petit nombre pour le premier problème – redémarrer Mailman pour le second
Donc si vous constatez que certains nouveaux abonnés ne reçoivent pas les messages d’une de vos listes, n’hésitez pas à nous solliciter par mail sur aide@lautre.net, root@lautre.net ou sur IRC pour que nous redémarrions Mailman.
En nous excusant pour les désagréments occasionnés.
ne grosse intervention technique est prévue sur les serveurs de la plateforme vendredi prochain 6 novembre, à partir de 21h.
Cette intervention permettra de mettre à jour les alimentations de certains équipements pour se conformer à de nouvelles spécifications du datacenter qui nous héberge, mais elle consistera surtout en l’amélioration et l’installation de nouveaux serveurs :
le serveur MySQL verra sa mémoire vive doublée, passant de 4 à 8 Go
un nouveau serveur frontal Web neuf sera installé en remplacement d’un des deux frontaux actuels (emma)
l’ancien frontal actuel (emma) sera installé en remplacement du serveur qui héberge actuellement le bureau et l’interface d’administration (elsa)
l’ancien serveur du bureau (elsa) sera définitivement démobilisé après de nombreuses années de bons et loyaux services
Cette intervention plutôt lourde entraînera de fortes perturbations pendant la soirée de vendredi, dont une coupure totale des services qui ne devrait pas excéder quelques minutes. Nous espérons que l’installation du nouveau serveur permettra d’améliorer sensiblement les problèmes de lenteur de ces dernières semaines.
7 novembre, 1h30 : fin de l’intervention. La coupure de services a duré environ deux heures. Les alims ont été changées, le nouveau frontal a été mis en place. Faute de temps cependant, l’augmentation de RAM du serveur SQL et le remplacement d’elsa par l’ancienne emma n’ont pas pu être effectués et sont reportés à une prochaine intervention.
15h45 : Suite aux problèmes rencontrés pendant le week-end, l’équipe technique a décidé d’effectuer un redémarrage complet de la plateforme. Compte tenu du nombre de serveurs, une coupure momentanée mais totale des services est en cours.
Nous mettrons à jour dès que les services seront revenus, merci de votre patience.
16h15 : Nous sommes dans l’attente de l’intervention d’un technicien du datacenter où sont hébergés nos serveurs. Cette intervention prend malheureusement plus de temps que prévu…
16h38 : Le technicien est intervenu, poursuite du redémarrage des services.
17h27 : Les services sont repartis, mais les pages Web dynamiques sont toujours extrêmement lentes…
22h15 : Les services devraient être revenus à la normale.