Corrections dans le calcul des quotas

Depuis déjà quelques temps le calcul des quotas des membres (la place occupée par les sites Web, mails, bases de données… de chacun) souffrait de deux problèmes :

– les archives des listes mailman n’étaient pas prises en compte
– le calcul des tailles des bases de données était erroné et plus mis à jour

Ces deux problèmes ont normalement été corrigés ce soir. Ils risquent malheureusement de se traduire par une augmentation de l’espace utilisé par votre hébergement…

Nous nous excusons pour les désagréments occasionnés, et n’hésitez pas à nous signaler tout problème.

Rétablissement du service de stats brutes

Le service permettant de récupérer les logs d’accès à vos sites Web de notre serveur HTTP ne fonctionnait plus depuis un bon moment. Il a été rétabli récemment et semble tourner à nouveau normalement.

Si vous voulez en profiter, il suffit de créer un nouveau jeu de stats brutes depuis votre bureau, en indiquant un répertoire valide. Ces stats sont générées tous les matins vers 8h30 de la manière suivante :

– s’il n’existe pas, un fichier nommé nomdudomaine.log est créé.
– les logs d’accès au domaine sont ajoutés à la fin de ce fichier

Une conséquence importante est que si votre site est très fréquenté, ce fichier peut devenir très rapidement énorme. Il faut donc impérativement que vous prévoyiez un rapatriement et une suppression régulière de ce fichier.

Nous conseillons à tous les membres ayant configuré ce service un jour de vérifier leur configuration et de la supprimer ou la mettre à jour, en vérifiant bien le répertoire de destination des logs bruts.

Problèmes avec Mailman

Nous avons constaté récemment plusieurs problèmes avec Mailman, notre gestionnaire de listes de discussions. Deux problèmes en particulier :

– les abonnements en nombre qui ne fonctionnent pas et ne sont pas pris en compte
– des envois qui ne parviennent pas à de nouveaux abonnés aux listes

Nous n’avons pas encore identifié la source du bug, mais deux possibilités semblent permettre de contourner en partie ces difficultés :

– faire les abonnements en nombre par petit nombre pour le premier problème
– redémarrer Mailman pour le second

Donc si vous constatez que certains nouveaux abonnés ne reçoivent pas les messages d’une de vos listes, n’hésitez pas à nous solliciter par mail sur aide@lautre.net, root@lautre.net ou sur IRC pour que nous redémarrions Mailman.

En nous excusant pour les désagréments occasionnés.

Rétablissement des accès sécurisés (https) aux webmails

Depuis quelques temps (sans doute en lien avec un travail en cours sur la mise en place d’un accès en https aux sites hébergés), les liens https://mail.lautre.net et https://rc.lautre.net, permettant l’accès sécurisé aux webmails Squirrelmail et Roundcube, n’étaient plus fonctionnels.

La mauvaise nouvelle, c’est qu’ils ne le sont toujours pas.

La bonne, c’est que vous pouvez en utiliser d’autres à la place.

Pour l’accès sécurisé à Roundcube :

https://admin.lautre.net/rc

Pour l’accès sécurisé à SquirrelMail :

https://admin.lautre.net/webmail

Les deux sont également accessibles depuis la page de connexion à votre bureau (le lien Webmail Roundcube a été corrigé) :

https://admin.lautre.net/

Grosse intervention technique vendredi 6 novembre

U

ne grosse intervention technique est prévue sur les serveurs de la plateforme vendredi prochain 6 novembre, à partir de 21h.

Cette intervention permettra de mettre à jour les alimentations de certains équipements pour se conformer à de nouvelles spécifications du datacenter qui nous héberge, mais elle consistera surtout en l’amélioration et l’installation de nouveaux serveurs :

  • le serveur MySQL verra sa mémoire vive doublée, passant de 4 à 8 Go
  • un nouveau serveur frontal Web neuf sera installé en remplacement d’un des deux frontaux actuels (emma)
  • l’ancien frontal actuel (emma) sera installé en remplacement du serveur qui héberge actuellement le bureau et l’interface d’administration (elsa)
  • l’ancien serveur du bureau (elsa) sera définitivement démobilisé après de nombreuses années de bons et loyaux services

Cette intervention plutôt lourde entraînera de fortes perturbations pendant la soirée de vendredi, dont une coupure totale des services qui ne devrait pas excéder quelques minutes. Nous espérons que l’installation du nouveau serveur permettra d’améliorer sensiblement les problèmes de lenteur de ces dernières semaines.

7 novembre, 1h30 : fin de l’intervention. La coupure de services a duré environ deux heures. Les alims ont été changées, le nouveau frontal a été mis en place. Faute de temps cependant, l’augmentation de RAM du serveur SQL et le remplacement d’elsa par l’ancienne emma n’ont pas pu être effectués et sont reportés à une prochaine intervention.

Stand l’Autre Net aux JDLL de Lyon les 16 et 17 octobre

L’Autre Net s’est engagé à tenir un stand aux prochaines Journées du logiciel libre qui auront lieu à Lyon les vendredi 16 et samedi 17 octobre :

http://jdll.org/

Or, pour l’instant, le nombre très limité de volontaires fait que le stand ne pourra être tenu qu’une demi-journée sur les deux jours prévus. Donc si vous êtes à proximité de Lyon et que vous êtes disponibles, n’hésitez pas à venir nous rejoindre !

Si vous êtes intéressés, merci de nous prévenir rapidement à l’adresse julien (arobase) no-log.org.

Coupure momentanée de la plateforme (Maj 22h15)

15h45 : Suite aux problèmes rencontrés pendant le week-end, l’équipe technique a décidé d’effectuer un redémarrage complet de la plateforme. Compte tenu du nombre de serveurs, une coupure momentanée mais totale des services est en cours.

Nous mettrons à jour dès que les services seront revenus, merci de votre patience.

16h15 : Nous sommes dans l’attente de l’intervention d’un technicien du datacenter où sont hébergés nos serveurs. Cette intervention prend malheureusement plus de temps que prévu…

16h38 : Le technicien est intervenu, poursuite du redémarrage des services.

17h27 : Les services sont repartis, mais les pages Web dynamiques sont toujours extrêmement lentes…

22h15 : Les services devraient être revenus à la normale.

Intervention du 23/24 mai 2009

Une intervention d’envergure a été effectuée ce week afin de mettre a jour la plate forme de l’association. Au programme des réjouissances :

– Réinstallation des backups mail, systeme, html en backup croisés sur les deux serveurs de fichier
– Mise a jour des systèmes (debian etch) vers Debian Lenny. Cette mise à jour importante sur le plan sécurité a été appliquée sur les machines suivante :
– elga (serveurs hébergeant machines virtuelles et stats web)
– emma (webserver 1)
– ella (webserver 2)
– etna (mailserver primaire 1)
– eyra (mailserver primaire 2)
– elsa (bureau et mailing list)
– Migration des serveurs web (ella et emma) vers apache2 et optimisation des configurations
– Suppression definitive de eaccelerator (precompilateur PHP) et remplacement par APC

Un énorme travail a été effectué sur alternC (le logiciel gérant le panel d’administration) afin de fournir au projet nos patchs et évolutions.

De ce travail est née une nouvelle version proposée a la communauté (AlternC 0.9.10-PRE1) qui sera validée dans les jours a venir (+ de 11000 lignes de code proposées).

Reste à valider :

– listes de diffusions (mailman) a stabiliser, et réinitialiser les listes des utilisateurs maudits par la derniere panne du serveur de fichier
– statistiques web (a priori ok mais à vérifier après rotation journalière demain lundi 25 mai 2009).

Dans le cas où vous constateriez des soucis sur votre compte ou un quelconque service de l’association, nous vous demandons d’ouvrir un ticket sur l’interface de gestion de bug :

http://bugs.lautre.net

N’oubliez pas d’etre le plus précis possible et de préciser le login de votre compte et vos coordonnées pour que nous recontactions.

[update 26 mai 2009]

– Les listes mailman sont de nouveau fonctionnelles.
– Le serveur d’authentification (freeradius) est de nouveau opérationnel, l’accès a usenet est donc possible de nouveau.

Intervention du 16/05/2009 [MaJ 02:03]

Une intervention a eu lieu (sur filer1 et filer2) et a provoqué une coupure du service web de 12 minutes.

Un serveur auquel nous n’avons pas touché a décider de tomber (defi). Ce dernier héberge les mails et les listes de diffusions

Dès que nous avons plus d’info, nous les mettrons ici. Nous sommes en intervention. Un root se tiens prêt à se (re-)déplacer physiquement pour porter assistance à la machine incriminée.

Maj de 01h30 :
Grâce a l’intervention sur place de l’un des roots, nous avons put récupérer un accès à Defi. Ce dernier a deux disques dur de sa baie de disque qui sont indiqué comme HS, et le système de fichier nécessite une analyse (fsck, équivalent de scandisk).
Nous sommes actuellement en train de sauvegarder les données de Defi, avant de lancer une analyse du disque dur, puis d’agir en fonction.

Le transfert et l’analyse dureront à priori toute la nuit. Nous ne faisons pas de pronostic : la perte d’un disque dur n’est pas grave (RAID), la perte de deux disque d’un coup l’est beaucoup plus. En outre, la corruption du système de fichier nous inquiète.

Maj de 03h40 :
Nous avons put reconstruire la configuration web et ainsi redémarré les serveurs web. Aucune données concernant les sites web n’est impacté par la panne.
L’analyse du système de fichiers corrompu de defi est en cours.

Maj de 10h20 :
L’analyse du système de fichier a terminé sa première passe à 07h42. Il a automatiquement commencé la seconde passe.
Wait & see.

Maj de 19h10 :
Toujours en train d’analyser le système de fichier.
Nous sommes toujours dans l’expectative, nous ne pouvons rien faire sauf attendre.

Maj de 09h39 :
Ce matin, à 7h, l’analyse du système de fichier était terminé. Nous ne savons pas dans quel états ils sont, nous transférons les fichiers sur un autre serveur.

Maj de 01h35 (mardi) :
Vers midi nous avions récupéré une partie des données sur un serveur tempo. A 16h nous avons préparé le nouveau serveur de fichier. Transfert des fichiers du serveur tempo vers le serveur definitif.
Vers 20h, le transfert était fait. Redémarrage du nouveau serveur de fichier pour qu’on soit bien d’accord lui et nous sur son but dans la vie (a savoir : démarrer sagement, et une fois démarré, servir des fichiers).
Reconfiguration des frontaux web.
21h : les frontaux web sont avec la nouvelle conf.
21h30 : le bureau est de retour, en https uniquement. https://admin.lautre.net fonctionne, http://admin.lautre.net ne fonctionne pas. On regardera plus tard.
22h : les frontaux web sont de nouveau vivant. Délestage des frontaux web et du mx secondaire qui étaient en standby.
23h : probleme avec les replicats sql, ce qui créé des pb d’imap. Deux réplicats repartent, un troisieme est mort (et bien mort). Sa réparation est réporté a demain, ses clients sont répartis sur d’autres réplicats.
23h40 : Les serveurs de courrier assument leurs chargent. Nous forcons les différents serveur resté actif pendant la panne a servir leurs courriers.

Etat actuel de la plateforme :
Le bureau ne fonctionne qu’en https.
Le reste doit normalement tourner.
Nous n’avons aucune idée d’a quel point les mails et les archives de mailing list on pu souffrir.
Tout les services monitorés sont au vert.

Intervention prévue à court terme :
Sauvegarde puis extinction définitive de Defi. Danse rituelle autour de sa carcasse afin d’apaiser les mauvais esprits.
Mise en place de sauvegarde sur le nouveau serveur de fichier.
Réparation du réplicat SQL incriminé.
Réparation de l’http pour le bureau.
Repos des roots.

Maj 02h03 :
Replicat SQL réparé.

Correction d’un bug lié aux nouveaux mails et listes

Depuis environ deux jours, la création d’adresses mails et de listes mailman n’était plus fonctionnelle : impossibilité de se connecter au webmail, messages rejetés, etc.

Ces difficultés étaient liées à une désynchronisation de réplicats de bases de données. Le souci a été corrigé ce soir et normalement tout devrait être rentré dans l’ordre.