Lenteurs sur la plateforme

Bonjour à tous,

un petit billet pour vous confirmer que oui, nous savons que la plateforme est lente en ce moment.
Il y a plusieurs explications, dont le serveur MySQL, ou plutôt l’usage qui en est fait.

Cependant, comme l’a dit fufroma par mail, nous avons bon espoir que la mise à jour d’AlternC améliore considérablement la situation, tout en fournissant de nouvelles fonctionnalités. Un peu de patience donc, cette mise à jour est envisagée pour la fin du mois de mars environ.

Plus de détails, plus tard. Merci!

Intervention ce vendredi 09 novembre

suite aux problèmes de performances sur les bases de données remontés par les membres,
les roots on décidé de procéder à une mise à jour matérielle de l’infra.
Au programme, plus de ram sur le serveur MySQL, et stocker les bases sur SSD.
On en profite au passage pour augmenter la mémoire sur les frontaux.
Cette intervention est planifiée pour le vendredi 9 novembre vers midi. Le programme est
le suivant:
  • Mise à jour d’Elea notre serveur MySQL:
    • doublement de la mémoire vive (24G à 48G)
    • mise en place de disques SSD (Crucial M4 128G en raid1)  – la migration du stockage des bases se fera ultérieurement pour minimiser le temps de coupure
  • Mise à jour des frontaux (Emma et Ella):
    • doublement de la mémoire vive (12G à 24G)
Comment on voudrait que ça se passe:
Idéalement, l’intervention devrait prendre environ 1h :
  •   Extinction des serveurs ayant besoin de Elea pour fonctionner :
    • Elsa (bureau)
    • Ella (frontal)
    • Emma (frontal)
    • Etna (mail)
    • Eyra (mail)
  • Extinction d’Elea
  • Upgrade de la ram de Elea et mise en place de ses disques SSD (estimation 30min)
  • Rallumage de Elea
  • Rallumage de Elsa, etna, eyra
  • Rajout de ram sur Ella, rallumage
  • Rajout de la ram sur Emma, rallumage
Cette mise à jour du matériel est une étape nécessaire, mais pas suffisante pour
le travail de fond de mise à jour de l’infra, mais ceci sera pour un prochain épisode 🙂
On vous tiendra au courant du succès de l’intervention, mais vous pourrez avoir des infos en direct via la section « infos en temps réel » de ce blog.

Perturbations sur la plateforme

Nous vous parlions sur la liste assemblee@ de problèmes sur l’infra remonté par notre fournisseur d’accès. Et pour cause! Comme vous pouvez le voir sur l’image (le pic vers le bas), nous consommons habituellement environ 10M/s (ligne rouge), mais au moment du pic de consommation (vers 16h30) nous avons atteint quasiment 70M/s!!

pic de consommation

Le motif a été identifié: un des site des membre a été corrompu, et a servi à mener une attaque de plus grande envergure contre (semble-t-il) un organisme bancaire.

Qu’est-ce que ça change pour nous?

À l’heure actuelle, les connexions sortantes vers des sites sécurisés (HTTPS) ont été désactivé sur les frontaux. Si vous avez des sites qui vérifient des mises à jour, où font de la syndication de contenus distants en HTTPS, ceux-ci ne fonctionneront plus. Nous attendons que le membre concerné prenne les mesures nécessaires avant de ré-ouvrir les flux.

Une petite conclusion?

Mettez à jours les logiciels que vous utilisez sur l’infra. Oh puis au passage, celle là est cadeau: essayez de penser à utiliser les ressources (rappelons le) MUTUALISÉES à bon escient… (je pense aux requêtes SQL lourdes (et bêtes (oops))).

 

Mise à jour de Roundcube (webmail)

Bonjour à tous,

nous avons effectué une mise à jour du webmail.
En plus d’ajouter des fonctionnalités, et de corriger des bugs, l’interface utilisateur a été repensé.

Si vous perdez vos repères, sachez que vous pouvez restaurer l’ancienne. Pour ce faire, cliquez sur «Préférences» puis dans le sous menu «Section» choisissez «Interface Utilisateur» et changez la valeur «Thème de l’interface» à «classic»

Pour rappel, le webmail est accessible via les adresses http://rc.lautre.net et https:/admin.lautre.net/rc

Mise à jour de MySQL

Salut,

On met à jour le serveur MySQL pour suivre les mise à jour de sécurité de Debian. Normalement, ça casse rien. Mais ici, ça risque de casser des choses.

Explications :
Habituellement, quand une faille est corrigé dans une version, Debian patch la version qu’il « utilise » actuellement pour profiter des corrections de failles, sans faire de changement de fonctionnalité. Ainsi, on a aucune faille, mais on ne s’est pas introduit des bugs pour des incompatibilités.

Ici, Oracle a décidé de corriger des failles sans dire lesquelles. Deux choix alors pour Debian : ne pas corriger les failles, ou bien mettre en place la « nouvelle » version de Oracle sans pouvoir valider qu’il n’y aurais pas de problème.

Debian a fait le choix de corriger les failles. Compte tenu de leur gravité, je (Fufroma) considére qu’ils ont eu raison. Reste que certains d’entre vous risque d’avoir des bugs de MySQL à partir de maintenant.

Voici la liste des problèmes qui peuvent être présent suite à la mise à jour :


mysql-5.1 (5.1.61-1) stable-security; urgency=high

Due to the non-disclosure of security patch information from Oracle,
we are forced to ship this upstream version update of MySQL 5.1 into
all releases that carry MySQL 5.1. There are several known incompatible
changes, which are listed below, taken from dev.mysql.com's changelogs,
available here: http://dev.mysql.com/doc/refman/5.1/en/news-5-1-x.html

5.1.51:
Incompatible Change: Previously, if you flushed the logs using FLUSH
LOGS or mysqladmin flush-logs and mysqld was writing the error log to
a file (for example, if it was started with the --log-error option),
it renamed the current log file with the suffix -old, then created a
new empty log file. This had the problem that a second log-flushing
operation thus caused the original error log file to be lost unless
you saved it under a different name. For example, you could use the
following commands to save the file:
.
shell> mysqladmin flush-logs
shell> mv host_name.err-old backup-directory
.
To avoid the preceding file-loss problem, renaming no longer
occurs. The server merely closes and reopens the log file. To rename
the file, you can do so manually before flushing. Then flushing the
logs reopens a new file with the original file name. For example, you
can rename the file and create a new one using the following commands:
.
shell> mv host_name.err host_name.err-old
shell> mysqladmin flush-logs
shell> mv host_name.err-old backup-directory
.
(Bug #29751)
.
References: See also Bug #56821.

5.1.55:
Incompatible Change: When auto_increment_increment is greater than
one, values generated by a bulk insert that reaches the maximum
column value could wrap around rather producing an overflow error.
.
As a consequence of the fix, it is no longer possible for an
auto-generated value to be equal to the maximum BIGINT UNSIGNED
value. It is still possible to store that value manually, if the
column can accept it. (Bug #39828, Bug #11749800)

5.1.59:
Incompatible Change: Handling of a date-related assertion was
modified.
.
However, a consequence of this change is that several functions
become more strict when passed a DATE() function value as their
argument and reject incomplete dates with a day part of zero. These
functions are affected: CONVERT_TZ(), DATE_ADD(), DATE_SUB(),
DAYOFYEAR(), LAST_DAY(), TIMESTAMPDIFF(), TO_DAYS(), TO_SECONDS(),
WEEK(), WEEKDAY(), WEEKOFYEAR(), YEARWEEK(). Because this changes
date-handling behavior in General Availability-status series (MySQL
5.1 and 5.5), it was reverted in 5.1.62 and 5.5.21. The change is
retained in MySQL 5.6.
.
References: See also Bug #13458237.

-- Clint Byrum Thu, 01 Mar 2012 23:25:34 -0800

Migration de filer2 vers Filou

Bonjour à tous,

comme annoncé par mail, nous effectuerons ce soir la migration vers le nouveau filer (si vous savez, le truc qui fait que ça va aller plus vite après). Cependant, vu la quantité de données à sauvegarder, il se peut que la plateforme soit un peu moins réactive en attendant la fin de l’intervention.
Étant donné que le premier transfert est lancé… Il est possible que vous constatiez déjà une dégradation des performances.

Nous mettrons à jour ce billet au fur et à mesure. Merci de votre compréhension.

Ps: cela n’impactera que les sites webs.

Edit: L’intervention commence, l’accès aux serveurs web ne va donc plus fonctionner.

État des lieux de l’intervention de janvier

L’intervention est terminée. Elle s’est plutôt bien déroulée. Malheureusement, nous avons constaté le lendemain des problèmes généralisés. Ils étaient en fait causés par le switch tout neuf… Après un remplacement de celui-ci, l’infra semble repartir. Des problèmes subsistent, mais les roots dorment là..

Continuer la lecture de État des lieux de l’intervention de janvier

Prochaines évolutions de Lautre.net

Bonjour,

Les roots de la plateforme ne sont guère bruyant, mais pas mal de choses sont en train de se mettre en place.

Déjà, rappelons l’architecture actuelle :

  • un switch 100Mb pour le réseau interne
  • un switch 100Mb pour le réseau public
  • un serveur de console (accès de secours sur les machines)
  • deux routeurs BGP qui sont aussi répartiteur de charge
  • deux frontaux web (apache)
  • deux frontaux mail (smtp, pop, imap)
  • une passerelle SSH pour l’accès des admin
  • un serveur de fichier dédié aux mails
  • un serveur de fichier dédié aux fichiers web
  • un serveur de bases de données
  • un serveur pour les statistiques et les machines virtuelles
  • un serveur pour le panel AlternC

Pour les curieux, nous rappelons que http://mon.lautre.net/ est à votre disposition.

Cette structure marche bien, et ce depuis plusieurs années, mais nous impose de grosses limitations et a ses points faibles.
Entre autres :

  • des services critiques ne sont pas redondés (mysql, panel)
  • impossible de passer une machine du réseau privé au réseau public sans intervention physique
  • le serveur de console « plante » et a besoin d’un reboot hard
  • impossible de changer les ressources allouées à un service (les serveurs mail ont des centaines de Go d’espace disque et n’en utilisent qu’une dizaine, quand le serveur de statistiques en manque cruellement)
  • impossible de changer simplement un service de machine (les bases de données sont sur une machine physique, si la machine physique est défectueuse, il faut la réparer avant de pouvoir relancer le service)
  • nous sommes très serrés dans la demi-baie que nous louons, et nous manquons donc d’espace
  • nous consommons trop de courant et nous payons un surplus chaque mois
  • nous faisons cohabiter sur la même machines des services très différents ce qui compliquent énormément nos politiques de sécurité (exemple : serveur jabber sur la même machine que les machines virtuelles)

D’autres problèmes sont apparus ces derniers temps :

  • le serveur de statistiques n’a pas assez d’espace disque pour faire ses calculs
  • le serveur de fichier web tiens la charge, mais en cas de pic de charge (brusque hausse de fréquentation, ou mauvaise configuration du site d’un adhérent), il sature et provoque des ralentissements sensibles. C’est important, ça veut dire que nous n’avons pas beaucoup de marge de manœuvre
  • les sauvegardes sont « croisées » : le serveur A sauvegarde le serveur B, et inversement. Quand un problème apparaît sur la sauvegarde, les performances des deux serveurs sont dégradées (pas assez pour que les gens le voient, mais assez pour que les admins s’inquiètent)

Tout cela fait que nous sommes en train de préparer de grosses évolutions sur l’architecture. Vous n’aurez pas de changements notable du point de vue utilisateurs, mais ils nous permettront d’améliorer la qualité de service.
Des coupures seront malheureusement nécessaires pour la mise en place de tout ce que nous prévoyons, mais elles seront organisées et les adhérents seront prévenus à l’avance.

Serveur de fichier web
Le serveur de fichier web va être remplacé par un nouveau serveur. Cela nous permettra d’augmenter l’espace de stockage ainsi que les performances. En outre, on l’a choisi de telle sorte que nous pourrons changer les disques durs pour augmenter les performances sans avoir a éteindre la machine (donc sans coupure).

Réseau
Les deux switch 100Mb non-redondants vont être remplacés par un swich Gigabit. Nous aurons plus de souplesse dans notre architecture réseau.
C’est un investissement que nous envisagions depuis des années, et qui devient nécessaire dans le cadre des changements de l’infrastructure.

Accès de secours aux serveurs
Les machines ne disposant pas d’accès console natif (IPMI), nous avons acheté des cartes d’extensions pour elles, ce qui devrait nous permettre de nous affranchir du serveur de console.

Backups
Le remplacement de l’actuel serveurs de fichiers web par un nouveau fait que nous allons recycler l’ancien serveur pour centraliser les sauvegardes.

Surconsommation / Espace en baie / Possibilité de relancer un service quand une machine est en panne
Gros morceau ça, très gros.
Après pas mal de réflexions, nous avons décidé de virtualiser l’infrastructure. Pour vous, ça ne changera absolument rien, le serveur Eyra sera toujours le serveur Eyra.
Cela nous permettra d’affranchir les services (web, mail, bdd, panel) de leur hôte physique. Ainsi, en cas de problème matériel, nous pourrons « simplement » relancer la machine ailleurs, sans avoir à aller intervenir en urgence.
Un problème type « la carte mère de tel serveur a grillé » ne sera plus un problème de jours, mais de minutes.
Une intervention physique sur une machine ne nous forcera plus a couper les services (exceptés les serveurs de fichiers, qui pour des raisons de performances ne seront pas virtualisés).
Sauf que pour virtualiser, il faut de nouvelles machines, et ça coûte cher. Très cher. Et avec les frais de Switch et du serveur de fichiers, cela commençait à être un budget très conséquent.
Dans nos pérégrinations, nous avons eu la chance de pouvoir récupérer des serveurs de deux sociétés en train de renouveler leur parc et qui les ont cédés à diverses associations, sans demander aucune contrepartie. Nous remercions chaleureusement Fotolia et F-Secure pour leur gentillesse et leur générosité.
Grâce à leur dons, nous allons pouvoir remplacer certaines de nos machines vieillissantes et énergivores par des machines plus performantes et plus adaptées à nos besoins.

++++++++++++++++++++++

Voila, je pense vous avoir globalement expliqué ce sur quoi nous travaillons depuis quelques mois.

Où nous en sommes :

  • 2 des 5 serveurs gracieusement donnés sont déjà en notre possession
  • le nouveau serveur de fichiers a été reçu
  • le switch est en commande

Notre organisation des semaines à venir :

  • fin décembre nous récupérons les trois machines que nous devons encore récupérer
  • début janvier, nous recevons le switch
  • mi-janvier, nous achetons les petites fournitures nécessaires (câbles réseaux, disques durs, étiquettes…)
  • fin janvier nous intervenons physiquement en salle système pour mettre en place la nouvelle architecture.

Vraisemblablement, nous interviendrons un samedi en pleine journée, et nous devrons couper toute l’infrastructure lautre.net « le temps que ». Ce temps de coupure sera a priori de quelques heures, mais nous tenterons de le minimiser au mieux. Des dates et des horaires vous serons communiqués dès que nous aurons une visibilité sur ce sujet.

Et sinon, certains d’entre vous nous remontent des bugs sur le panel AlternC, sachez que nous prévoyons la mise à jour en version 1.0 pour la fin du premier trimestre 2012. Délai non contractuel ;-).

Merci aux adhérents qui font vivre l’association,
Merci aux messages de soutiens que nous recevons lors des pannes,
Et joyeux Noël à tous !

Associativement,
Fufroma, pour les roots

Sites de l’Autre Net

Bon, comme vous pouvez le constater puisque vous lisez ces lignes, certains sites spécifiques de l’Autre Net ont été remis en état de marche.

Pour rappel, ces sites ont été désactivés car installés sur une machine à part, afin d’être accessibles même quand la plateforme est indisponible, et cette machine a récemment été migrée.

Vous avez donc à nouveau accès à http://aide.lautre.net et http://blog.lautre.net. Il reste encore à remonter http://bugs.lautre.net, qui ne saurait tarder dans les prochains jours.

Si vous constatez des soucis sur ces sites, n’hésitez pas à nous contacter à l’adresse root à lautre point net.

Changement du mot de passe mail

Bonjour,

Certains d’entre vous utilisent déjà Roundcube, le second webmail que Lautre.net vous propose en parallèle de l’historique Squirrelmail.

Nouveauté du jour : vous pouvez désormais changer votre mot de passe directement depuis l’interface web de Roundcube, en allant dans la section « Préférences », onglet « Mot de passe ».

Roundcube est accessible via plusieurs adresses, mais nous vous recommandons https://admin.lautre.net/rc/ afin d’y accéder en HTTPS.