Migration de filer2 vers Filou

janvier 30th, 2012

Bonjour à tous,

comme annoncé par mail, nous effectuerons ce soir la migration vers le nouveau filer (si vous savez, le truc qui fait que ça va aller plus vite après). Cependant, vu la quantité de données à sauvegarder, il se peut que la plateforme soit un peu moins réactive en attendant la fin de l’intervention.
Étant donné que le premier transfert est lancé… Il est possible que vous constatiez déjà une dégradation des performances.

Nous mettrons à jour ce billet au fur et à mesure. Merci de votre compréhension.

Ps: cela n’impactera que les sites webs.

Edit: L’intervention commence, l’accès aux serveurs web ne va donc plus fonctionner.

État des lieux de l’intervention de janvier

janvier 19th, 2012

L’intervention est terminée. Elle s’est plutôt bien déroulée. Malheureusement, nous avons constaté le lendemain des problèmes généralisés. Ils étaient en fait causés par le switch tout neuf… Après un remplacement de celui-ci, l’infra semble repartir. Des problèmes subsistent, mais les roots dorment là..

Read the rest of this entry »

Prochaines évolutions de Lautre.net

décembre 16th, 2011

Bonjour,

Les roots de la plateforme ne sont guère bruyant, mais pas mal de choses sont en train de se mettre en place.

Déjà, rappelons l’architecture actuelle :

  • un switch 100Mb pour le réseau interne
  • un switch 100Mb pour le réseau public
  • un serveur de console (accès de secours sur les machines)
  • deux routeurs BGP qui sont aussi répartiteur de charge
  • deux frontaux web (apache)
  • deux frontaux mail (smtp, pop, imap)
  • une passerelle SSH pour l’accès des admin
  • un serveur de fichier dédié aux mails
  • un serveur de fichier dédié aux fichiers web
  • un serveur de bases de données
  • un serveur pour les statistiques et les machines virtuelles
  • un serveur pour le panel AlternC

Pour les curieux, nous rappelons que http://mon.lautre.net/ est à votre disposition.

Cette structure marche bien, et ce depuis plusieurs années, mais nous impose de grosses limitations et a ses points faibles.
Entre autres :

  • des services critiques ne sont pas redondés (mysql, panel)
  • impossible de passer une machine du réseau privé au réseau public sans intervention physique
  • le serveur de console « plante » et a besoin d’un reboot hard
  • impossible de changer les ressources allouées à un service (les serveurs mail ont des centaines de Go d’espace disque et n’en utilisent qu’une dizaine, quand le serveur de statistiques en manque cruellement)
  • impossible de changer simplement un service de machine (les bases de données sont sur une machine physique, si la machine physique est défectueuse, il faut la réparer avant de pouvoir relancer le service)
  • nous sommes très serrés dans la demi-baie que nous louons, et nous manquons donc d’espace
  • nous consommons trop de courant et nous payons un surplus chaque mois
  • nous faisons cohabiter sur la même machines des services très différents ce qui compliquent énormément nos politiques de sécurité (exemple : serveur jabber sur la même machine que les machines virtuelles)

D’autres problèmes sont apparus ces derniers temps :

  • le serveur de statistiques n’a pas assez d’espace disque pour faire ses calculs
  • le serveur de fichier web tiens la charge, mais en cas de pic de charge (brusque hausse de fréquentation, ou mauvaise configuration du site d’un adhérent), il sature et provoque des ralentissements sensibles. C’est important, ça veut dire que nous n’avons pas beaucoup de marge de manœuvre
  • les sauvegardes sont « croisées » : le serveur A sauvegarde le serveur B, et inversement. Quand un problème apparaît sur la sauvegarde, les performances des deux serveurs sont dégradées (pas assez pour que les gens le voient, mais assez pour que les admins s’inquiètent)

Tout cela fait que nous sommes en train de préparer de grosses évolutions sur l’architecture. Vous n’aurez pas de changements notable du point de vue utilisateurs, mais ils nous permettront d’améliorer la qualité de service.
Des coupures seront malheureusement nécessaires pour la mise en place de tout ce que nous prévoyons, mais elles seront organisées et les adhérents seront prévenus à l’avance.

Serveur de fichier web
Le serveur de fichier web va être remplacé par un nouveau serveur. Cela nous permettra d’augmenter l’espace de stockage ainsi que les performances. En outre, on l’a choisi de telle sorte que nous pourrons changer les disques durs pour augmenter les performances sans avoir a éteindre la machine (donc sans coupure).

Réseau
Les deux switch 100Mb non-redondants vont être remplacés par un swich Gigabit. Nous aurons plus de souplesse dans notre architecture réseau.
C’est un investissement que nous envisagions depuis des années, et qui devient nécessaire dans le cadre des changements de l’infrastructure.

Accès de secours aux serveurs
Les machines ne disposant pas d’accès console natif (IPMI), nous avons acheté des cartes d’extensions pour elles, ce qui devrait nous permettre de nous affranchir du serveur de console.

Backups
Le remplacement de l’actuel serveurs de fichiers web par un nouveau fait que nous allons recycler l’ancien serveur pour centraliser les sauvegardes.

Surconsommation / Espace en baie / Possibilité de relancer un service quand une machine est en panne
Gros morceau ça, très gros.
Après pas mal de réflexions, nous avons décidé de virtualiser l’infrastructure. Pour vous, ça ne changera absolument rien, le serveur Eyra sera toujours le serveur Eyra.
Cela nous permettra d’affranchir les services (web, mail, bdd, panel) de leur hôte physique. Ainsi, en cas de problème matériel, nous pourrons « simplement » relancer la machine ailleurs, sans avoir à aller intervenir en urgence.
Un problème type « la carte mère de tel serveur a grillé » ne sera plus un problème de jours, mais de minutes.
Une intervention physique sur une machine ne nous forcera plus a couper les services (exceptés les serveurs de fichiers, qui pour des raisons de performances ne seront pas virtualisés).
Sauf que pour virtualiser, il faut de nouvelles machines, et ça coûte cher. Très cher. Et avec les frais de Switch et du serveur de fichiers, cela commençait à être un budget très conséquent.
Dans nos pérégrinations, nous avons eu la chance de pouvoir récupérer des serveurs de deux sociétés en train de renouveler leur parc et qui les ont cédés à diverses associations, sans demander aucune contrepartie. Nous remercions chaleureusement Fotolia et F-Secure pour leur gentillesse et leur générosité.
Grâce à leur dons, nous allons pouvoir remplacer certaines de nos machines vieillissantes et énergivores par des machines plus performantes et plus adaptées à nos besoins.

++++++++++++++++++++++

Voila, je pense vous avoir globalement expliqué ce sur quoi nous travaillons depuis quelques mois.

Où nous en sommes :

  • 2 des 5 serveurs gracieusement donnés sont déjà en notre possession
  • le nouveau serveur de fichiers a été reçu
  • le switch est en commande

Notre organisation des semaines à venir :

  • fin décembre nous récupérons les trois machines que nous devons encore récupérer
  • début janvier, nous recevons le switch
  • mi-janvier, nous achetons les petites fournitures nécessaires (câbles réseaux, disques durs, étiquettes…)
  • fin janvier nous intervenons physiquement en salle système pour mettre en place la nouvelle architecture.

Vraisemblablement, nous interviendrons un samedi en pleine journée, et nous devrons couper toute l’infrastructure lautre.net « le temps que ». Ce temps de coupure sera a priori de quelques heures, mais nous tenterons de le minimiser au mieux. Des dates et des horaires vous serons communiqués dès que nous aurons une visibilité sur ce sujet.

Et sinon, certains d’entre vous nous remontent des bugs sur le panel AlternC, sachez que nous prévoyons la mise à jour en version 1.0 pour la fin du premier trimestre 2012. Délai non contractuel ;-) .

Merci aux adhérents qui font vivre l’association,
Merci aux messages de soutiens que nous recevons lors des pannes,
Et joyeux Noël à tous !

Associativement,
Fufroma, pour les roots

Sites de l’Autre Net

septembre 14th, 2011

Bon, comme vous pouvez le constater puisque vous lisez ces lignes, certains sites spécifiques de l’Autre Net ont été remis en état de marche.

Pour rappel, ces sites ont été désactivés car installés sur une machine à part, afin d’être accessibles même quand la plateforme est indisponible, et cette machine a récemment été migrée.

Vous avez donc à nouveau accès à http://aide.lautre.net et http://blog.lautre.net. Il reste encore à remonter http://bugs.lautre.net, qui ne saurait tarder dans les prochains jours.

Si vous constatez des soucis sur ces sites, n’hésitez pas à nous contacter à l’adresse root à lautre point net.

Changement du mot de passe mail

avril 24th, 2011

Bonjour,

Certains d’entre vous utilisent déjà Roundcube, le second webmail que Lautre.net vous propose en parallèle de l’historique Squirrelmail.

Nouveauté du jour : vous pouvez désormais changer votre mot de passe directement depuis l’interface web de Roundcube, en allant dans la section « Préférences », onglet « Mot de passe ».

Roundcube est accessible via plusieurs adresses, mais nous vous recommandons https://admin.lautre.net/rc/ afin d’y accéder en HTTPS.

Retour des Machines virtuelles

mars 21st, 2011

Grâce au travail acharné de vinci et fufroma, les machines virtuelles/accès SSH/vservers (choisissez votre dénomination préférée) sont désormais de retour.

Évidemment ne pas hésiter à nous signaler tout souci.

Gros travail de mise à jour en cours.

mars 18th, 2011

Un grand chantier de mise a jour de l’ensemble de la plateforme vers la nouvelle version de Debian est en cours sur lautre.net depuis quelques jours. Comme a chaque mise a jour majeure des distributions, l’équipe technique travaille serveur par serveur dans chaque grappe de machine.

Ainsi chaque mise à jour est effectuée sur l’un des frontaux (web, mail etc …) mais jamais simultanément sur les deux serveurs de façon à garantir le service en cas de problème. De cette manière, si l’une des mise à jour devait mal se passer, le service continuerait à être opérationnel, en mode certes un peu dégradé mais opérationnel tout de même.

C’est justement ce que nous vivons actuellement, preuve s’il en faut que la méthode n’est pas mauvaise.

Nous rencontrons des soucis sur la couche NFS de GNU/Debian Squeeze, qui semble mal fonctionner en l’état. Nous sommes en train d’investiguer pour comprendre où se situe le problème et avons donc décidé de stopper les mises a jour des autres frontaux tant que ce ne sera pas résolu.

De fait, actuellement, sur les deux frontaux web, l’un d’eux sert 90% de la charge de la plateforme (plusieurs milliers de sites web) ce qui explique les quelques latences que vous pouvez constater.

Le second frontal web (nouvellement migré) ne sert que 10% de la charge (avec difficultés).

Il faut comprendre que le service NFS nous permet de lier les serveurs web, mail, etc… au contenu hébergé sur la plateforme. Il est donc vital que la communication se passe bien et ce n’est pas le cas.

Plus nous équilibrerons la charge, plus le service sera lent, plus ce serveur sera lent et plus il ralentira les serveurs de fichier.

Parrallèlement à cela, nous sommes en train de finaliser les mise à jour d’un autre serveur (Elga pour les intimes), le serveur qui héberge :

  • le service de machine virtuelle SSH,
  • le calcul des statistiques web,
  • le service jabber en test.
Une troisième machine, etna, qui sert de frontal mail est aussi en cours de mise à jour, et est actuellement coupée tant que les services ne seront pas correctement reconfigurés.

Si tout se passe bien les services de statistiques web, ainsi que le service de machines virtuelles devrait être de retour ce soir ou au pire a la fin du week-end.

Nous ne manquerons pas de vous tenir informés sur l’évolution de ce travail en alimentant le présent billet.

Probleme sur la plate-forme

novembre 7th, 2010

Bonjour,

Depuis ce matin 01h, la plateforme est injoignable.
Nous travaillons activement dessus afin de la rétablir dans les meilleurs délai.

Nous ne manquerons pas de vous tenir au courant dès que nous auront des informations concrète sur l’heure du rétablissement.

Edit : Il semblerait qu’il y ai eu un problème électrique dans le data-center cette nuit.

Edit de 15h : tout est réparé. La coupure de courant a endommagé du matériel de notre prestataire internet, dans l’attente du changement de matériel une solution de secours a été mise en place.

Correction de problèmes de performances

octobre 21st, 2010

Deux problèmes susceptibles de dégrader les performances de la plateforme ont été corrigés hier :

  • un compte mal configuré et actuellement très sollicité entraînait une surcharge de la machine servant notamment pour le bureau d’administration. Le problème a été réglé et celui-ci devrait donc être plus réactif.
  • un réglage de la configuration des Apache des frontaux Web devrait également améliorer l’accessibilité des sites pendant les périodes de pointes.

Comme d’habitude, n’hésitez pas à nous signaler tout problème.

Incident important sur la plateforme ce soir

septembre 22nd, 2010

Un problème sur un filer entraîne de fortes perturbations sur la plateforme ce soir. Les listes et mails ne fonctionnent plus et certains sites sont sans doute impactés également.

Les roots sont au courant et vont travailler dessus dès que possible, merci de votre patience.

Mise à jour 22:30 : le problème vient du fait qu’une partition n’a plus d’inodes de libres. Nous avons dépacé quelques données pour régler temporairement le problème.

Mise à jour 00:20 : à nouveau des problèmes par intermittence. Le service de news et donc les forums internes ont été arrêtés temporairement.

Mise à jour 23/09 : le problème est résolu, les services refonctionnent normalement, seules les news refonctionneront très prochainement.