Meerdere PeopleFluent systemen down

Klein incident PeopleFluent Hosted LMS
07-05-2025 13:16 CEST · 4 weken, 20 uren, 10 minuten, 34 seconden

Update

Opgelost

Zoals eerder gecommuniceerd, zijn de systemen inmiddels weer geruime tijd operationeel. Hieronder vindt u een update met betrekking tot de oorzaak van het probleem en de getroffen maatregelen om herhaling te voorkomen.

Netwerkincident Datacenter – 6 + 15 mei 2025

Incident

Tijdens gepland onderhoud op 6 mei 2025 om 23:00 CEST in het datacenter in Rotterdam, ontstonden er netwerkproblemen bij het upgraden van een router. Dit leidde tot een verstoring van de netwerkprestaties en verminderde beschikbaarheid van diensten in het algemeen en een MSSQL-failovercluster verstoring voor Courseware in het bijzonder.

Impact

  • Eerste verstoring: Op 6 mei 2025, duurde ongeveer 6 uur.
  • Tweede verstoring: Op 15 mei 2025, duurde ongeveer 4 uur.
  • Specifiek voor Courseware: Door een storing in het MSSQL-failovercluster was het systeem volledig onbereikbaar. Dit leidde tot een tweede periode van uitval. Waarvan de kritieke downtime ongeveer 4 uur betrof.

Oplossingen en herstel

De netwerkproblemen werden opgelost door handmatig de ARP-tabellen (de adresboeken van het netwerk) op de betrokken switches te legen en de routers opnieuw op te starten. Voor Courseware werd de databaseomgeving handmatig hersteld, inclusief het overzetten van ontbrekende logbestanden en het opnieuw configureren van de failovercluster. Er is geen dataverlies opgetreden.

Preventieve maatregelen

  • De geplande vervanging van verouderde core routers is naar voren getrokken en direct doorgevoerd.
  • Onderhoudsprocedures zijn aangepast met extra controles en rollback-stappen.
  • Voor Courseware is de MSSQL-failoverconfiguratie gewijzigd naar handmatig, om beter controleerbaar gedrag te garanderen bij toekomstige netwerkverstoringen.
  • Escalatie- en communicatieprotocollen zijn aangescherpt om klanten tijdig te informeren bij incidenten.
05-06-2025 · 09:08 CEST
Wordt onderzocht

Vannacht hebben we herhaald hinder ondervonden van de problemen aan ons database cluster. Hoewel onze hosting partner alles in het werk stelt de oorzaak te achterhalen, is dat tot op heden helaas nog niet gelukt. Inmiddels zijn de databases weer alle online en draait uw omgeving volgens onze monitor zoals verwacht. Mocht u desondanks hinder ervaren, dan verzoeken we u om een ticket aan te maken via service.courseware.nl.

14-05-2025 · 09:34 CEST
Onderzoeken

Alle sites zijn online sinds gistermiddag, het cluster is succesvol vervangen, het onderzoek naar de root cause loopt nog.

08-05-2025 · 10:22 CEST
De oplossing is bekend

De sites komen weer in de lucht op het moment.

Achtergrond:
Er zijn problemen met de bereikbaarheid van de database doordat het database cluster vannacht is gebroken. Uiteindelijk moet hiervoor een herstart worden gedaan. Deze staat nu gepland voor vanavond 20:00, maar indien er zich vanmiddag opnieuw problemen voordoen, wordt dat moment naar voren gehaald.

07-05-2025 · 13:28 CEST
Wordt onderzocht

Meerdere PeopleFluent leeromgevingen zijn op dit moment niet bereikbaar. Onze hosting provider is bezig het probleem op te lossen, meer informatie volgt zo snel mogelijk

07-05-2025 · 13:16 CEST

← Terug