Verschillende PeopleFluent omgevingen offline

Klein incident PeopleFluent Hosted LMS
18-01-2022 09:28 CET · 1 dag, 46 minuten, 28 seconden

Update

Opgelost

Na uitgebreid onderzoek heeft onze hosting partner het probleem weten te achterhalen, er bleek nog een verkeerde configuratie te zitten in het SQL Cluster.
Bij de migratie van de serveromgevingen (najaar 2021) heeft men als eerste de database servers gemigreerd. Daarbij heeft men zoveel mogelijk de configuratie gevolgd van de oude omgevingen. Zo ook qua controles op de beschikbaarheid.
In de maanden daarna zijn de applicatieomgevingen stuk voor stuk verhuisd. Dit proces hebben we in november afgerond. Eind december is daarop de gehele oude infrastructuur opgeheven.
Door het rebooten van bepaalde omgevingen in het kader van het reguliere onderhoud, is naar voren gekomen dat de overgenomen configuratie van de database servers niet meer voldeed binnen ons bestaande en hernieuwde netwerk. Waar gecontroleerd had moeten worden op bepaalde instellingen in Azure, werd nog gecontroleerd op de beschikbaarheid van een bepaalde server in de oude (inmiddels opgeheven) infrastructuur. Ook de monitoring is destijds niet op de juiste manier aangepast.
Inmiddels zijn navolgende acties uitgevoerd om e.e.a. in de toekomst te voorkomen:

  • De bug in het monitoring script gecorrigeerd zodat deze een waarschuwing geeft als er een resource offline is en niet een OK meldt;
  • De oude, overgenomen configuratiesetting is verwijderd en aangepast naar de nieuwe Azure-based controle.
19-01-2022 · 10:14 CET
De oplossing is bekend

Alle omgevingen zijn weer online. Later vandaag hopen we een toelichting te kunnen geven over de oorzaken.

18-01-2022 · 09:44 CET
Incident

We hebben vanmorgen geconstateerd dat verschillende PeopleFluent omgevingen offline zijn. Onze hosting provider is de omgevingen aan het herstarten. Naar de oorzaken wordt nog gezocht.

18-01-2022 · 09:30 CET

← Terug