Vandaag werd ik getrakteerd op een prachtige foutmelding op ons Synology High Availability Archief Cluster.
“Split-Brain” fouten zijn opgetreden….
Het cluster was uit elkaar gevallen en de 2 Synology Nassen functioneerden slechts apart en onafhankelijk van elkaar.
In het vMWare Cluster lag de iSCSI connectie naar het Synology Cluster er dus uit omdat het virtuele IP adres niet meer beschikbaar was.
Gelukkig lagen er geen essentiele zaken uit, slechts wat archieven.
Wat Synology zegt over Split-Brain Fouten :
Split-brain
Wanneer een high-availability cluster normaal functioneert, moet slechts een van de deel uitmakende servers de rol van actieve server op zich nemen. In dit geval detecteert de passieve server de aanwezigheid van de actieve server via de Heartbeat- en gegevensverbinding.
Worden alle Heartbeat- en dataverbindingen onderbroken dan kan het gebeuren dat beide servers proberen om de rol van actieve server over te nemen. Deze situatie wordt omschreven als een “split-brain”-fout. In dit geval worden verbindingen met de IP-adressen van de high-availability-cluster omgeleid naar één van de twee servers, waardoor inconsistente gegevens op de twee servers kunnen worden geüpdatet of overschreven.
Wanneer één van de Heartbeat- of gegevensverbindingen opnieuw worden verbonden, detecteert het systeem een split-brain-fout en de gegevensinconsistentie tussen de twee servers en wordt de veilige modus van high-availability geactiveerd.
OK…Er is dus iets misgegaan in de Heartbeat, maar ik kreeg ook van de monitoring een mailtje dat de 2e Synology wegens een stroomstoring opnieuw gestart was. Hierin moet dus ergens de oorzaak liggen. Door naar de fout en oplossing !
De foutmelding :
Hmmm….2 actieve servers, das niet goed…er hoort er 1 Actief te zijn en 1 Passief.
OK, Laten we eens op “Beheren” klikken om te kijken welke mogelijkheden we hebben.
Geweldig ! Er is een optie om Split-brain-fouten op te lossen, die selecteren we dan maar !
Vervolgens krijg je de vraag wat je wilt doen.
Aangezien ik gewoon beide servers weer in HA wil hebben staan, kies ik de optie om beide servers te reserveren in het HA Cluster en klik op volgende.
Dan krijgen we de vraag om een nieuwe actieve server te kiezen. Dat moet de server zijn waarvan je zeker weet dat deze de laatste stand van de data heeft !
In dit geval is dit de SVR-ARCHIEF01…en klik op Volgende…
Vervolgens krijgen we een overzicht van wat er gaat gebeuren. Wanneer we zeker weten dat dit goed is, drukken we op Sync.
Als laatste waarschuwing en ter bevestiging nogmaals bevestigen dat je dit wilt gaan doen.
Vervolgens gaat Synology de netwerk instellingen aanpassen om het cluster weer te vormen en de data van de actieve server syncen met de passieve server.
Dit kan enkele minuten duren en uiteindelijk komen we in onderstaand scherm terecht.
Yes ! Het cluster is weer gezond en functioneel !
Hierna kijken we of de storage in vMWare weer teruggekomen is, en dat was inderdaad het geval !
Een snelle controle wijst uit dat er géén data verloren gegaan is !
Geen leuke storingen dit, maar gelukkig snel weer opgelost !