Voor het realiseren van een complete fail-over hebben we een schaduw cluster aangeschaft en ingericht.
We hebben op de Hoofd-site reeds een cluster staan welke bij complete uitval overgenomen wordt door het schaduw cluster.
Het schaduw cluster bestaat uit :
3x HP Proliant DL-380 G8, 2x hexacore Xeon CPU’s, 120 GB RAM
3x HP Storevirtual 4530 met 12x 600GB SAS 15krpm disks (netto cap. +/- 18 TB)
2x HP Procurve 3500 switches
1x SonicWall NSA3600 Failover unit
De 3 Storevirtuals worden als “spiegel” ingericht van het eerste StoreVirtual cluster. Hierop vindt realtime replicatie plaats van data en de spiegel kan gebruikt worden wanneer het eerste cluster uit valt.
De 3 Proliant servers zijn geinstalleerd met vMWare 5.5 en worden als failover hosts toegevoegd aan het vMWare cluster.
Op de hoofdlokatie staat een NSA3600 Main Unit en deze wordt bij uitval overgenomen door de Failover Unit.
De opbouw :
Lege patchkast, railing aanbrengen |
De goodies uitpakken | En monteren in de kast |
Na het zware werk, komt het leukste werk : Het aansluiten :
Servers / Storage | Netjes afwerken | Compleet ! |
Waar het om draait is de connectiviteit tussen het hoofd- en schaduw-cluster.
Hiervoor hebben we 4x 1Gigabit glasvezel aan laten leggen voor replicatie, ESX traffic en vMotion.
Essentieel is goede vLAN inrichting en host configuratie.
Switching van/naar servers en glasvezel Verbinding naar hoofdsite |
Ook de SonicWall is nu aangesloten |
Hierna kon ik de boel inschakelen en kijken in hoeverre alles werkte. ESX Servers moesten nog geconfigureerd worden.
De switches had ik al voorgeconfigureerd en werkte in 1x naar behoren.
Het storage schaduw cluster kon zonder problemen en zelfs onder werktijd gekoppeld worden aan het bestaande cluster.
Na het koppelen vond er een initiele replicatie plaats waardoor volgens de monitoring iets vertraging te meten was op het netwerk. Echter was dit minimaal en niemand heeft er iets van gemerkt 🙂
We hebben een failover gesimuleerd door de stekker uit een server te trekken. De draaiende VM’s werden netjes verhuisd naar de nog werkende hosts en alles bleef werken. Wel wordt er een netwerkhik/vertraging bemerkt wat enigzins logisch is.
Het meest belangrijke is dat in no-time er verder gewerkt kan worden met behoud van data, en dat was het geval.
We spreken hierboven van een Actief/Passief configuratie ; Het schaduw cluster staat eigenlijk helemaal niks te doen, behalve wachten tot het mis gaat.
We gaan binnenkort van start met een Actief/Actief cluster waarbij we alle 6 ESX Hosts in kunnen zetten voor productie.
Tevens gaan we over naar vMWare 6 waar gebruik gemaakt kan worden van Virtual SAN waarbij ESX zorgt voor inrichting, failover en monitoren van de storage. Bijkomend voordeel is dat hierdoor zo’n 15-20% van de storage die voorheen onbruikbaar was omdat deze door het systeem gereserveerd wordt voor snapshots, configs en overhead, vrij komt voor gebruik wat dus netto meer opslag capaciteit met zich mee brengt.
Met Virtual SAN wordt het ook mogelijk om niet per LUN de RAID setting te kiezen, maar zelfs per VM.
In Virtual SAN is het mogelijk om meerdere sites aan te maken zodat vMWare kan zorgen voor de juiste spiegeling t.b.v. failover.
Naast het migreren van de Storevirtuals naar Virtual SAN, gaan we de ESX Servers ook vol stoppen met SSD schijven welke ook aan Virtual SAN toegevoegd kunnen worden.
Dit is namelijk ook een bijkomend voordeel : Local storage kan worden toegevoegd als zijnde SAN storage !
Met deze slag gaan we van 3 actieve hosts naar 6 actieve hosts wat in totaal neer komt op : 720 GB vRAM, 144 vCPU’s en richting de 30 TB Storage !
Momenteel bevinden we ons in een orienterende fase waarbij we verschillende scenario’s bekijken.
Wanneer er wat nieuws te melden is, zal ik dat hier plaatsen !