StoreVirtual : E01000502 EID_PARITY_INIT_FAILED

Vandaag kreeg ik een mooie melding gepresenteerd door de HP CMC van ons StoreVirtual Cluster :

Melding

Hierop maar eens aan het troubleshooten gegaan door de betreffende node onderhevig te stellen aan wat diagnostische testjes.
– Alle 12 SAS Schijven lijken in orde te zijn, geen SMART meldingen.
– ILO Nagekeken, ook hier geen enkele melding over de RAID of Array config.

Diagnostics :

Diagnostics-sv

Harddisks :

disksetup-sv

EID Melding :

Foutmelding-sv

Wat wel duidelijk is, is dat de melding aangeeft dat de Parity niet meer klopt, dus het moet iets met de schijven, controller of config te maken hebben.

Hierop heb ik Hewlett Packard gebeld en de vraag voorgelegd. Bij de storage divisie wordt normaliter eerst door een telefoniste een case opgemaakt waarop je door een engineer wordt teruggebeld.
Dat terugbellen gebeurde binnen 15 minuten.
Het eerste dat de engineer wou, was het ontvangen van de “Management Group Support Bundle“, een verzameling van de complete logging van het storage cluster en uiteraard van alle aanwezige StoreVirtual nodes.
Wanneer deze export gereed was, moest ik deze op de FTP gooien van HP waarvoor ik tijdelijke toegangsgegevens heb gekregen.
Zo gezegd, zo gedaan en nog geen 10 minuten later werd ik al weer terug gebeld.

Het probleem lijkt hem te zitten in een harddisk in bay 10 van de “probleem”-node, deze heeft een aantal keren een soft-error gegenereerd en gecorrigeerd maar wel de Parity kapot gemaakt heeft.
Deze schijf lijkt om de +/- 2 weken zo’n error te geven en de laatste keer is waarschijnlijk op een moment gebeurd waarbij de Parity gechecked werd.
De oplossing is om de betreffende node in “Repair-Modus” te zetten door deze uit het cluster te halen en de reparatie te starten.
Eenmaal gerepareerd kan de node weer teruggeplaatst worden in het cluster en na een paar weken is de Parity weer berekend en moet dit weer goed zijn.
Echter omdat de schijf toch met enige regelmaat fouten genereerd, kun je dus er op wachten dat het Parity probleem ook weer terugkomt.

Na een aantal scenario’s doorgesproken te hebben zijn we tot de conclusie gekomen dat we eerst de twijfelachtige schijf gaan vervangen en daarna het reparatie proces in gang zetten.
Normaal gesproken mag dit alleen wanneer de schijf meldt dat deze zich in een error-state bevindt, maar bij wijze van uitzondering en voorkomen van dubbel werk heeft de HP engineer besloten de schijf toch te vervangen.
Op de StoreVirtuals zit een 4 uurs SLA, dus de nieuwe schijf moet vandaag nog binnen zijn.

En inderdaad…een paar uur later hebben we een nieuwe schijf ontvangen waarna ik weer contact op heb genomen met HP.
De node is toen uit het cluster geplaatst nadat we een andere node als manager aangewezen hebben.
De twijfelachtige schijf is vervangen voor een nieuwe waarna de RAID configuratie van de node opnieuw aangemaakt is.
Hierna wordt de RAID Array dus gebuild en een nieuwe Parity berekend.

Je kunt er voor kiezen om tijdens het rebuilden de node terug te plaatsen in het cluster, Rebuilden en Parity Calc. verlopen dan wat trager omdat het restripen van de volumes dan ook bezig is.
Dat restripen zal nog wel even duren en zal dus in de loop van de volgende dag klaar zijn.

Ondertussen is het restripen en rebuilden klaar, dit heeft ongeveer 48 uur geduurd.
Het berekenen van de parity kan langer duren tot een week of zelfs langer. We moeten hiervoor dus even geduld hebben.
Het enige alarm dat nu nog gegeven wordt is de “EID_PARITY_INIT_RUNNING” wat dus het herberekenen van de parity betekend :

parity-calc

Maar het lijkt er in ieder geval op dat dit het probleem opgelost heeft !
Wederom een top service van HP Enterprise !

Deel dit:
Scroll naar boven