HP Proliant geheugen/processor troubleshooting

Hoewel servers van dermate hoge kwaliteit zijn en gemaakt zijn om 24/7 te draaien, gaat er helaas toch ook wel eens wat kapot.
Zo ook deze keer waarbij de server, welke ESXi 6.5 draait en steeds met een Purple Screen uit klapt.

Het troubleshooten

Dit was een beetje een instinker aangezien de IML van de server aangeeft dat het geheugen in bank CPU1/Bank 4 defect is.
Maar wanneer enkel het geheugen kapot is, krijg je enkel een Uncorrectable Memory Error.
Nu geeft de server naast een geheugenmelding ook een CPU melding.

Dat is dus vreemd want in dit geval zou het probleem dus in de CPU, Geheugen of de bank zelf kunnen zitten.
Wanneer je HP hiervoor belt, zullen ze vragen om zelf wat troubleshooting uit te gaan voeren.
Dus we gaan aan de slag hiermee !

Stap 1 – Verwissel de verdachte geheugenmodule

Als het geheugen kapot zou zijn en je verwisselt deze met bank 4 van CPU2, dan zou het probleem mee moeten verhuizen.
We hebben dus de module van Bank 4/CPU1 verwisseld met Bank 4/CPU2.

Daarna de server weer opgestart en voor wat load gezorgd.
Zorg er bij het troubleshooten voor dat je test VM’s of niet kritische VM’s hebt draaien !
En inderdaad was het na een paar minuten weer raak !
Weer een Purple Screen….

We raadplegen de IML nogmaals :

Toch weer exact dezelfde melding…het probleem is met het verwisselen van het geheugen dus niet mee verhuisd…Het geheugen is dus in orde.

Stap 2 – Verwissel de CPU

We zetten de server weer helemaal uit en deze keer verwisselen we de CPU’s.
CPU1 naar CPU2 en andersom dus.

We beginnen weer opnieuw, starten de server op en zorgen opnieuw voor wat load.
Nu heeft de server 2 dagen probleemloos gedraaid !
Dat is frustrerend want je weet nu nog steeds niet of er wel of niet wat kapot is.
Maar dat de server nu probleemloos draait, ligt er natuurlijk ook aan dat de 2e CPU niet of nauwelijks gebruikt wordt bij maar een paar VM’s.

Hoe test je dit dan ?
We hebben hiervoor 1 VM uitgeschakeld en in de settings ALLE vCPU’s toegewezen op 2 sockets.
Dan de server weer opstarten om te gaan testen. Maar ook hier gebeurde er niks en draaide de Proliant gewoon alsof er niets aan de hand was.

Daarop hebben we een Stress Test tool geinstalleerd.
Bijvoorbeeld Heavyload van JAM-Software, deze installeren en dan starten.

Wanneer je de stress test dan start wordt er een enorme load veroorzaakt waardoor alle vCPU’s op 100% gaan draaien.

En inderdaad stopte de server er binnen een minuut mee bij de stress test !
We hebben het probleem dus kunnen reproduceren.
Als we dan weer in de IML kijken, zien we dat de foutmeldingen hetzelfde zijn, maar het probleem is verhuist naar CPU2 !

Het probleem lijkt dus in de CPU te zitten. Als de geheugenbank zelf kapot was geweest, zou de foutmelding op CPU1 moeten blijven staan en niet op CPU2.
Maar om nu echt uit te sluiten of het geheugen kapot is, verwisselen we nog 1 keer het geheugen. Dus de banken 4 weer omwisselen zodat de modules weer in hun oorspronkelijke bank zitten en dan weer opstarten en de stresstest aanzetten.

Inderdaad klapte de server er tijdens de stress test weer uit en na het raadplegen van de IML is de foutmelding onveranderd. CPU2/Bank 4 geeft nog steeds problemen.

Conclusie

We mogen uit deze testen concluderen dat helaas de CPU de probleem veroorzaker is.
Hiermee kunnen we contact opnemen met HP en de CPU zal vervangen worden.

En inderdaad was het probleem hiermee opgelost.

Het kost even tijd, maar als je klakkeloos het geheugen vervangt ben je, indien uit garantie, een hoop geld kwijt en je hebt nog steeds hetzelfde probleem.
Ook wanneer je geen andere meldingen naast de geheugenmelding krijgt is het aan te bevelen om geheugen eens te verwisselen met een andere module.
Door oorzaken uit te sluiten kom je uiteindelijk altijd bij de boosdoener terecht !

Deel dit: