Keine Ahnung, aber davon viel

Der Server an der Arbeit friert immer wieder ein, die VMs laufen aber einwandfrei weiter. Die Performance bricht auf 30MB/s ein, meiner Meinung nach kein Wunder, wenn man alles auf ein 3x 300GB Raid 5 schmeißt. Also Host OS und VMs. Immer wenn die Rechenzentrumsbehörde über das RSA Board zugreifen will friert der Server ein und liefert 2 Minuten später einen Bluescreen.

Also was haben wir hier?

  • IBM System x
  • 1x Intel Xeon E5410 @2,33GHz
  • 13GB RAM (Warum auch immer)
  • SAS Bandlaufwerk mit entsprechendem Controler PCIe x8
  • IBM ServeRAID 8k mit 3x HDD Raid 5 OnBoard
  • 1x 3COM Fiber PCIx

Also bei der Rechenzentrumsbehörde ein Ticket eröffnet und 2 Wochen warten, mit 3 Downtimes. Die User freut das sicher….
Rückmeldung war da klemmt was, es kommt ein Techniker von T-Systems. Also wieder 3 Wochen warten bis sich T-Systems und die Rechenzentrumsbehörde einigermaßen einig sind.

Dann kam der Tag, an dem der Techniker kommen sollte. Die Ursache soll eine veraltete Firmware sein, aber am besten gleich das ganze Mainboard austauschen. Also wieder Downtime, na toll. Das Mainboard sollte direkt aus dem Lager geliefert werden, Lieferziel war 10 Uhr. Um 12 Uhr wurde ich dann nervös, vielleicht haben von TNT das ja in den Postkasten gequetscht. Da war nichts, aber gegenüber sah ich einen weiß/orangenen VW Crafter. Der Haken an der Sache war, er war auf einem ADAC Abschleppwagen aufgeladen und wurde gerade abtransportiert. Also gleich zu Telefon greifen und beim Lieferanten anrufen und mit Disponenten des Lieferdienstes verbinden lassen. Der ließ mich wissen, das der Fahrer einen Motorschaden gehabt hätte. Ich wies ihn darauf hin, das ich das Teil bis spätestens 14 Uhr brauche. Ich begann schon mich mit dem Gedanken anzufreunden, das ich die Downtime abbrechen könnte. Jedoch stand um 13:15 Uhr der abgehetzte Fahrer des Lieferdienstes im Bürotürrahmen. Also doch noch alles geklappt.

Alles Falsch
Downtime eingehalten, Mainboard durch Techniker gewechselt, alles angeschlossen, aber der Server wollte einfach nicht starten. Na toll. Alles kontrolliert, aber es wollte nicht. Die Lösung das alte Mainboard wieder reinzubauen wurde in den Raum gestellt. Naja es ging ja vorher wenigstens etwas damit. Altes Mainboard wieder rein, Firmware der Controler geflasht. Er statete. Auffällig war, der erste Fehler mit der Meldung des SAS Bandcontrolers war weg, da hat das Flashen anscheinend geholfen. Aber das Problem mit dem Bluescreen blieb.

Och nöööööAlso neue Downtime festgelegt für neuen Mainboard wechsel. Dabei zeigte sich das selbe Bild, der Server verweigete den Start. Uneinigkeit zwischen den verantwortlichen. Ich warf dann ein, ich sehe mir das Problem am nächsten morgen an.

WTF?!?Einmal mit Profis arbeiten, ach wäre das schön.
Ich also Downtime für 5:30-7:00 Uhr angesetzt. Server runtergefahren, natürlich nicht ohne den obligatorischen Bluescreen. Server aufgemacht und gedacht: „ach, PCIx ist alt und nutzt doch eh keiner mehr.“ Also Glasfaserkarte rausgerissen und Server und VMs wieder gestartet. Um 7 Uhr kam dann ein Anruf der Rechenzentrumsbehörde und fragte warum der Server aus sei. Meine Reaktion darauf: „Hää, wiso? Ich hab das gestern mit Ihrem Kolegen abgesprochen. Aber wenn ich Sie schon dran habe (Router wieder Strom geben, weil war aus Testzwecken gezogen, wollte mal SDSL Performance messen), dann können Sie doch mal bitte versuchen über das RSA Board zuzugreifen.“ Und siehe da alles ging. Da soll mal einer sagen ein FiSi im 3. Lehrjahr bringt nix.
Aber mit Rechenzentrumsbehörde und T-Systems sollten ja alles gesagt sein…

Ach ja, das ist übrigens der Übeltäter:

IMG_0833