
Auch mittelständische Rechenzentren sind heute dicht gepackt und haben hohe Verfügbarkeitsanforderungen (Bild 1). Zugangskontrollen, die Überwachung der Verbrauchsdaten oder das frühzeitige Aufspüren von Hitzenestern sind hier genauso wichtig wie in Großrechenzentren. Der Markt bietet dazu vielfältige Sensoren und Überwachungssysteme an, die sich einfach in vorhandene Infrastrukturen integrieren lassen.
Mit Anwendungen wie IP-Telefonie und der immer umfassenderen Virtualisierung steigen die Verfügbarkeitsanforderungen an ein Rechenzentrum (RZ). Das gilt auch für kleine und mittelständische RZs, bei denen die Umweltdaten bisher nur rudimentär überwacht wurden.
Hinzu kommt, dass auch diese RZs zunehmend fernadministriert werden. Das verschafft mehr Flexibilität: IT-Mitarbeiter können sich Alarme auf ihr Smartphone schalten lassen und von ihrem Laptop im Home Office aus sofort konkrete Maßnahmen einleiten. Oft übernehmen auch externe Dienstleister den RZ-Betrieb, oder IT-Mitarbeiter in der Unternehmenszentrale. Bei der Fernadministration ist es besonders wichtig, dass die Administratoren frühzeitig über ungewöhnliche Ereignisse im entfernten Rechenzentrum informiert werden und somit rechtzeitig eingreifen können.
Anforderungsanalyse nach DIN EN 50600

Über eine Anforderungsanalyse nach DIN EN 50600 kann ein IT-Verantwortlicher ermitteln, an welchen Stellen und wie tiefgehend in seinem RZ Stromverbrauch und Umweltwerte ermittelt und überwacht werden sollen (Bild 2). Die Normenreihe für die Auslegung von RZs basiert auf einer Bedarfs- und Risikoanalyse. Um die hierbei festgelegten Ziele und Bedürfnisse zu erreichen, benötigt der Betreiber »wirksame Informationen für das Management und den Betrieb«. Diese können bei jedem Unternehmen je nach ermittelter Verfügbarkeits- und physikalischer Schutzklasse gemäß DIN EN 50600-1 unterschiedlich detailliert ausfallen. Die Granularitätsniveaus stellen die Einteilung für die »Befähigung zur Energieeffizienz« dar. Daraus folgt unter anderem, an welchen Stellen die Energieverbrauchswerte zu erfassen sind. Die Normenreihe bietet für die verschiedenen Klassen und Niveaus Empfehlungen für die praktische Umsetzung an. Für das Datacenter Infrastructure Management (DCIM) sind dabei folgende Teilnormen relevant:
- DIN EN 50600-2-2 Stromversorgung
- DIN EN 50600-2-3 Überwachung der Umgebung
- DIN EN 50600-2-5 Sicherungssysteme
- DIN EN 50600-99-1 Empfohlene Praktiken für das Energiemanagement.
Praktische Umsetzung

DCIM lässt sich auf viele verschiedene Arten realisieren. Diese Lösungen zeigen in diversen Ansichten anschaulich, wie das Rechenzentrum aufgebaut ist. Sie veranschaulichen, welche Geräte wo im RZ vorhanden sind – aus räumlicher Sicht als auch aus Sicht der Verkabelung, der Belegung der Kernkomponenten wie des Stromverteilnetzes oder der Vernetzung aller Systemkomponenten. Darüber hinaus sammelt ein DCIM alle verfügbaren Daten der angeschlossenen Systemkomponenten und korreliert sie. Es zeigt, wie stark welche RZ-Bereiche ausgelastet sind, darunter auch den Stromverbrauch oder die Kühlleistung. Es sammelt Messwerte über Umgebungsparameter wie Temperatur und Luftfeuchte und steuert Zugangssysteme. Mit ihm lassen sich Lastspitzen, beispielsweise im Stromverbrauch, besser bewerten und mit weiteren Protokolldaten in Relation setzen.
Bei den meisten Parametern ist es übrigens durchaus sinnvoll, jeweils zwei obere und zwei untere Schwellwerte zu definieren. So wird der Administrator frühzeitig gewarnt und kann rechtzeitig Gegenmaßnahmen ergreifen.
Einbindung von Sensoren

Für die Datensammlung arbeiten die meisten Lösungen mit 1-HE-Steuereinheiten für den Rack-Einbau. Der Anwender kann an diese mehrere Sensoren anschließen. Sie verfügen in der Regel über ein Display, das die anliegenden Messwerte anzeigt. Parallel dazu werden die Daten an eine zentrale Managementsoftware gesendet. Es geht aber auch platzsparender: Viele Rechenzentren setzen in ihren Schränken bereits PDUs (Power Distribution Units) zur Stromverteilung und -messung ein. So verfügen z.B. die programmierbaren iPDUs von Raritan zudem über einen Sensor-Port (Bild 3, 4), der unter anderem über die web-basierte Software der PDU angesprochen werden kann.
Die iPDUs werden wie sonst auch seitlich am Holm oder ganz oben oder unten im Schrank montiert. Bei dieser Lösung entfällt das zusätzliche Controller-Gerät für die Sensorik, und die Stromversorgung für die angeschlossenen Sensoren wird über die PDU mitgeliefert.
Die 1-HE-Steuereinheiten wie die iPDUs geben die Messdaten per SNMP, TCP-IP oder über Modbus an die Management-Plattform weiter (Bild 5). Umfang und Aufbau der Management-Lösung richten sich nach dem Bedarf. Es gibt einfache Monitoring-Lösungen etwa allein zur Auswertung der Verbrauchsdaten oder der Umgebungsdaten sowie modulare Systeme, die sich zu einer umfassenden DCIM-Software erweitern lassen. Konfiguration und Einblick erfolgen dabei meist webbasiert und remote über LAN oder WLAN sowie vor Ort über einen Konsolenanschluss (Schnittstelle USB oder RS232C).
Überwachen des Stromverbrauchs

Eine Überwachung des Stromverbrauchs ermöglicht einen stromsparenden Betrieb und eine detaillierte Analyse der Verbraucher im RZ. So ist schnell ersichtlich, wann welche Komponenten Auslastungsspitzen verursachen.
Über die Anforderungsanalyse ergibt sich für ein Rechenzentrum ein Granularitätsniveau für die Messung von Verbrauchskennwerten. Um Aussagen über die Power Usage Effektiveness (PUE) treffen zu können, muss je nach Aufbau des Rechenzentrums der Verbrauch an verschiedenen Stellen gemessen werden. Wichtig ist, dass die verwendete Energie für IT-Geräte getrennt von der Energie gemessen wird, die für andere Aufgaben wie Kühlung genutzt wurde. Messungen am Unterverteiler (Niveau 2) können zum Beispiel ausreichen, wenn sich in den IT-Schränken wirklich nur IT-Geräte befinden. Sind aber Schränke mit integriertem Schrankkühlsystem im Einsatz, entspricht das dem Granularitätsniveau 3. Dann sollte dort per PDU an jeder Steckdose im IT-Schrank gemessen werden.
Grundsätzlich gilt: Je detaillierter diese Unterscheidung erfolgt, umso besser kann der RZ-Betreiber einschätzen, wo es in seinem RZ noch Einsparungspotenziale gibt. Mit den ermittelten Verbrauchswerten lässt sich zum Beispiel die Lastverteilung optimieren, die Serverauslastung und generell die Power Usage Effectiveness (PUE) verbessern.
Strom- und Spannungsmessungen zur Erhöhung der Verfügbarkeit
Darüber hinaus dienen die Strom- und Spannungsmessungen natürlich auch dazu, die Verfügbarkeit zu erhöhen. Um Störfälle frühzeitig zu erkennen, sollten deshalb zum Beispiel zusätzlich Messpunkte am Eingang und an den Schutzschaltern gesetzt werden. Typische Messgrößen sind Spannung, Strom, Leistungsfaktor, Scheinleistung sowie die verbrauchten kWh.
Temperatur und Feuchte

Aktive Komponenten haben häufig konkrete Vorgaben zu Temperatur und Luftfeuchte in ihren Datenblättern, die eingehalten werden müssen. Die für die Messung maßgebliche Temperatur ist somit die direkt am Server-Rack. Die American Society of Heating, Refrigerating and Air-Conditioning Engineers (ASHRAE) erarbeitet Vorgaben zur Klimatisierung von Räumen. Diese Vorgaben werden auch international häufig herangezogen. So entwickelte ASHRAE unter anderem eine Sensoranordnung für eine sinnvolle Temperaturmessung im IT-Schrank, die hierzulande häufig in Rechenzentren genutzt wird. Der Anwender misst dabei oben, in der Mitte und unten im Schrank. Das würde ausreichen, um die Temperatur genau steuern zu können. Dazu können mehrere Sensoren verwendet werden, manche Hersteller bieten auch entsprechend der ASHRAE-Empfehlung einen Messaufnehmer mit drei Messköpfen im notwendigen Abstand an, was die Installation erleichtert.
Die Anforderungen an die relative Luftfeuchte sind im Rechenzentrum ebenfalls hoch und mit engen Toleranzen belegt. Zu trockene Luft kann zu elektrostatischer Aufladung führen, zu feuchte zu Korrosion an den installierten Geräten. Die Luftfeuchte sollte zum einen möglichst an der Zuluft gemessen werden, noch bevor sie durch den Schrank geht. Zum anderen empfiehlt ASHRAE eine kombinierte Messung von Temperatur und Luftfeuchte mit gemeinsamen Messpunkten, die für das Klimamanagement herangezogen werden können.
Abgesehen davon sollten Grenzwertüberschreitungen generell möglichst direkt an den Sensoren gut sichtbar angezeigt werden, damit das Wartungspersonal sie auf einen Blick erkennen kann. Darüber hinaus sollten die Sensoren leicht austauschbar sein. Denn erfahrungsgemäß steigt nach einigen Jahren der Messfehler aufgrund von Langzeit-Drift merklich.
Für das Klima-Management im Schrank hat ASHRAE ein Diagramm als praktisches Hilfsmittel veröffentlicht. Das ASHRAE-Diagramm bildet die erfassten Messpunkte mit ihrer Temperatur in der X-Achse und ihrer relativen Feuchte in der Y-Achse ab (Bild 6). Solange sich diese Messpunkte innerhalb eines bestimmten Bereiches befinden, ist alles in Ordnung (grüne Messpunkte) Sobald sich ein Wert aufgrund einer Temperatur- oder Feuchteschwankung außerhalb des erlaubten Bereiches befindet, wird der Messpunkt rot. Dann sind Maßnahmen zu ergreifen, um den Wert wieder in den »grünen Bereich« zu bringen. Mit dem ASHRAE-Diagramm kann ein RZ-Verantwortlicher schnell Rückschlüsse auf das Temperatur-/Feuchteverhalten im RZ ziehen. Befinden sich zum Beispiel alle Messpunkte im erlaubten Bereich, aber nahe am linken Rand, so heißt das, dass es gefahrlos möglich ist, die Kühltemperatur anzuheben. Eine Erhöhung der Kühltemperatur führt direkt zu Energieeinsparungen. Die Grenzwerte für den erlaubten Bereich geben ASHRAE oder zum Beispiel Server-Hersteller vor.
Wasser-Leckagen
Undichte Wasserzuführungen sorgen zum einen für eine ungenügende Kühlung, führen aber vor allem zu Beschädigungen an Bauelementen oder zu Kurzschlüssen. Ähnliches gilt für eine Ansammlung von Kondenswasser. Aus diesem Grund sollten unter den Zuleitungen und am Schrankboden Leckage-Sensoren angebracht werden. Diese alarmieren, sobald sie Flüssigkeit detektieren.
Luftstrom und Differenzluftdruck
Vor allem in Schränken mit viel aktiver Technik, wie Serverschränken oder Switching-Fabrics, macht ein Kühlkonzept mit gelenktem Luftstrom Sinn, um potenzielle Hitzenester ausreichend zu kühlen. Bei einem Komponententausch oder beim Ausfall eines Lüfters kann sich der Luftstrom jedoch verändern. Um sicher zu gehen, dass die CPUs weiter ausreichend kühlende Luft erhalten, sollte die Zuluft an den kritischen Stellen sowie im Doppelboden überwacht werden.
Darüber hinaus kann es sinnvoll sein, den Differenzluftdruck zwischen Warm- und Kaltgang beziehungsweise oberhalb und unterhalb des Doppelbodens zu ermitteln. Mithilfe der Messdaten von Differenzluftdruck, Lufteintritts- und Austrittstemperatur kann zum Beispiel die Leistung von Lüfter und Kompressor einer Kühlanlage geregelt werden.
Schutz vor Vibration
Server reagieren empfindlich auf Erschütterungen. Vibrationen treten nicht nur in erdbebengefährdeten Regionen auf, sondern auch in der Nähe von Baustellen, viel befahrenen Bahntrassen oder großen Maschinen. Hier müssen die empfindlichen Geräte entsprechend geschützt werden. Mit einem Vibrationssensor kann der Anwender zum Beispiel messen, ob ein Einzelereignis verantwortlich ist für eine erhöhte Fehlerrate beim Festplattenzugriff. Bei Maschinen mit rotierenden Teilen kann der Anwender mit dem Vibrationssensor auch eine Trendverfolgung durchführen.
Asset-Management
Es gibt verschiedene Möglichkeiten, Geräte, Komponenten und Racks in die Inventarisierung des Rechenzentrums aufzunehmen. Raritan etwa arbeitet mit sogenannten Asset Management Tags, in denen jeweils eine ID-Nummer für das angeschlossene Gerät abgespeichert ist. Die Tags werden fest mit diesem Gerät verbunden und führen zu einem Asset Management Strip (AMS), der neben der 19-Zoll-Ebene senkrecht im Schrank eingebaut ist. Dieser bietet für jede HE einen Anschlusspunkt sowie LEDs, die über den Zustand der angeschlossenen Geräte informieren. Bladeserver-AMSs bieten das Gleiche für Bladeserver oder andere Komponenten, die in einen Einbaurahmen integriert werden. Der AMS ist direkt mit der iPDU bzw. der 1-HE-Steuereinheit SRC verbunden und übermittelt per SNMP, welcher Tag mit welchem Anschlusspunkt verbunden ist. Darüber ist es einfach zu ermitteln, in welchem Rack und an welcher Stelle im Rack sich ein bestimmter Server befindet. Das sind Basisinformationen für ein DCIM-System.
Zugangskontrolle
Darüber hinaus lassen sich auch Zugangskontrollen in solche Systeme integrieren. Diese werden entweder an Rack- oder Einhausungstüren angebracht oder an der Grenze zwischen zwei Schutzklassen. Sie bestehen in der Regel aus einem Verriegelungssystem, Sensoren, die über Türzustand und Verriegelungszustand informieren, sowie einem Authentifizierungsmechanismus mit verschlüsselter Kommunikation.
Differenzstrommessung
Differenzstrommessungen dienen dem Brandschutz und indirekt auch dem Personenschutz, da das System bei einer Grenzwertüberschreitung einen Alarm ausgeben kann. Diese Messungen sind nach DIN VDE 0100 zwingend erforderlich.
So schreibt die DGUV V3 die regelmäßige Prüfung von elektrischen Anlagen und Betriebsmitteln nach bestimmten Kriterien vor. Dazu müssen die Anlagen abgeschaltet werden, was im RZ meist schwer realisierbar ist. Eine permanente Differenzstromüberwachung kombiniert mit weiteren Prozessen wird unter Umständen von der Berufsgenossenschaft akzeptiert, um die betreffenden Prüfzyklen zu verlängern oder um sogar von den turnusmäßigen Prüfungen befreit zu werden, welche eine Betriebsunterbrechung erfordern.
Für den Personenschutz entscheidend ist, welcher Strom durch den Körper fließt. Daher dürfen Personen nicht mit unter Spannung stehenden Bauteilen in Berührung kommen, die einen Stromfluss von 30 mA oder mehr durch den Körper hervorrufen. Für den Brandschutz sind maximal 300 mA zulässig. Server beispielsweise haben bauartbedingt einen Ableitstrom. Deshalb sollten nach einer Analyse individuelle Schwellwerte festgelegt werden.
Je feiner die Messpunkte verteilt sind, umso genauer kann der Administrator bei Grenzwertverletzungen die Ursache lokalisieren. Aus diesem Grund bieten moderne PDUs heute eine permanente Überwachung der Differenzstromwerte mit einstellbaren Schwellwerten und einer software-gesteuerten Funktionskontrolle an. Werden die Daten mit einer DCIM-Lösung verarbeitet, lassen sich aus den Messdaten Trends ermitteln und Handlungsketten bei Überschreiten eines Schwellwerts definieren.
Alarmierung
Verschiedene Ereignisse erfordern unterschiedliche Benachrichtigungsarten. Bei Feuer oder Überflutung sind ein möglichst lauter, gut sichtbarer Alarm und eine Benachrichtigung über alle Kanäle notwendig. Oft sind damit gleich automatische Abläufe wie der Ruf der Feuerwehr sowie das Öffnen der Fluchttüren gekoppelt. Werden Grenzwerte oder gar nur Schwellwerte bei Messungen erreicht, muss der dafür zuständige Sachbearbeiter informiert werden, um das Problem kompetent zu analysieren. Grundsätzlich sollte man immer parallel mehrere Benachrichtigungswege konfigurieren, etwa optisch über LEDs und akustisch über einen Alarm am Sensor. Häufig werden auch rollenbasiert E-Mails oder SMS versendet.
Fazit
Viele DCIM-Systeme arbeiten heute mit Standardschnittstellen wie SNMP, TCP/IP oder Modbus zur Integration von Sensoren und Aktoren. Die PDU-basierte Lösung von Raritan bietet eine einfache Möglichkeit, Sensoren und Aktoren im RZ zu integrieren. Sie müssen einfach nur an den entsprechenden Sensor-Ports angeschlossen werden. Der Anwender hat viele Möglichkeiten, die iPDUs remote zu konfigurieren und zu administrieren. Die Lösung unterstützt IPv4 und IPv6. Der Zugriff ist passwortgeschützt, außerdem kann der Administrator Rollen definieren und sie bestimmten Anwendern zuordnen. Auch eine LDAP/AD- oder Radius-basierende Authentifizierung ist konfigurierbar.
Zudem lässt sich die Lösung nahtlos in die modulare DCIM-Lösung von Sunbird oder in ein anderes DCIM-System mit SNMP, TCP/IP oder Modbus-Schnittstelle einbinden. Die Daten können in einer gemeinsamen Oberfläche ausgewertet und sowohl von der IT-Abteilung als auch vom Gebäudemanagement genutzt werden.
Autor
Roberto Sammler, Sales Engineer DACH bei Raritan Deutschland in Zwickau
Quelle und Bildquelle: www.elektro.net