Zuinige servers bieden enorm besparingspotentieel

Na jaren van focus op de facilitaire kant van datacenter-efficiëntie, verschuift nu de aandacht naar het energiebesparingspotentieel in de ICT-omgevingen binnen de muren van het datacenter. Cerios Green onderzocht in opdracht van de dienst Ruimtelijke Ordening van de gemeente Amsterdam hoe groot dit potentieel is en hoe dit potentieel eenvoudig herkend kan worden. Het rapport verschaft een duidelijk inzicht in het besparingspotentieel, al is nader onderzoek nodig om vast te stellen hoe we om dienen te gaan met oudere IT-apparatuur en hun energieverbruiksprofielen. Cerios Green verwacht echter dat een energiebesparing van zeker twee derde van het totale energieverbruik van servers mogelijk is.

De laatste jaren is er veel aandacht voor het energieverbruik van ICT. Deze aandacht is voornamelijk geconcentreerd geweest op het energieverbruik door en de efficiëntie van datacenters, uitgedrukt in de zogenaamde Power Usage Effectiveness.

PUE = energieverbruik van de ICT in het DC + overige energieverbruik van het DC: energieverbruik van de ICT-omgeving

Ook rond Amsterdam heeft het beleid en de inzet van de Wet Milieubeheer zich gericht op de verlaging van deze PUE. Dit beleid is succesvol gebleken, veel datacenters in en rond Amsterdam hebben in de laatste jaren belangrijke energiebesparende maatregelen genomen, de mogelijkheden tot verdere besparingen op dit gebied zijn nu echter beperkt.

Uit dit oogpunt gezien is het logisch dat er wordt gekeken naar nieuwe mogelijkheden om energie te besparen binnen de ICT-sector. Sleutelwoord in deze zoektocht is het woord ‘efficiëntie’. De term efficiëntie is in dit geval gedefinieerd als de verhouding tussen prestaties enerzijds en de hiervoor ingezette middelen, met name elektrische energie, anderzijds. Elektrische energie is goed meetbaar, dit geldt echter niet voor de geleverde prestaties van een ICT-omgeving.

De zoektocht naar een generieke maat voor de prestatie, oftewel de geleverde hoeveelheid werk, in de ICT is al jaren gaande. Meerdere zaken zijn voorgesteld, de meeste hiervan gelden als zogenaamde ‘proxies’. Deze proxies zijn meetbare grootheden die niet direct een maat zijn voor de geleverde prestatie maar dezelfde trend vertonen als de gezochte prestatiemaat. De Green Grid heeft hierover gepubliceerd en als mogelijke proxies worden CPU-cycles of netwerkverkeer genoemd.

Gevoelsmatig lijken dit logische keuzes, maar in de dagelijkse praktijk blijkt netwerkverkeer lastig te meten. CPU cycles zijn telbaar, maar de ene CPU is de andere niet en bovendien welke cycle representeert werk?

Gegeven deze problematiek hebben wij voor ons onderzoek een insteek genomen waarin de definitie van ‘hoeveelheid werk’ die door een ICT-omgeving wordt verzet een ondergeschikte rol speelt. Omdat wel de prestaties en activiteiten van verschillende types ICT-apparatuur onderling zeer verschillen is de eerste stap in de efficiëntie-discussie het aanbrengen van categorieën in ICT-apparatuur. De meest voor de hand liggende indeling is naar primaire functie,

  1. Dataverwerking
  2. Dataopslag
  3. Datatransport

In dit artikel richten we ons op de eerste van de drie primaire taken, dataverwerking. In een ICT-omgeving wordt deze functie vervuld door computers, in de regel aangeduid als ‘servers’. Ogenschijnlijk is de efficiëntie van servers eenvoudig te verwoorden, namelijk, de verhouding tussen de geleverde rekenkracht en het daarvoor benodigde energieverbruik. Deze eenvoud is echter schijn, ‘rekenkracht van servers’ is een containerbegrip waarin een groot aantal verschillende mogelijke bewerkingen zijn gevat. Bovendien is ‘rekenkracht’ van een server afhankelijk van meer dan alleen CPU cycles, het soort bewerking en de toegang tot data spelen allemaal een rol. Benchmarks helpen hierbij nauwelijks maar bieden wel een schat aan informatie die ons leidt naar een eerste bruikbare observatie.

Verschillende benchmarks melden naast de behaalde score, zowel een datum van het resultaat als het energieverbruik van de machine die het resultaat behaalde. Het blijkt uit de tijdsontwikkeling van meerdere benchmarks dat de score per Watt elektrisch vermogen in de tijd steeds hoger wordt. Met andere woorden, servers (computers) worden steeds efficiënter. Dit blijkt onafhankelijk van de methode waarop een score bepaald wordt zolang deze methode maar iedere keer onveranderd gebruikt wordt.

Dit fenomeen is een variant op de bekende wet van Moore en is staat nu bekend als de wet van Koomey. In 2011 publiceerde J.G. Koomey het artikel ‘Implications of Historical Trends in the Electrical Efficiency of Computing’ in ‘IEEE Annals of the History of Computing’. Hierin is 50 jaar computerhistorie geanalyseerd, waaruit blijkt dat computers iedere 1,56 jaar 2 maal zo efficiënt worden. Andere bronnen bevestigen deze bevindingen, gegevens uit de top 500 lijst van supercomputers resulteren in een efficiëntieverdubbeling van ongeveer 1,6 jaar.

Figuur 1: Efficiëntie verbeteringen in supercomputers. De verticale as geeft het aantal MFLOPS/W. De rode lijn zijn de scores voor de lijstaanvoeders (#1) en de blauwe lijn de hekkensluiters op #500 (bron: http://en.wikipedia.org/wiki/Performance_per_watt).

De hier aangetoonde trend biedt dus de mogelijkheid om de efficiëntie van een serverpark in te schatten op basis van de leeftijd van de machines. Hoewel iedere situatie zijn eigen kenmerken heeft en er een groot aantal factoren de keuze voor computerapparatuur en het gebruik daarvan beïnvloeden, kunnen we globaal stellen dat de efficiëntie van een nieuwe server ongeveer 4 maal beter is dan die van een vergelijkbaar model van tussen de 3 en 3,5 jaar oud.

Vervanging van oude apparatuur met een gelijktijdige consolidatie van werklast biedt dus een enorm besparingspotentieel. In een 3,5 jaar oude omgeving is dit potentieel al 75%.

Het is van belang te realiseren dat in de bovenstaande discussie de efficiëntie de maximaal haalbare efficiëntie van de betreffende servers is en dat de factor gebruik in deze discussie nog niet is meegenomen. De efficiëntie van een server blijkt in belangrijke mate afhankelijk van de mate waarin de server wordt belast. Dit fenomeen is nieuwer dan de trend waar Koomey over rapporteerde, maar in 2008 was deze functie al zo ingeburgerd dat de ‘Standard Performance Evaluation Corporation’ (SPEC) de SPECpower_ssj2008 (zie http://www.spec.org/power_ssj2008/ ) introduceerde.

In de SPECpower benchmark wordt het energieverbruik van een server onder een gesimuleerde werklast gemeten. De werkdruk wordt tijdens de test stapsgewijs afgebouwd van 100% (de maximale haalbare output) tot 0% van de servercapaciteit, zoals onderstaand voorbeeld laat zien:

Belasting (%) ssj_ops Gemiddeld elektrisch verbruik (Watt) Verhouding tussen prestaties en elektrisch verbruik.
100 1768196 172,0 10269
90 1605663 147,0 10897
80 1430130 133,0 10741
70 1250821 123,0 10185
60 1074569 112,0 9562
50 895409 102,0 8769
40 713552 93,2 7657
30 535411 84,3 6349
20 357457 75,3 4745
10 179064 66,5 2692
0 0 40,3 0

Tabel 1: SPECpower van een Dell Inc. PowerEdge T620, 4e kwartaal 2013.

Van belang is het getal in de 4e kolom, een laag belaste machine is tot wel 4 maal minder efficiënt dan een hoog belaste machine.

Duidelijk is ook dat het energieverbruik blijkbaar toeneemt met de belasting van de server. Deze observatie gaf ons het tweede cruciale inzicht, de tijdsregistratie van het opgenomen elektrisch vermogen P(t) representeert de werkdruk op een server.

Een praktijkvoorbeeld van dit fenomeen is geregistreerd in het datacenter van de gemeente Amsterdam:

Figuur 2: Vermogensregistratie van een PDU in het datacenter van de gemeente Amsterdam gedurende 1 week.

Dit duidelijke patroon met pieken tot 1260 Watt laat fraai zien wat de bezetting op het gemeentehuis gedurende een week is: standaard kantoortijden met minder bezetting op woensdag en vrijdag. De waargenomen fluctuatie is weliswaar nog klein ten opzichte van het minimum gebruik van 1220 Watt, maar de trend is helder.

Helaas is de praktijkervaring echter dat veel servers op dit moment nog geconfigureerd zijn, en worden, met de ‘statische’ of te wel maximale performance optie. In deze modus staat het elektrische verbruik vast, gelijk aan het maximale verbruik en is dus onafhankelijk van de werkdruk. Deze keuze heeft veel te maken met de mate waarin systeembeheerders bekend zijn met en vertrouwen hebben in de powermanagement functionaliteit maar zeer zeker ook met het datacenterbeheer.

Toegegeven, uit het oogpunt van datacenterbeheer is het feit dat de aanwezige ICT-apparatuur een vast verbruik heeft dat, anders dan door het vervangen of toevoegen van apparatuur, niet zomaar kan stijgen, prettig. Instellingen op koelapparatuur en het totale elektrische netwerk kunnen op deze vaste last geoptimaliseerd worden. Aan de kant van de ICT gelden soortgelijke argumenten, het uitschakelen van powermanagement in een server haalt tenminste één complexiteitsfactor uit het beheer, de betreffende server zal altijd maximale performance leveren, ook al betekent dit dat het apparaat heel erg snel staat te wachten op een volgende opdracht.

Besparingspotentieel

De (valide) redenen om powermanagement in servers uit te zetten moet echter wel gewogen worden tegen de mogelijke besparingen. Het aantal studies naar daadwerkelijke werkdruk in servers is zeer beperkt maar tonen aan dat de gemiddelde bezetting van een server in een datacenter zeer laag is. Zie onder andere ‘Effectively-and-Securely-Using-the-Cloud-Computing-Paradigm (P. Mell, T. Grance, NIST), in dit artikel wordt gepostuleerd dat serverbezetting gemiddeld 15% is.

Ongeacht het precieze getal, het is duidelijk dat serverbezetting fluctueert over de tijd. Als we aannemen dat een gemiddelde bezetting van 15% betekent dat een server 85% van de tijd nauwelijks belast, en 15% zwaar belast is, dan is het verschil in dagelijks energieverbruik tussen balanced performance (met powermanagement) en high performance (geen powermanagement) 50%.

Consolidatie in bovenstaande situatie waarbij de werklast van vier onderbezette servers met powermanagement, in een, nu 60% gemiddeld belastte, server wordt gebundeld bespaart additioneel 60% energie.

Deze simplistische berekening leidt dus naar een energiebesparingspotentieel tussen de 50% en 80% voor server powermanagement. Combinatie met vernieuwing van oudere infrastructuur verhoogt het potentieel nog verder.

Nader onderzoek moet het potentieel en de werkbaarheid bevestigen. Conceptueel is dergelijk onderzoek eenvoudig uitvoerbaar. Het registreren van de vermogensvraag van een server (of groep servers) tegen de tijd en dit afzetten tegen het door de fabrikant opgegeven maximum verbruik van de specifieke (groep) machines levert direct informatie. Een niet constant energieverbruik en/of verbruik ver onder het opgegeven maximum duidt op het gebruik van energiebesparende technieken in de apparatuur en levert een indicatie van gerealiseerd potentieel. Van de ICT-zijde kan gecontroleerd worden wat de instelling van het powermanagement profiel is en kan dit naar een balanced profiel worden omgezet. De resulterende gegevens zullen gecombineerd en gedeeld moeten worden zodat ook andere partijen data analyse kunnen uitvoeren. Aansluiting met een Europees platform zoals bijvoorbeeld de Data Centre Alliance (DCA) - www.datacentrealliance.org - is hiervoor interessant.

Het volledige rapport is hier te vinden.

Dr. Dirk Harryvan is  Consultant en onderzoeker bij Cerios Green