Datacenterbeheer: hét toepassingsscenario voor big data analytics bij uitstek

In de ICT-wereld doen we er soms lang over om onze eigen kracht te beseffen. Neem nu cloud computing. De afgelopen 30 jaar hebben we ons louter gericht op het bijstaan en ondersteunen onze collega’s. We verbeterden hun bedrijfsprocessen. We automatiseerden hun activiteiten zodat ze meer en betere resultaten konden afleveren en de consistentie van hun (product)ontwikkelingsprocessen vergroten. Totdat we ons beseften dat het tijd was om onze interne processen te automatiseren en de consistentie van onze provisioning te optimaliseren.

Een vergelijkbaar inzicht is nodig op het gebied van big data. Veel organisaties proberen big data te analyseren om verbanden en patronen bloot te leggen, markttrends te signaleren, klantenvoorkeuren bloot te leggen en andere bruikbare zakelijke input te verkrijgen. De meesten van ons hebben reeds big data-systemen zoals Hadoop-clusters geïmplementeerd. Ironisch genoeg beïnvloedt dit vaak onze eigen datacenterdiensten. Hierdoor zijn we gedwongen om verborgen patronen te ontwaren en inzicht te krijgen in verbanden tussen de nieuwe workloads en het bronverbruik, de invloed daarvan op de huidige workloads en toekomstige mogelijkheden voor het hosten van nieuwe workloads.

Het probleem is dat virtuele datacenters zijn opgebouwd uit een verzameling van ongelijksoortige componenten. Elk systeem, elke host, elke switch en elk storage-systeem logt en presenteert de gegevens die hun producenten belangrijk achten. Verschillen in de fijnmazigheid, tijdsbestekken en outputformaten van data maken het enorm moeilijk om alle gegevens met elkaar in verband te brengen. Een nog groter probleem is dat de focus van de leveranciers op de levering van meetgegevens dateert uit een tijd waarin er nog geen sprake was van x86-virtualisatie. Dit alles maakt het bijzonder lastig om inzicht te krijgen in de dynamiek van het virtuele datacenter en oorzaak en gevolg van pure relaties te onderscheiden.

Het interessante van een hypervisor is dat het een uiterst contextrijk systeem is dat uitpuilt van gegevens die je kan verwerken en analyseren om een totaalbeeld te krijgen van alle verbruikers en aanbieders van ICT-bronnen. Door deze gegevens op te vragen en te verwerken kukan je inzicht verwerven in de huidige workloads. Met een enorme berg aan gegevens in dezelfde taal, met dezelfde structuur en in hetzelfde formaat in handbereik kan je aan de slag gaan met het blootleggen van relaties en verborgen patronen. De enige beperkingen daarbij zijn in feite de grenzen van jouw fantasie. Elke keer dat je meer kennis van de systemen opdoet, kan je weer nieuwe gegevens analyseren, relaties ontwaren en oorzaak en gevolg identificeren. Dit levert ook meteen input op voor andere processen op het gebied van datacenterbeheer, zoals operationele en ontwerpprocessen.

Denneman-300x300 Frank Denneman

Met deze informatie in handbereik kan je de huidige workloads optimaliseren en nagaan welke systemen het meest geschikt zijn voor het hosten van een nieuwe groep workloads. Ook het operationeel beheer zal veranderen, omdat je nu in staat bent om een ‘vingerafdruk’ van jouw systeem te creëren. In plaats van elke afzonderlijke host of VM te beheren, kan je de vingerafdruk van jouw cluster in de gaten houden. Daarmee kan je nagaan hoe nieuwe workloads de vingerafdruk van de clusters in de loop van tijd hebben gewijzigd. Aan de hand van alle verzamelde gegevens kan je ook trendanalyses uitvoeren, bijvoorbeeld om na te gaan of er sprake is van seizoensgebonden workloads. Hoe ziet de toename van workloads er door de tijd heen uit? Je kan trends in het bronverbruik identificeren en vingerafdrukken van clusters en hosts met elkaar vergelijken om erachter te komen wanneer er horizontale schaalbaarheid is vereist. Dit soort informatie zal je helpen om het datacenter op een andere manier te beheren en het veel effectiever in te richten.

Het mooie van het beschikken over een berg gegevens in dezelfde taal, met dezelfde structuur en in hetzelfde formaat is dat men daarmee het datacenter kan overstijgen. De dataset voor elk afzonderlijk datacenter is uiterst waardevol voor het beheer van de ICT-levenscyclus, het verbeteren van implementatieprocessen en het operationeel beheer en het optimaliseren van de bestaande workloads en infrastructuur met het oog op een beter toekomstig ontwerp. Maar waarom zou men daar ophouden? De gegevens die men over alle virtuele datacenters verzamelt, leveren inzichten op die het beheer van de ICT-levenscyclus nog verder kunnen verbeteren. Zo kan je datacenters van dezelfde omvang, of datacenters voor dezelfde virtuele markt vergelijken om na te gaan hoe de totale eigendomskosten eruit zien als je dezelfde virtuele machine op een specifiek hostsysteem laat draaien (Cisco versus Dell versus HP) en welk opslagsysteem je moet gebruiken (bijvoorbeeld PernixData FVP). Op een gegeven moment kom je misschien te weten wat voor verschil het maakt voor de totale eigendomskosten als je de virtuele machine in een privaat datacenter of een cloud-gebaseerd datacenter laat draaien. Al dit soort informatie is nodig voor datacenterbeheer anno nu. Het is tijd om aan te slag te gaan met het analyseren van de big data om het beheer van de ICT-levenscyclus van jouw virtuele datacenter te verbeteren.

Frank Denneman is Chief Technologist bij PernixData