Review: Data Analyses bij Resource Planning

Tijdens het planningsproces bij toekomstige storage uitbreidingen analyseert IT-beheer meestal de historische verkregen data op basis waarvan men beslissingen maakt. Soms is de interpretatie van de beschikbare data en het bepalen van de te nemen beslissingen lastig. Doorgaans maakt men op basis van de huidige capaciteit van een storage systeem met behulp van extrapolatie een inschatting van de in de toekomst benodigde storage capaciteit. Maar in veel gevallen levert dit geen betrouwbare voorspelling omdat de traditionele statische datacenter is veranderd in een in hoge mate dynamische virtuele omgeving.

Als planner wil je in staat zijn om te voorspellen welke invloed een verandering heeft, bijvoorbeeld de verdubbeling van het aantal instances van een bepaalde applicatie, virtual machines of gebruikers. In de planning moet daarom niet alleen rekening worden gehouden met de capaciteit maar ook met de storage prestaties. Tintri Analytics tools bieden voor hun storage systemen een mogelijke oplossing voor resource planning proces.

De Tintri Analytics benadering

Om een tweetal redenen bieden de meeste planning tools te weinig ondersteuning. Ten eerste, veel storage analytische tools zijn hoofdzakelijk ontwikkeld om hardware fouten te voorspellen en worden daarom gebruikt voor support doeleinden. Ten tweede, de meeste leveranciers verzamelen data op storage LUN- of volume niveau. Dergelijke tools bieden alleen inzicht in wat er zich binnen het storage systeem afspeelt maar zijn niet in staat om ten aanzien van prestaties verbanden te leggen tussen Virtual Machines (VMs) en applicaties. Om een beter inzicht te bieden in het gebruik en de prestaties van de door VMs gebruikte storage heeft de firma Tintri de ‘Tintri Analytics’ tool ontwikkeld.

Storage vormt het meeste gecompliceerde element van het IT resource planning proces. Tintri Analytics ondersteunt dit proces op een tweetal manieren waarmee het zich onderscheid van de andere analytische tools.

Ten eerste, de ‘VM-aware’ data faciliteert resource planning. Volgens Tintri bieden andere storage analytics tools en planning tools op applicatie-niveau geen correlatie tussen storage- en applicatie. Dat doet Tintri Analytics wel, het laat zien wat een applicatie aan storage nodig heeft. Het heeft als voordeel dat planning van applicaties downward is gericht, in plaats van de infrastructuur upward.

Ten tweede, Tintri Analytics draait als een service op de host en is gebaseerd op Elasticsearch (zie kader). Dit is een gedistribueerde, schaalbare, real-time zoek- en analyse engine. In antwoord op ad hoc query’s zijn met Elasticsearch grote hoeveelheden data snel te schiften en te bundelen. Dit maakt real-time analyse van data mogelijk. In tegenstelling tot andere storage analytic tools die van op kolommen gebaseerde databases gebruik maken, met in vergelijking een inherente trage toegangstijd.

Tintri Analytics heeft een aparte benadering gevolgd. Het is vanaf de basis ontwikkeld om het resource planning proces te ondersteunen. Net zoals de Tintri storage systemen is Tintri Analytics VM-aware (VAS). Dat betekent, dat er verbanden worden gelegd tussen de gemeten storage waarden, VMs en applicaties. Deze combinatie maakt het mogelijk om in real-time ‘what-if’ scenario’s uit te voeren, wat in hoge mate het resource planning proces vereenvoudigt.

Tintri Analytics Metrics

De door Tintri Analytics getoonde meetwaarden zijn gesynthetiseerd uit raw data. Deze data kan weliswaar worden afgebeeld maar in de meeste gevallen zijn ze nog niet bruikbaar. Want de gebruiksdata die afkomstig is van een storage systeem is complex geworden.

Tintri Analytics rapporteert drie primaire meetwaarden in het ‘Analytics Dasboard’ tabblad:

  • Logical Space: toont de grootte van virtual machines na thin provisioning maar voor compressie en deduplication (ook de grootte van snapshot data)
  • IO Performance: een inschatting van de IO en throughput van resources die een virtual machine nodig heeft (deze meeteenheid is een lineaire combinatie van reads, writes, IOPs en throughput)
  • Working Set: de hoeveelheid benodigde flash voor de opslag van ‘hot data’ voor een virtual machine, nadat Tintri data reductie algoritmen zijn uitgevoerd

De drie getoonde waarden, Logical Space, IO Performance en Working Set, zijn gebaseerd op meerdere raw data elementen. Dit heeft als voordeel dat de er voor de gebruiker weinig voor nodig is om de resultaten te interpreteren. Nemen we IO Performance als voorbeeld. Daarbij spelen meetwaarden als raw IOPs, block lengte, read/write verhouding en throughput een rol. Door deze waarden te bundelen, en als eenduidig getal te tonen, begrijpt de beheerder onmiddellijk de context binnen andere applicaties en in welke mate een VMstore presteert. Datzelfde geld voor de Working Set. Het is een waarde die is samengesteld uit meerdere elementen (welke dit zijn wordt niet door Tintri gespecificeerd). Is ook niet zo belangrijk omdat dit getal een basisreferentiewaarde is waartegen toekomstige meetwaarden kunnen worden gespiegeld.

Figuur-1-615x305 Figuur 1: Tintri Analytics Dashboard

Resource Planning

Resource Planning vormt een belangrijk onderdeel van Tintri Analytics. Daarmee kunnen verschillende ‘what-if-scenarios’ worden gedefinieerd die kunnen helpen bij de keuze voor de beste uitbreiding van de storage omgeving. Er zijn ook trendanalyses op basis van sleutelwaarden mee uit te voeren, om te zien welke invloed een verandering heeft in het gebruik van de beschikbare resources.

Met behulp van Tintri Analytics ‘Experiments’ menupagina zijn ‘what-if’ query’s te definiëren. Er zijn talrijke situaties denkbaar waarin men antwoorden wil op ‘what-if-questions’. Bijvoorbeeld, men is van plan om tientallen webservers of VDI seats te installeren. Het is dan lastig om een duidelijk antwoord op deze vraag te krijgen, met name voor de op capaciteit gerelateerde vragen. Dit komt omdat deduplicatie en compressie en capaciteit complicerende factoren zijn geworden.

Benodigde storage capaciteit

De hoeveelheid storage die in gebruik is, moet op een regelmatige basis worden gecheckt zodat tijdig actie kan worden genomen voordat er een tekort ontstaat. Met Tintri Analytics is de analyse snel en eenvoudig uit te voeren. Het ‘Trends’ menu laat in de tijd het verbruik zien en op basis daarvan een trend. Uit de grafieken valt onmiddellijk op te maken welke resource een kritisch punt zal bereiken.

Er zijn een aantal manieren om meer inzicht te krijgen in de resultaten. Zo kan men een bepaalde subset van een enkele VMstore appliance of een enkele VMstore bekijken. Bij de resultaten van alle VMs is dezelfde data te zien per applicatie. Daarin valt op te maken welke applicaties recources consumeren en de consumptie over een tijd zal zijn. Verder is het tijdframe te verkleinen of vergroten voor een nauwkeuriger projectie van de resources. De algemene trend is dat er in een virtuele omgeving in de tijd gezien er meer capaciteit nodig is. Doorgaans neemt de vraag in de loop van de tij toe bij het aanbrengen van wijzigingen aan VMs. De ‘Profiles’tabblad laat de behoefte aan storage zien wanneer het profiel van een applicatie zich in de tijd wijzigt.

Benodigde compute capaciteit

Recentelijk is er aan de predictive storage analyses functionaliteit een tweede aan toegevoegd, predictive compute. Met behulp van Apache Spark, Amazon Machine Learning en Elasticsearch technologie worden iedere seconde meer dan een miljoen meetpunten verwerkt. Machine learning algoritmen gebruiken deze historische data om het gebruik van compute resources te bepalen. Daarmee kan de benodigde cpu- en geheugen capaciteit voor de komende achttien maanden worden voorspeld.

Figuur-2-615x350 Figuur 2: Compute Analytics (CPU, Memory) Dashboard

Tintri Cloud Connector

Naast een storage resource plan behoort een gedegen Data Protection en Recovery (DP/DR) tot een van kerntaken van IT-beheer. Steeds meer ondernemingen adopteren een multi-cloud strategie op basis van hybride cloud services voor het bouwen van een on-premises enterprise infrastructuur die is gekoppeld aan cloud resources.

De firma Tintri heeft onlangs de Tintri Cloud Connector geïntroduceerd waarmee Tintri storage is te koppelen aan twee public cloud services, Amazon S3 Web Service en IBM Object Storage of aan private clouds op basis van public cloud APIs.

De Cloud Connector kan worden gebruikt als uitbreiding op een bestaande DP/DR strategie met een veilige cloud-verbinding voor lange termijn data retention.

Snapshots naar de Cloud

Snapshots vormen de basis van een data protectie strategie voor VMs. Ze worden gebruikt als recovery points, gerepliceerd naar een andere VMstore of gekloond om een nieuwe VM te creëren op een andere plaats. VM-snapshots zijn handmatig of automatisch te creëren, via een schedule of getriggerd via een RESTful API.

Met de komst van de Cloud Connector zijn lokale snapshots asynchroon naar de cloud te repliceren. Tintri snapshots maken gebruik van inline compressie en data deduplicatie waarbij alleen gewijzigde 8 KB data-blocken via het WAN naar de Cloud worden verstuurd; compressie en deduplicatie reduceert de hoeveelheid via WAN verstuurde data tot wel 95%. Een geminimaliseerd gebruik van HTTP requests, zoals GET en PUT, vermindert het aantal connecties met de public cloud (en daarmee de kosten); die kosten kunnen aanzienlijk zijn bij het transport van grote hoeveelheden te herstellen data.

De Cloud Connector voorziet in een ‘data-at-rest’encryptie (de versleuteling van in de cloud opgeslagen gevoelige data) op de cloud backup target. Voor de verbinding met cloud wordt SSL-encryptie toegepast. Tenslotte, alle configuratie van de snapshots, scheduling en beheer van de sleutels kan vanuit een enkele locatie via Tintri Global Center gebeuren.

 

Figuur-3-615x226 Figuur 3: Tintri Cloud Connector

Epiloog

Tintri Analytics is een resource en planning tool voor de VM-omgeving. In tegenstelling tot andere analyse-tools biedt Analytics een gedetailleerd inzicht in het verbruik en de prestaties op VM-niveau, in plaats van op storage LUN- of volume-niveau.

Op het gebied van resource planning kunnen op basis van verschillende ‘what-if-scenarios’ de beheerder behulpzaam zijn bij de keuze voor de beste uitbreiding van de storage omgeving.

Tenslotte, het nieuwe product Cloud Connector waarmee snapshots naar de cloud zijn te repliceren. Tot dusver is dit beperkt tot Amazon S3 Web Service en IBM Object Storage, maar de verwachting is dat in de toekomst andere cloud storage providers zullen worden toegevoegd, bijvoorbeeld Microsoft Azure Cloud Services.

Elasticsearch Service

Elasticsearch is een open-source full text zoek en analyse engine. Daarmee zijn grote data volumes op te slaan en in ‘near real time’ op te zoeken en analyseren. Het wordt in het algemeen gebruikt als onderliggende engine/technologie voor applicaties die van complexe zoekfuncties gebruik willen maken.

De door Tintri Analytics gebruikte Amazon Elasticsearch Service is een implementatie van Elasticsearch. Het wordt toegepast voor het analyseren van logbestanden, full text search, applicatie monitoring, en meer. De Elasticsearch Service is een volledig beheerservice op basis van eenvoudig toepasbare APIs. De Service biedt real-time eigenschappen voor productie workloads op basis van beschikbaarheid, schaalbaarheid en beveiliging De Service biedt ingebouwde integraties met onder meer AWS-services.

Belangrijke vragen bij Resource Planning

Met de hulp van de Tintri Analytics tool kunnen een aantal belangrijke resource planning vragen worden beantwoord, waaronder:

  • Zijn er genoeg resources beschikbaar om meer instances van een applicatie toe te voegen?
  • Op welk moment zullen mijn storage systemen niet meer genoeg capaciteit of prestaties leveren?
  • Hoe zal, in de tijd gezien, mijn storage utilisatie van de verschillende applicaties zijn?

Apache Spark

Apache Spark is een snelle, in-memory data processing engine, die voor efficiënte streaming, machine learning of SQL-werkbelasting doeleinden kan worden ingezet. Spark is speciaal ontworpen voor het maken van data science analyses. Data scientists maken in het algemeen gebruik van machine learning, dat is een verzameling technieken en algoritmen, waarmee informatie uit data is te abstraheren. De gebruikte algoritmen zijn vaak iteratief. Door cache memory te gebruiken kan data snel worden verwerkt. Dit maakt Spark een ideale processing engine om dergelijke algoritmen snel uit te kunnen voeren.

Bram Dons, IT-Trendwatch