Big data vraagt om andere benadering van IT

Big data dreigt de IT-infrastructuur in datacenters in tweeën te splitsen. Waar IT-afdelingen zich nog altijd focussen op het terugdringen van de aantallen servers door middel van virtualisatie, vragen big data-projecten juist om de inzet van grote aantallen fysieke servers. Met als risico dat er binnen het datacenter twee gescheiden omgevingen ontstaan, met datasilo’s en versnippering van beheer tot gevolg. Een mogelijke oplossing voor dit beheerprobleem is het inzetten van een externe publieke cloud voor big data.

Big data wordt vaak in één adem genoemd met business intelligence en analytics. Daarmee wordt de trend van big data echter tekort gedaan. Waar ‘BI’ met name is bedoeld voor het vertalen van gegevens naar informatie die leidt tot meer inzicht binnen de organisatie, is de scope van big data veel breder. Het houdt zich bezig met het interpreteren en beïnvloeden van menselijk gedrag, om bijvoorbeeld te kunnen voorspellen wat een klant gaat doen, welke personen goed bij elkaar passen of hoe lang een patiënt nog te leven heeft. Het is eigenlijk toepasbaar in alle situaties waarin een kristallen bol handig zou zijn. Big data is ook meer dan een ‘berg data’, of een enkele technologie; het is eerder een verzameling processen en technologieën waarmee complexe vraagstukken bijna real-time kunnen worden beantwoord.

Vooralsnog is big data het speeltje van een relatief klein aantal bedrijven. Slechts zo’n drie tot vijf procent van de bedrijven heeft inmiddels activiteiten ontplooid op het gebied van big data, zo schat de Taneja Group in. Het zal echter niet lang duren voordat alle bedrijven – van de grootste webshops tot aan het mkb – te maken krijgen met big data. Zo verwacht marktonderzoeker IDC dat de markt voor big data dit jaar tot zes keer sneller zal groeien dan de algehele IT-markt en een omvang zal bereiken van 16,1 miljard dollar. Volgens cijfers afkomstig van de Wikibon-gemeenschap zal de big-datamarkt in de periode van 2011 tot 2017 jaarlijks met 38 procent groeien.

TelekomCloud-02

IT-afdelingen doen er dan ook verstandig aan om zich voor te bereiden op de komst van big data binnen de eigen bedrijfsprocessen. IT-professionals die nu al betrokken zijn bij big data-projecten zijn het namelijk over één ding eens: big data stelt IT-infrastructuren en bestaande IT-activiteiten zwaar op de proef. Met name de gevirtualiseerde infrastructuren, die de laatste jaren gemeengoed zijn geworden binnen datacenters, blijken niet zo’n goede basis te zijn voor de ondersteuning van big data-projecten.

Selectie hardware

Wat is dan wel een goede infrastructurele basis voor big data? En welke voorbereidingen moeten worden getroffen in het datacenter? Over het algemeen kan worden gesteld dat voor big data een infrastructuur nodig is waarin storage en verwerkingskracht over een groot aantal nodes kunnen worden verspreid. Alleen met een gedistribueerde infrastructuur is het namelijk mogelijk om ingewikkelde queries razendsnel van resultaten te voorzien. Een eerste stap in de voorbereiding van het datacenter op big data is dan ook de selectie van de juiste hardware.

Om de snelle groei van de hoeveelheid data – die wordt geschat op tussen de zestig en tachtig procent per jaar – op te kunnen vangen, is op de eerste plaats hardware nodig die eenvoudig is uit te breiden en die hoge opslagsnelheden biedt. Het is om deze reden dat schaalbare architecturen zoals mainframes – die bijdragen aan een lagere Total Cost of Ownership – weer aan een opleving bezig zijn. Uit het oogpunt van snelheid zijn Solid State Disks (SSD’s) en zelfs tape te verkiezen boven roterende harde schijven. Een mooie bijkomstigheid is dat SSD’s snel in prijs dalen, waardoor de prijs-prestatieverhouding steeds gunstiger uitvalt voor SSD.

Een platform dat eruit springt als het gaat om de combinatie van schaalbaarheid en snelheid voor specifieke taken, is de hardware-appliance. Voorbeelden hiervan zijn de IBM Netezza en Oracle’s Exadata. Dergelijke appliances moeten voor het afhandelen van specifieke, bedrijfskritische big data-taken zeker in overweging worden genomen. Wel moet er bij de selectie goed op worden gelet dat de architectuur van de beoogde appliance in staat is om toekomstige verbeteringen in de performance bij te benen.

Datawarehouse of datamarkten?

Een tweede stap in de voorbereiding op big data is een heroverwegingen op het gebied van dataopslag. Moeten bedrijven kiezen voor opslag van alle gegevens in een centraal datawarehouse, of voor meerdere opslagplaatsen die min of meer met elkaar verbonden zijn? Om een goede basis voor big data te creëren, is het noodzakelijk om deze twee benaderingen te combineren. De cruciale bedrijfsgegevens moeten centraal beschikbaar zijn via een intern datawarehouse zodat de beheerders de kwaliteit van deze data naar een hoger niveau kunnen tillen. De data die bijvoorbeeld afkomstig zijn van verschillende cloud providers en worden gebruikt voor analyses, kunnen met Hadoop gedistribueerd worden opgeslagen. Op die manier zijn de gegevens ook decentraal beschikbaar.

Nieuwe technologieën

De geschetste stappen zorgen voor de introductie van nieuwe technologieën in het datacenter. Een goed voorbeeld daarvan is het zojuist aangehaalde Hadoop dat het meest gangbare platform is voor het uitvoeren van big data-analyses. Naast Hadoop worden gedistribueerde databases zoals NoSQL en Cassandra veelvuldig ingezet voor big data-projecten. Het is een open-source softwareraamwerk van The Apache Software Foundation waarmee applicaties petabytes aan ongestructureerde data in een cloud-omgeving op commodity hardware kunnen verwerken. Doordat het systeem is gebaseerd op Google’s MapReduce en Google File System (GFS), kunnen grote datasets in kleinere datablokken worden opgedeeld zodat een cluster deze parallel kan verwerken en een query sneller kan beantwoorden. Voor het beheer van de storage wordt het Hadoop Distributed File System (HDFS) gebruikt.

Wat Hadoop, NoSQL en Cassandra met elkaar gemeen hebben, is dat deze technologieën niet alleen nieuw zijn maar ook nog hun ‘onvolkomenheden’ kennen. Zo biedt HDFS standaard geen ondersteuning voor bijvoorbeeld snapshots, archivering, back-up en high-availability, allemaal storage-principes die gemeengoed zijn onder storagemanagers. Of zoals storage-analist John Webster van de Evaluator Group het omschrijft: “Het zijn allemaal voorbeelden van ‘storage-intelligentie’ die de laatste twee decennia zijn ontwikkeld en die bij Hadoop niet lijken te bestaan.” Een andere uitdaging met Hadoop is het kunnen voldoen aan wet- en regelgeving. “Compliance? Vergeet het maar. Er is geen manier om een bestand te vergrendelen.”

Tekortkomingen onderkend

Deze tekortkomingen worden ook onderkend door fabrikanten zoals Symantec en Red Hat die HDFS graag vervangen zien door hun eigen schaalbare filesystemen, respectievelijk Clustered File System en het Gluster File System. EMC op zijn beurt belooft native integratie te bieden van HDFS in zijn schaalbare NAS-systeem Isilon. Door deze integratie zouden Hadoop-gebruikers verzekerd zijn van ingebouwde dataprotectie en een hogere efficiëntie en performance ervaren dan wanneer fysieke clusters worden gebouwd op Direct-Attached Storage (DAS), zo claimt EMC.

TelekomCloud-03

Hadoop introduceert echter nog een ander probleem. Waar we eerder al zagen dat voor big data-projecten fysieke nodes de voorkeur verdienen boven gevirtualiseerde servers, wordt deze trend nog eens extra versterkt door Hadoop. Bij voorkeur wordt Hadoop uitgerold op een cluster van fysieke servers dat voor storage en computing gebruikmaakt van één en hetzelfde netwerk. Het resultaat is dat storage- en netwerkbeheerders er nog een extra, fysiek netwerk bij krijgen om te beheren en dat alle investeringen die zijn gedaan in dataconsolidatie teniet worden gedaan.

Ook deze negatieve trend wordt gelukkig onderkend door de toonaangevende marktspelers. Zo is virtualisatiespecialist VMware gestart met ‘Project Serengeti’ dat het mogelijk moet maken om Hadoop snel uit te rollen en te beheren op een virtueel platform zoals vSphere. Volgens initiatiefnemer VMware moet het zelfs mogelijk zijn om een Hadoop-cluster binnen tien minuten uit te rollen op een virtueel platform, ‘zonder de noodzaak om extra hardware of software aan te schaffen’. Serengeti wordt via de website van VMware aangeboden als virtual appliance (‘vSphere Big Data Extensions 1.0’) en ondersteunt verschillende Hadoop-distributies waaronder Cloudera, Pivotal, Hortonworks, MapR, Intel en Apache Hadoop.

Bijkomend voordeel van Serengeti is dat een gevirtualiseerd Hadoop-cluster gebruik kan maken van VMware’s mogelijkheden voor high-availability en fouttolerantie waardoor kritische componenten extra bescherming genieten. Een voorbeeld van zo’n kritisch component is het HDFS NameNode dat alle files in het filesysteem bijhoudt en daarmee een single-point-of-failure vormt. High-availibility voor HDFS NameNode is een mogelijkheid die nog niet standaard wordt geboden door HDFS, wat voor storagemanagers een aanleiding kan zijn om de big data-boot nog even af te houden.

Big data in de cloud

De angst dat big data zorgt voor een extra infrastructuur en de introductie van onvolwassen technologieën in het datacenter – en daarmee voor extra beheerlast – lijkt met de inspanningen van onder andere VMware ongegrond. Toch zijn niet alle analisten het erover eens dat het ‘virtualiseren’ van Hadoop het antwoord is op de infrastructurele problemen die door big data worden geïntroduceerd. Zo zouden de beheeroplossingen die worden gebruikt in de virtuele wereld nog niet optimaal zijn voor het beheren van gevirtualiseerde big data-clusters. Ook kan de gevirtualiseerde aanpak zorgen voor hoge licentie- en systeemkosten, waardoor gebruikers alsnog kiezen voor een schaalbare DAS-oplossing.

TelekomCloud-05

Het is om deze redenen dat voor big data steeds vaker externe publieke clouds worden overwogen als alternatief voor een separate infrastructuur in het datacenter, waarmee een ‘infrastructurele splitsing in het datacenter’ in één klap wordt voorkomen. Bijkomend voordeel van ‘big data in de cloud’ is dat datasets en de resultaten van analyses eenvoudig kunnen worden gedeeld met andere bedrijven en onderzoekpartners.

Dergelijke big data-diensten worden al enkele jaren geboden door cloud service providers zoals Medio Systems en Amazon Web Services. Met succes, zo blijkt uit onderzoekscijfers. Zo voorspelt IDC dat binnen de big data-markt ‘cloud-infrastructuur’ de snelst groeiende subcategorie zal zijn, met tussen 2013 en 2017 een samengestelde jaarlijkse groei van bijna vijftig procent.

Software-defined datacenter

Door sommige onderzoekers wordt de cloud zelfs gezien als de ‘de facto oplossing voor big data’. Toch kleven er ook aan de publieke cloud als infrastructuur voor big data enkele nadelen. Dezelfde uitdagingen die we op het gebied van governance en compliance kennen van IT-as-a-Service komen bijvoorbeeld ook bovendrijven bij ‘big data-analyses in de cloud’. Want van wie zijn die data eigenlijk? En als die data onder bepaalde wet- of regelgeving vallen, zorgt de cloud provider er dan voor dat de eigenaar van de data compliant is en ‘in control’ blijft over zijn data.

Een ander probleem is dat met het omzeilen van de interne IT-infrastructuur ook de eigen IT-afdeling buitenspel wordt gezet. Als IT niet betrokken is bij de big data-projecten van de onderneming bestaat het risico dat er een ‘schaduw-IT’ in de publieke cloud ontstaat, oftewel een infrastructuur waar IT geen weet van heeft en die ook niet kan worden bijgestuurd door IT.

Geen enkel type infrastructuur blijkt kortom de ideale basis te bieden voor big data-projecten. Het is dan ook niet verwonderlijk dat bedrijven zoals Intel voorspellen dat de schaalbare, gedistribueerde infrastructuren die worden geassocieerd met big data en gecentraliseerde virtuele infrastructuren het komende decennium zullen convergeren tot wat we inmiddels kennen als het ‘software-defined datacenter’. Hardware zal dusdanig veralgemeniseren dat het onderscheid tussen gecentraliseerde opslagsystemen enerzijds en schaalbare DAS-systemen anderzijds irrelevant wordt. Uiteindelijk zal het de software zijn – of die nu wordt gebruikt voor storage, computing of networking – die on-demand de workload van een server kan veranderen.

Occo Vreezen is senior consultant bij T-Systems Nederland

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *