Databricks versnelt de opzet van data lakehouses met Databricks Ingest

Databricks integreert Databricks Ingest in hun Unified Data Analytics Platform. In combinatie met het Databricks Ingestion partnernetwerk kunnen datateams nu makkelijker databeheer, business intelligence (BI) en machine learning (ML) combineren in een data lakehouse, een nieuwe databeheermethode die de beste aspecten van data lakes en data warehouses verenigt.

Bedrijven moesten hun beschikbare data oorspronkelijk opsplitsen in traditionele, gestructureerde data en big data. Deze datasets werden vervolgens los van elkaar gebruikt voor BI- en ML-cases. Hierdoor werden de data lakes en data warehouses van elkaar gescheiden. Dat leidde tot trage verwerkingsprocessen en gefragmenteerde resultaten, die ofwel te vertraagd ofwel te incompleet waren om ze effectief in te kunnen zetten. Dit verandert met Databricks Ingest, waarmee klanten gemakkelijk vanuit verschillende databronnen hun data direct toe kunnen voegen aan Delta Lake: open source technologie om betrouwbare en snelle data lakehouses op te zetten. Het bijbehorende partnernetwerk bestaat uit ingebouwde integraties met Fivetran, Qlik, Infoworks, Steamsets en Syncsort, die het mogelijk maken om geautomatiseerd data in te laden. Azure Databricks klanten konden overigens al gebruik maken van de ingebouwde integratie met Azure Data Factory om data vanuit verschillende bronnen in te laden.

“Data-silo’s, trage processen en gefragmenteerde resultaten zijn allemaal belangrijke drijfveren in het overschakelen naar lakehouses,” zegt Ali Ghodsi, medeoprichter en CEO van Databricks. “Data lakehouses combineren de betrouwbaarheid van data warehouses met de omvang van data lakes om elke gewenste use case te ondersteunen. Om deze data-architectuur goed te laten werken, moet het makkelijk zijn om ieder type data in te laden. Databricks Ingest is een belangrijke stap in die richting.”

“Databricks ondersteunt onze machine learning en business intelligence in uiteenlopende aspecten van onze bedrijfsvoering, van auto-inventarisbeheer tot prijsvoorspellingen en technische werkzaamheden, door gebruik te maken van honderden terabytes aan data,” zegt Greg Rokita, Executive Director Technology bij Edmunds. “Onze visie op het gebied van data is volledig afgestemd op de lakehouse-methode. Delta Lake is het beginpunt van al onze machine learning en rapportageprocessen. We zijn enthousiast over Databricks Ingest: het zal het zeker makkelijker maken om data in ons Delta Lake te laden.”

Data uit applicaties als Salesforce, Marketo, Zendesk, SAP en Google Analystics, databases zoals Cassandra, Oracle, MySQL en MongoDB en bestandsopslagdiensten zoals Amazon S3, Azure Data Lake Storage en Google Cloud Storage kan eenvoudig gecombineerd worden in één data lakehouse voor alle BI- en ML-vraagstukken. Naast de vandaag aangekondigde netwerkpartners zullen binnenkort integraties met onder andere Informatica, Segment en Talend beschikbaar zijn.

Daarbij kunnen auto-laadmogelijkheden ingesteld worden waarmee data het lakehouse doorlopend binnenstroomt, zonder dat daarvoor onderhoud nodig is. Wanneer data uit verschillende cloudbronnen binnenkomt, slaat Databricks Ingest deze automatisch op in het lakehouse. Zo worden de verschillende data-silo’s doorbroken en kan data door verschillende teams binnen een bedrijf worden ingezet om datagedreven innovatie mogelijk te maken en toegevoegde waarde te leveren met data science, ML en BI.