Een brug tussen datameren en datawarehouses

Klik voor meer informatie over auteur Joan Fabregat-Serra.

Het is tien jaar geleden dat James Dixon, Chief Technology Officer bij Pentaho, de term ‘datameer’ bedacht. De term en de onderliggende technologie floreren meer dan ooit.

Hoewel datawarehouse (DWH) -systemen al langer bestaan ​​en herkend worden, heeft de data-industrie de recentere repository, het datameer, omarmd, vooral na de groei van big data, de verschuiving naar cloudopslag en de implementatie van kunstmatige intelligentie (AI) technologieën.

Men kan stellen dat de voordelen van datameren omvatten:

  • Snellere toegang: Datameren kunnen gemakkelijk toegankelijk zijn voor gebruikers, waardoor ze realtime analyses kunnen uitvoeren.
  • Aanpassingsvermogen: Datameren kunnen kleinschalige of gigantische hoeveelheden gegevens (zelfs petabytes) opslaan.
  • Flexibiliteit: Datameren zijn in staat om met verschillende datatypes en databronnen te werken.
  • Kosten efficiëntie: Cloud-datameren zijn goedkoper in vergelijking met lokale datameren.

De aantrekkingskracht en nieuwe mogelijkheden van datameren vormden een enorme bedreiging voor traditionele datawarehousing (DWH) -systemen. De belangrijkste nadelen van DWH’s zijn onder meer de hoge kosten die gepaard gaan met rigide interne structuren die niet kunnen worden aangepast aan de veranderende data-omgeving, en DWH’s kunnen tijdrovend zijn met betrekking tot het ontwerp en de opbouw van complexe data-opslag.

Niettemin hebben DWH-oplossingen zich concurrerend aangepast door ook kosteneffectieve cloudopslagopties aan te bieden en interfaces en functies beter waarneembaar en eenvoudiger te maken. Bovendien is de behoefte aan en de vraag naar DWH nog steeds groot, met voordelen zoals:

  • Efficiëntie: DWH-gegevens zijn gestructureerd en kunnen binnen milliseconden worden opgehaald.
  • Trending-analyse: Omdat DWH is ontworpen voor query’s en analyse, bevat het historische gegevens waarmee gebruikers een reeks vooraf gedefinieerde vragen in de loop van de tijd kunnen beantwoorden.
  • Bestuur: Aangezien veel DWH-systemen een methodologie volgen (zoals Kimball of Inmon) die is gebaseerd op interne gegevensstandaarden en beleidsregels, helpt dit gegevensgebruikers om overeenstemming te bereiken over regels, standaarden en interpretaties.

Hoewel het waar is dat het nieuwe paradigma van datameren perfect aansluit op de AI-behoeften bij big data-problemen, zijn veel analytische of zakelijke gebruikers beter bediend met gestructureerde data. Daarom worden hybride oplossingen die zowel structuur- als semi-gestructureerde datasystemen combineren steeds populairder.

Tegenwoordig zijn DWH’s en datameren goed erkende opslagplaatsen in de data-industrie. Afhankelijk van het zakelijke gebruik kunnen datalakes en DWH verschillende doelen dienen en verschillende voordelen bieden.

Beide opslagsystemen hebben echter nog steeds één gemeenschappelijk onopgelost probleem: Data kwaliteit. Het beroemde 80/20 Data Science-dilemma waarbij 80 procent van de tijd wordt besteed aan het opschonen en 20 procent van de tijd aan het analyseren, geldt nog steeds, ongeacht uw keuze voor gegevensopslag.

Het belangrijkste verschil met betrekking tot datakwaliteit is dat het opschonen van gegevens plaatsvindt nadat de gegevens in het datameer zijn geladen, terwijl datakwaliteitsprocessen worden geïmplementeerd voordat de gegevens in de DWH worden geladen; hierdoor wordt de tijd die wordt besteed aan het verbeteren van de datakwaliteit in beide scenario’s vergelijkbaar.

Er zijn platforms gemaakt om dit veelvoorkomende datakwaliteitsprobleem aan te pakken dat grote hoeveelheden engineering-uren tussen datateams vergt.

Datakwaliteit is erg belangrijk voor beide soorten dataopslagsystemen:

  • Datakwaliteit in datameren: Dit kan worden bereikt door kwaliteitsregels toe te passen met betrekking tot de AVG of andere gegevensgerelateerde wetten om te voorkomen dat “vuile” gegevenswaarden worden ingevoerd in AI-modellen of door SLA’s voor gegevenslevering van gegevensleveranciers af te dwingen.
  • Datakwaliteit in DWH: Om de integraties van DWH te versnellen, is het cruciaal om in minuten kwaliteit lagen toe te voegen, integratieprocessen en datakwaliteitsinzichten te versnellen.

Veel organisaties passen een hybride opslagsysteemoplossing toe, waardoor het belangrijker dan ooit is om een ​​consistent beeld te hebben van datakwaliteit in alle opslagsystemen. Het implementeren van datakwaliteitstools die in hybride scenario’s kunnen werken, is dus cruciaal om datasystemen te optimaliseren, datateams en bedrijfseenheden kracht bij te zetten en hopelijk de 80/20-regel om te keren naar 80 procent analyseren en 20 procent (of minder) opschonen.