Traditioneel datawarehouse versus clouddatawarehouse

Blog

We leven in een wereld van gegevens: er zijn er meer dan ooit tevoren, in een steeds groter wordende reeks vormen en locaties. Omgaan met gegevens is uw venster op de manieren waarop datateams de uitdagingen van deze nieuwe wereld aangaan om hun bedrijven en hun klanten te helpen floreren.

De data-industrie is de afgelopen 10 jaar drastisch veranderd, met misschien wel enkele van de grootste veranderingen op het gebied van dataopslag en -verwerking.

De datasfeer breidt zich exponentieel uit en bedrijven van elke omvang zitten op enorme datastores. En waar leven al deze gegevens? De wolk.

Moderne bedrijven worden geboren in de cloud: hun systemen zijn gebouwd met cloud-native architectuur en hun datateams werken met clouddatasystemen in plaats van lokale servers.

De proliferatie van cloudopties viel samen met een lagere toegangsdrempel voor jongere bedrijven, maar bedrijven van alle leeftijden hebben het gevoel ingezien om hun gegevens online op te slaan in plaats van op locatie.

De toegenomen belangstelling voor cloudopslag (en een groter volume aan gegevens dat wordt opgeslagen) valt samen met een toenemende vraag naar gegevensverwerkingsengines die meer gegevens kunnen verwerken dan ooit tevoren.

De verschuiving naar de cloud heeft voor teams veel deuren geopend om krachtigere producten te bouwen en allerlei soorten inzichten te brengen in hun interne workflows, gebruikersapps en meer.

De cloud is de toekomst, maar hoe zijn we hier gekomen?
Laten we eens kijken naar de geschiedenis van het traditionele datawarehouse versus datawarehouses in de cloud.

Opkomst-van-de-data-team-blog-cta-banner-770x250-1.jpg

Datawarehouse vs. databases

De toegenomen populariteit van datawarehouses heeft geleid tot een misvatting dat ze enorm verschillen van databases. Hoewel de architectuur van traditionele datawarehouses en cloud-datawarehouses verschilt, is de manier waarop dataprofessionals ermee omgaan (via SQL of SQL-achtige talen) ongeveer hetzelfde.

De belangrijkste onderscheidende factor is de gegevenswerklast die ze dienen. Laten we onderzoeken:

Datawarehouse:
online analytische verwerking (OLAP)
Databank:
online transactieverwerking (OLTP)
Eén keer schrijven, veel lezenSchrijf veel, lees veel
Beste voor scans van grote tafelsBeste voor korte tafelscans
Meestal een verzameling van veel gegevensbronnenMeestal één bron die een applicatie bedient
Opslag op petabyte-niveauOpslag op terabyte-niveau
Zuilvormige opslagRij-gebaseerde opslag
Lagere gelijktijdigheidHogere gelijktijdigheid
Voorbeelden: Redshift, BigQuery, SnowflakeVoorbeelden: Postgres, MySQL
Bron: https://www.sisense.com/blog/how-to-build-a-performant-data-warehouse-in-redshift/

Aangezien zowel datawarehouses als databases kunnen worden opgevraagd met SQL, zijn de vaardigheden die nodig zijn om een ​​datawarehouse te gebruiken ten opzichte van een database ongeveer hetzelfde. De beslissing welke u vervolgens wilt gebruiken, hangt af van het probleem dat u wilt oplossen.

Als er behoefte is aan gegevensopslag en verwerking van transactiegegevens die een applicatie dienen, dan is een OLTP-database geweldig. Als het doel echter is om complexe analyses uit te voeren op grote sets gegevens uit verschillende bronnen, is een magazijn de betere oplossing.

Voordat we naar moderne datawarehouses kijken, is het belangrijk om te begrijpen waar datawarehouses begonnen in te zien waarom cloud-datawarehouses veel analytische uitdagingen oplossen.

Gegevensbeheer in het tijdperk van multi-cloudanalyse - bannera

Traditioneel versus cloud verklaard

Traditionele datawarehouses

Vóór de haast om de infrastructuur naar de cloud te verplaatsen, nam het aantal gegevens dat door bedrijven werd vastgelegd en opgeslagen al toe, en daarom was er behoefte aan een alternatief voor OLTP-databases die grote hoeveelheden gegevens efficiënter konden verwerken. Het bedrijf begon met het bouwen van wat nu wordt gezien als traditionele datawarehouses.

Een traditioneel datawarehouse is doorgaans een serie met meerdere niveaus van servers, datastores en applicaties.

Hoewel de organisatie van deze lagen in de loop der jaren is verfijnd, maken de interoperabiliteit van de technologieën, de talloze software en de orkestratie van de systemen het beheer van deze systemen tot een uitdaging.

Bovendien zijn deze traditionele datawarehouses doorgaans on-premise oplossingen, waardoor het updaten en beheren van hun technologie een extra ondersteuningslaag wordt.

Cloud datawarehouses

De traditionele datawarehouses hebben het probleem van het verwerken en synthetiseren van grote datavolumes opgelost, maar ze vormden nieuwe uitdagingen voor het analyseproces.

Cloud-datawarehouses maakten gebruik van de voordelen van de cloud en pasten deze toe op datawarehouses, waardoor datateams van elke omvang enorme parallelle verwerking mogelijk maakten.

Software-updates, hardware en beschikbaarheid worden allemaal beheerd door een externe cloudprovider.

Het magazijn schalen naarmate de behoefte aan bedrijfsanalyses groeit, is net zo eenvoudig als het klikken op een paar knoppen (en in sommige gevallen is het zelfs automatisch).

Het magazijn dat in de cloud wordt gehost, maakt het toegankelijker, en met een toename van cloud-SaaS-producten, is de integratie van de talloze cloud-apps van een bedrijf (Salesforce, Marketo, enz.) Met een cloud-datawarehouse eenvoudig.

De lagere overhead en eigendomskosten met datawarehouses in de cloud maken ze vaak veel goedkoper dan traditionele magazijnen.

Cloud datawarehouses in uw datastack

We weten wat datawarehouses doen, maar met zoveel applicaties die hun eigen databases en rapportages hebben, waar past het warehouse dan in uw datastack?

Om deze vraag te beantwoorden, is het belangrijk om na te denken over wat een datawarehouse in de cloud het beste doet: efficiënt grote hoeveelheden gegevens opslaan en analyseren. Het cloud datawarehouse vervangt niet uw OLTP-database, maar dient in plaats daarvan als een repository waarin u gegevens uit uw databases en cloud SaaS-tools kunt laden en opslaan.

Met al uw gegevens op één plaats, fungeert het magazijn als een efficiënte query-engine voor het opschonen van de gegevens, het samenvoegen en rapporteren ervan, waarbij vaak snel uw volledige gegevensset wordt opgevraagd voor ad-hocanalysebehoeften.

In de afgelopen jaren is het gebruik van datameren toegenomen en cloud-datawarehouses positioneren zich om hier goed bij te passen. Datameren zijn in wezen sets van gestructureerde en ongestructureerde gegevens die in platte bestanden in een soort gegevensopslag leven. Cloud-datawarehouses hebben de mogelijkheid om rechtstreeks verbinding te maken met meren, waardoor het gemakkelijk is om de twee datastrategieën te koppelen.

Een datagestuurde toekomst aangedreven door cloud datawarehouse-technologieën

De drie populairste datawarehouse-technologieën in de cloud zijn Amazon’s Redshift, Snowflake en Google’s BigQuery. Ze kunnen elk relatief goed omgaan met dezelfde workloads, maar verschillen in de manier waarop computers en opslag binnen het magazijn zijn ontworpen.

Hoewel het allemaal geweldige opties zijn, wordt de juiste keuze gebaseerd op de schaalvereisten en datatype-eisen van het bedrijf. Afgezien daarvan varieert de prijsstructuur voor de drie enigszins, en op basis van de use-case kunnen bepaalde magazijnen goedkoper zijn dan andere.

Naarmate het aantal cloud-datawarehouse-opties op de markt toeneemt, zullen nichespelers stijgen en dalen in elke branche, waarbij bedrijven kiezen voor deze of gene cloudoptie op basis van het vermogen om hun gegevens op een unieke manier goed te verwerken.

Wat uw bedrijf ook doet en waar u ook probeert inzichten te verschaffen, of het nu gaat om workflows of klantgerichte apps, er is altijd een cloudoptie die voor u werkt.

De toekomst ligt in de wolken, en bedrijven die dit begrijpen en op zoek zijn naar manieren om hun gegevens op het juiste moment in de juiste handen te brengen, zullen op verbazingwekkende manieren slagen.

Adam Luba is een Analytics Engineer bij BI.nl die bijna vijf jaar ervaring heeft met data en analytics. Hij is gepassioneerd over het versterken van datagestuurde zakelijke beslissingen en werkt graag met data gedurende de volledige levenscyclus.