Definitie van gegevensarchitectuur
Data-architectuur beschrijft de structuur van de logische en fysieke data-assets en datamanagement-resources van een organisatie, volgens The Open Group Architecture Framework (TOGAF). Het is een uitloper van de bedrijfsarchitectuur die de modellen, beleidsregels, regels en standaarden omvat die het verzamelen, opslaan, ordenen, integreren en gebruiken van gegevens in organisaties regelen. De data-architectuur van een organisatie is de bevoegdheid van data-architecten.
Doelen data-architectuur
Het doel van data-architectuur is om zakelijke behoeften te vertalen naar data- en systeemvereisten en om data en de stroom ervan door de onderneming te beheren. Veel organisaties willen tegenwoordig hun data-architectuur moderniseren als basis om AI volledig te benutten en digitale transformatie mogelijk te maken. Adviesbureau McKinsey Digital merkt op dat veel organisaties hun digitale en AI-transformatiedoelen niet halen vanwege de complexiteit van het proces in plaats van de technische complexiteit.
Principes van gegevensarchitectuur
Volgens Joshua Klahr, vice-president productbeheer, kernproducten bij Splunk en voormalig vice-president productbeheer bij AtScale, vormen zes principes de basis van moderne data-architectuur:
- Gegevens zijn een gedeeld bezit. Een moderne data-architectuur moet de departementale datasilo’s elimineren en alle belanghebbenden een volledig beeld van het bedrijf geven.
- Gebruikers hebben adequate toegang tot gegevens nodig. Naast het afbreken van silo’s, moeten moderne data-architecturen interfaces bieden die het gebruikers gemakkelijk maken om data te consumeren met tools die geschikt zijn voor hun werk.
- Beveiliging is essentieel. Moderne data-architecturen moeten worden ontworpen voor beveiliging en ze moeten databeleid en toegangscontrole rechtstreeks op de onbewerkte data ondersteunen.
- Gemeenschappelijk vocabulaires zorgen voor gemeenschappelijk begrip. Gedeelde gegevensassets, zoals productcatalogi, fiscale kalenderdimensies en KPI-definities, vereisen een gemeenschappelijk vocabulaire om geschillen tijdens analyse te voorkomen.
- Gegevens moeten worden beheerd. Investeer in kernfuncties die gegevenscuratie uitvoeren (modellering van belangrijke relaties, opschonen van onbewerkte gegevens en beheer van belangrijke dimensies en maatregelen).
- Gegevensstromen moeten worden geoptimaliseerd voor wendbaarheid. Verminder het aantal keren dat gegevens moeten worden verplaatst om de kosten te verlagen, de versheid van gegevens te vergroten en de flexibiliteit van de onderneming te optimaliseren.
Componenten van gegevensarchitectuur
Een moderne data-architectuur bestaat volgens IT-adviesbureau BMC uit de volgende onderdelen:
- Gegevenspijplijnen. Een gegevenspijplijn is het proces waarin gegevens worden verzameld, verplaatst en verfijnd. Het omvat gegevensverzameling, verfijning, opslag, analyse en levering.
- Cloud opslag. Niet alle data-architecturen maken gebruik van cloudopslag, maar veel moderne data-architecturen gebruiken publieke, private of hybride clouds om flexibiliteit te bieden.
- Cloud computing. Naast het gebruik van cloud voor opslag, maken veel moderne data-architecturen gebruik van cloud computing om data te analyseren en te beheren.
- Moderne data-architecturen maken gebruik van API’s om het gemakkelijk te maken om gegevens bloot te leggen en te delen.
- AI- en ML-modellen. AI en ML worden gebruikt om systemen te automatiseren voor taken zoals gegevensverzameling, labeling, enz. Tegelijkertijd kunnen moderne gegevensarchitecturen organisaties helpen de mogelijkheid te ontsluiten om AI en ML op grote schaal te benutten.
- Gegevens streamen. Datastreaming is het continu stromen van gegevens van een bron naar een bestemming voor verwerking en analyse in realtime of bijna realtime.
- Orkestratie van containers. Een containerorkestratiesysteem zoals open-source Kubernetes wordt vaak gebruikt om software-implementatie, schaling en beheer te automatiseren.
- Realtime analyses. Het doel van veel moderne data-architecturen is om realtime analyses te leveren, de mogelijkheid om analyses uit te voeren op nieuwe gegevens zodra deze in de omgeving binnenkomen.
Gegevensarchitectuur versus gegevensmodellering
Volgens Data Management Book of Knowledge (DMBOK 2) definieert data-architectuur de blauwdruk voor het beheer van data-assets door af te stemmen op de organisatiestrategie om strategische data-eisen en ontwerpen vast te stellen om aan die eisen te voldoen. Aan de andere kant definieert DMBOK 2 datamodellering als “het proces van het ontdekken, analyseren, representeren en communiceren van gegevensvereisten in een precieze vorm die het datamodel wordt genoemd.”
Terwijl zowel data-architectuur als datamodellering de kloof tussen bedrijfsdoelen en technologie proberen te overbruggen, gaat data-architectuur over de macrovisie die de relaties tussen de functies, technologie en datatypen van een organisatie probeert te begrijpen en te ondersteunen. Bij datamodellering wordt een meer gerichte kijk op specifieke systemen of businesscases genomen.
Kaders voor gegevensarchitectuur
Er zijn verschillende enterprise-architectuurframeworks die gewoonlijk dienen als basis voor het bouwen van het data-architectuurframework van een organisatie.
- DAMA-DMBOK 2. De Data Management Body of Knowledge van DAMA International is een raamwerk specifiek voor datamanagement. Het biedt standaarddefinities voor gegevensbeheerfuncties, deliverables, rollen en andere terminologie, en presenteert leidende principes voor gegevensbeheer.
- Zachman Framework voor Enterprise Architectuur. Het Zachman Framework is een enterprise-ontologie gecreëerd door John Zachman bij IBM in de jaren tachtig. De kolom ‘gegevens’ van het Zachman Framework bestaat uit meerdere lagen, waaronder architecturale standaarden die belangrijk zijn voor het bedrijf, een semantisch model of conceptueel/ondernemingsgegevensmodel, een ondernemings-/logisch gegevensmodel, een fysiek gegevensmodel en daadwerkelijke databases.
- Het Open Group Architecture Framework (TOGAF). TOGAF is een enterprise-architectuurmethodologie die een raamwerk op hoog niveau biedt voor de ontwikkeling van bedrijfssoftware. Fase C van TOGAF omvat het ontwikkelen van een data-architectuur en het bouwen van een roadmap voor data-architectuur.
Best practices voor moderne data-architectuur
Moderne data-architecturen moeten worden ontworpen om te profiteren van opkomende technologieën zoals kunstmatige intelligentie (AI), automatisering, internet of things (IoT) en blockchain. Dan Sutherland, senior director, technology consulting, Protiviti, zegt dat moderne data-architecturen moeten voldoen aan de volgende best practices:
- Cloud-native. Moderne data-architecturen moeten worden ontworpen om elastische schaling, hoge beschikbaarheid, end-to-end beveiliging voor data in beweging en data in rust, en schaalbaarheid van kosten en prestaties te ondersteunen.
- Schaalbare gegevenspijplijnen. Om te profiteren van opkomende technologieën, moeten data-architecturen realtime datastreaming en microbatch-databursts ondersteunen.
- Naadloze gegevensintegratie. Data-architecturen moeten worden geïntegreerd met legacy-applicaties met behulp van standaard API-interfaces. Ze moeten ook worden geoptimaliseerd voor het delen van gegevens tussen systemen, regio’s en organisaties.
- Realtime gegevens inschakelen. Moderne data-architecturen moeten de mogelijkheid ondersteunen om geautomatiseerde en actieve datavalidatie, classificatie, beheer en governance in te zetten.
- Ontkoppeld en uitbreidbaar. Moderne data-architecturen moeten zo worden ontworpen dat ze losjes kunnen worden gekoppeld, zodat services minimale taken kunnen uitvoeren, onafhankelijk van andere services.
Rollen in gegevensarchitectuur
Hier zijn enkele van de meest populaire functietitels met betrekking tot data-architectuur en het gemiddelde salaris voor elke functie, volgens gegevens van PayScale: