“Ook al werken we met zeer geavanceerde Data Science-bronnen, we horen nog steeds keer op keer: ‘Ik weet niet eens welke gegevens beschikbaar zijn'”, zegt Susan Swanson, Senior Manager Data Modeling and Architecture bij Health Care Service Corporation (HCSC), een organisatie die regionale dekking en diensten voor gezondheidszorg biedt.
Spreken op de DATAVERSITY® Enterprise Data WereldconferentiePresenteerde Swanson de opslagplaats voor metagegevens van de onderneming als een gecentraliseerde locatie die vragen kan beantwoorden voor elementaire bedrijfsanalyses en rapporterende gebruikers tijdens haar presentatie getiteld Gebruikmaken van de Enterprise Metadata Repository voor toezicht op gegevensbeheer en bewaking van gegevenskwaliteit, en deelden hoe HCSC hun metadata-repository gebruikt om aan te sluiten bij hun initiatieven op het gebied van datagovernance en datakwaliteit.
De Enterprise Metadata Repository: een basis voor besluitvorming
Swanson presenteerde drie aandachtsgebieden voor vertrouwen in de besluitvorming: gegevensbeheer, metadatabeheer en gegevenskwaliteit. “We willen vertrouwen hebben in de beslissingen die we nemen met onze data. Dat is de boodschap die collectief weerklinkt binnen onze organisatie. ” Gegevensbeheer leent controles uit, metadatabeheer beheert en onderhoudt de informatiebeheercatalogus, en datakwaliteit zorgt voor het meten, bewaken en verbeteren van de gegevens, zei ze.
Gebruikers willen weten welke gegevens beschikbaar zijn, met name in het data lake; waar gegevens zich tussen meerdere datalocaties bevinden; hoe gegevens worden geclassificeerd voor beveiliging; en, als het kan worden gedeeld. De opslagplaats voor metagegevens van de onderneming is een georganiseerde catalogus van beschrijvende gegevensverwijzingen en hun onderlinge relaties die een raamwerk biedt om de implementatie van Data Governance-controles te benutten en effectieve Monitoring van gegevenskwaliteit om de gegevens correct te interpreteren en vertrouwen in het gebruik ervan te verzekeren.
Use Case 1: Business Glossary
“Het belangrijkste woord hier is ‘zaken’. Het komt uit het bedrijf. Het wordt bepaald door het bedrijf; het wordt niet gedefinieerd door IT. ” De zakelijke woordenlijst is een toegangspunt voor navigatie en kan een logische plek bieden om te beginnen als een gebruiker niet helemaal zeker weet wat hij zoekt, zei Swanson. Het biedt een raamwerk voor gebruikers om te zien hoe dingen zijn gegroepeerd en verzameld, en hoe ze met andere zijn verbonden metadata-opslagplaats componenten, met descriptoren die de inhoud verrijken. De workflow voor de zakelijke woordenlijst is een iteratief proces waarin belangrijke concepten en gerelateerde terminologie worden geïdentificeerd, gedefinieerd, herzien en gestandaardiseerd voordat ze worden goedgekeurd en gepubliceerd, zei ze.
HCSC biedt alleen-lezen toegang via een reeks SharePoint-sites, met instructies voor snelle toegang en feedback over voorgestelde termen en definities. Zodra de goedkeuring is verkregen, worden termen gekoppeld of “genaaid” aan andere gerelateerde termen en documenten om traceerbaarheid vast te stellen, zei ze. Het stikproces gebeurt achter de schermen en varieert van een semi-automatisch proces tot een handmatig proces.
“Alles komt echt overeen met de zakelijke woordenlijst. Het is nog steeds dat hoge logische niveau, ”zei ze. “Als andere metadata-inhoud binnenkomt, komen ze allemaal op hun juiste punt binnen de zakelijke woordenlijst waar ze aan zijn gekoppeld.”
Gebruikssituatie 2: gegevensbeleid, regels en beveiligingsclassificatie
Beleid en regels voor gegevensbeheer worden doorgaans opgesteld buiten de tool voor de opslag van metagegevens. Dat beleid bepaalt het gewenste gedrag, stelt grenzen en verduidelijkt het proces en het beheer van gegevens in detail. Beveiligingsclassificatie stelt paden in naar naleving, en bestuursregels maken verbinding met operationele regels om beleid te leveren. “Dit is echt de Data Governance-component van onze metadata-opslagplaats”, zei ze.
De associaties en verbindingen zijn zeer overzichtelijk en worden stapsgewijs tot stand gebracht. “Pas als je al deze componenten op één lijn brengt en met elkaar in verband brengt, kun je daadwerkelijk de operationele regels uitvoeren”, en beleid implementeren, zei ze. Naleving wordt gevalideerd en impact wordt berekend via rapportage, met dien verstande dat de beveiligingsclassificatie van kritieke en gevoelige gegevens meer overzicht vereist.
Use Case 3: Dataprofilering en datakwaliteit
In een recente beoordeling van het competentiematurity-model noemden HCSC-respondenten in acht van de tien gebieden datakwaliteit als de belangrijkste focus voor de toekomst. Voor dataprofilering en kwaliteitswerkstroom definiëren stewards en materiedeskundigen (MKB) regels en verwachtingen voor kwaliteit, met begeleiding van de governancegroep en ondersteuning van het applicatieontwikkelingsteam binnen IT.
“Het gaat echt om validatie voor ons”, en een goed begrip van het kwaliteitsniveau dat wordt gebruikt in hun data-oplossingen. Workflow voor De datakwaliteit varieert gebaseerd op werkdruk op andere gebieden. Tijdens perioden van open inschrijving worden er dagelijks meerdere controles uitgevoerd, en op andere momenten, wanneer de stroom van gevoelige persoonlijke informatie langzamer is, worden die controles eenmaal per week uitgevoerd. “We vertrouwen op onze bedrijfsmiddelen om te sturen en te sturen wat we gaan bewaken vanuit een kwaliteitsperspectief”, in plaats van het proces te laten beheren door IT, zei Swanson.
Gebruikscase 4: datalijn en technische metadata
Voor het gemak combineert Swanson zaken data lineage – of “ontworpen datalijn” – (wat in wezen bron-naar-doel-mapping is), met traditionele technische data lineage (wat voor hun doeleinden ETL is). Het bedrijf verzocht hen te traceren “Elke hop onderweg, maar we houden het erg gefocust. We kunnen op zijn minst vanuit een ETL-perspectief voorzien in wat er op dit moment is geïmplementeerd. “
Een audittrail met bestandsnaam en verwerkingsdatum wordt gebruikt voor analyse, tracking en compliance, en bedrijfsdatateams beoordelen proactief de gegevensafkomst om mogelijke problemen te identificeren. Bij de beoordeling van het competentiematurity-model van HCSC, kozen datalijnsteams datalijn als het # 2 aandachtsgebied in de toekomst. ‘Dat was een sterke bevestiging [lineage] is de plek om onze middelen en aandacht te richten, ”zei ze.
Overzicht
De zakelijke woordenlijst biedt een gemeenschappelijk vocabulaire en biedt navigatie naar andere metadata. Gegevensbeheer beleidslijnen en regels stellen controles en toezicht vast, en bedrijfsmiddelen zorgen ervoor dat kwaliteitsverbeteringen overeenkomen met de bedrijfswaarden. Het blootleggen van gegevensafkomst schept vertrouwen in de gegevens.
“De Metadata Repository is echt de spil die alle metadatacontent bevat. We maken het gecentraliseerd. We maken er een one-stop-shop van. Iedereen weet waar hij heen moet. “
De metadata-repository biedt standaardisatie, een gedeeld zakelijk vocabulaire en biedt zakelijke gebruikers de mogelijkheid om met elkaar te praten, zei Swanson. Het is het raamwerk dat governancebeleid en regeldefinitie ondersteunt, en waar beleid en regels aan gegevens worden gekoppeld. “Je hebt die gemeenschappelijke connectiviteit en je hebt de integratie die de metadata-repository kan bieden.”
Swanson zei dat de ontwikkeling van de metadata-repository continu is en naarmate er vooruitgang wordt geboekt, zullen er ook stappen achteruit gaan. De focus zal van jaar tot jaar veranderen, maar haar aanbeveling is om prioriteit te geven aan de behoeften van het bedrijf. “Het is een spannende reis. Het heeft starts en stops, het heeft problemen, maar het is een zeer lonende reis. “
Wilt u meer weten over de aankomende evenementen van DATAVERSITY? Bekijk onze huidige line-up van online en persoonlijke conferenties hier.

Hier is de video van de Enterprise Data World-presentatie:

Afbeelding gebruikt onder licentie van Shutterstock.com