Blog

We leven in een wereld van gegevens: er zijn er meer dan ooit tevoren, in een steeds groter wordende reeks vormen en locaties. Omgaan met gegevens is uw venster op de manieren waarop datateams de uitdagingen van deze nieuwe wereld aangaan om hun bedrijven en hun klanten te helpen floreren.

Er komt een ongemakkelijke waarheid binnen: de meeste mensen in uw organisatie denken niet na over de kwaliteit van hun gegevens, van de opname tot de productie van inzichten. Als lid van het datateam weet u echter hoe belangrijk data-integriteit (en een hele reeks andere aspecten van datamanagement) is. Door de datakwaliteit hoog te houden, zorgt u ervoor dat de inzichten die uw eindgebruikers trekken, in lijn zijn met de realiteit en hen (en het bedrijf in het algemeen) kunnen helpen slimmere, datagestuurde beslissingen te nemen en kwaliteitsinformatie naar klantgerichte apps te sturen.

In dit artikel gaan we dieper in op de kernaspecten van gegevensintegriteit, welke processen ervoor zorgen en hoe om te gaan met gegevens die niet aan uw normen voldoen. Laten we beginnen met het definiëren.

Wat is gegevensintegriteit?

De eerste vraag die de meesten van ons stellen met betrekking tot gegevensintegriteit is: “Zijn deze gegevens correct?” Hoewel dat een belangrijk onderdeel is van de grotere kwestie van gegevensintegriteit, gaat het concept dieper dan dat. Gegevensintegriteit kijkt naar de hele levenscyclus van uw gegevens en houdt rekening met de processen rond hoe deze worden gegenereerd, opgeslagen, geopend en toegepast om specifieke zakelijke taken uit te voeren. Gedurende die levenscyclus is een goed programma voor gegevensintegriteit erop gericht ervoor te zorgen dat gegevens beschikbaar, volledig en nauwkeurig zijn.

Gegevensintegriteitsrisico’s

Elk van de gegevenskenmerken die we zojuist hebben genoemd – beschikbaar, volledig en nauwkeurig – legt een specifieke zwakte bloot die u probeert te voorkomen met uw inspanningen voor gegevensintegriteit.

Om te beginnen, onbeschikbaarheid: wanneer gegevens niet beschikbaar zijn, opereert het bedrijf zonder zicht op een specifiek aspect van zijn gedrag of geschiedenis. U heeft misschien verkoopgegevens of marketinggegevens of financiële gegevens, maar zonder het juiste niveau van gegevensintegriteit en beschikbaarheid kan dat eigenlijk niet gebruik het om effectieve beslissingen te nemen. U heeft simpelweg niet de toegang die u nodig heeft om analyses uit te voeren.

Onvolledige gegevens vormen een soortgelijk probleem: uw bedrijf werkt alsof de gegevens worden gebruikt voor inzichten is compleet, maar komt misschien met inzichten die niet in overeenstemming zijn met de werkelijkheid. Natuurlijk voeren veel bedrijven complexe analyses uit op onvolledige datasets en krabben ze zich achter het hoofd wanneer hun voorspellingen niet kloppen. Het juiste programma voor gegevensintegriteit kan dit soort resultaten helpen voorkomen.

Net als bij onvolledige gegevens: wanneer de gegevensset onnauwkeurigheden bevat, neemt het bedrijf de verkeerde beslissingen, in de veronderstelling dat ze de goede zijn. In sommige gevallen kunt u geluk hebben en realiseert het bedrijf zich dat de gegevens niet kloppen voordat u een beslissing neemt, maar dit schaadt nog steeds het vertrouwen dat u met het bedrijf heeft opgebouwd. Al deze valkuilen zijn te vermijden met het juiste gegevensintegriteitsbeleid.

Middelen om de gegevensintegriteit te waarborgen

Gegevensintegriteit kan worden onderverdeeld in twee gebieden: fysiek en logisch. Fysieke gegevensintegriteit verwijst naar hoe gegevens worden opgeslagen en geopend. Dit omvat uw fysieke servers op locatie en alle clouddatabases waarmee u mogelijk op afstand bent verbonden. Hoe worden uw apparaten fysiek beveiligd? Wat is uw noodherstelplan? Dit alles draagt ​​bij aan uw algehele gegevensintegriteitsprofiel. Logische gegevensintegriteit is ontworpen om te beschermen tegen menselijke fouten. We zullen dit concept in detail onderzoeken in het testgedeelte hieronder.

shift-to-cloud-analytics-aws-cta-banner

Gegevensintegriteit: een proces en een toestand

Er zijn twee manieren om de gegevensintegriteit te waarborgen: proces en testen. Het eerste stelt ons in staat om de gegevens te beheren voordat deze worden gegenereerd, en het laatste stelt ons in staat om te bepalen of er een probleem is met onze gegevens dat de beschikbaarheid, volledigheid of nauwkeurigheid zou beïnvloeden.

Procesgestuurde gegevensintegriteit: de juiste gegevensgeneratie

Datatransformaties zijn een go-to-oplossing voor het repareren van slechte gegevens, maar als we ons niet concentreren op de bron van wat de gegevens minder dan ideaal of onbruikbaar maakt voor het bedrijf, dan zijn we gedoemd om voor altijd achter onze staart aan te jagen en op te ruimen na slechte gegevens in plaats van de hoofdoorzaak aan te pakken.

Een sterk programma voor gegevensintegriteit begint met het begrijpen van welke gegevens we willen volgen, hoe die gegevens onze systemen binnenkomen, hoe ze worden opgeslagen en hoe lang ze worden opgeslagen. Voordat we overwegen welke gegevens we hebben, moeten we weten wat we willen volgen.

Nu deze vraag is beantwoord, kunnen we overwegen hoe we deze gegevens zullen bijhouden: worden deze geautomatiseerd? Wordt het handmatig ingevoerd? Als het laatste het geval is, moeten we overwegen welke processen of controles we zouden willen invoeren om ervoor te zorgen dat de gegevens die handmatig worden ingevoerd, consistent zijn. Als we dat eenmaal weten, kunnen we vragen beantwoorden over hoe vaak de gegevens worden geladen en waar deze zich zullen bevinden.

Gewapend met een goed begrip van het proces en door de nodige zorgvuldigheid te betrachten om ervoor te zorgen dat er geen hiaten zijn in de manier waarop we gegevens vastleggen, kunnen we verwachtingen opbouwen over hoe die gegevens eruit moeten zien en deze valideren, wat ons tot testen leidt.

Zorgen voor gegevensintegriteit in uw database door middel van testen

Het belangrijkste mechanisme voor het valideren van gegevens is testen. Dit is vaak wat in je opkomt als mensen denken aan data-integriteit, maar we moeten echt rekening houden met dit deel van datakwaliteit. Dat gezegd hebbende, zijn er standaardcontroles die we op onze gegevens kunnen uitvoeren om de kwaliteit ervan binnen de database te evalueren:

  • Referentiële integriteit: Dit evalueert dat het bestaan ​​van een waarde in een tabel / gegevensopslag consistent is met het bestaan ​​van die waarde in een andere tabel.
  • NULL-waarden: Hiermee kan de volledigheid van velden worden gecontroleerd. Als we weten dat een veld niet leeg (of nul) mag zijn, kunnen we testen om er zeker van te zijn dat dit het geval is.
  • Uniekheid: Deze test wordt gebruikt om duplicatie of overtelling te voorkomen. Dit, samen met de nulwaardecontrole, is gebruikelijk voor velden die we beschouwen als primaire sleutels.
  • Geaccepteerde waarden / bereik: Als we weten dat een veld alleen specifieke of een reeks waarden mag bevatten, kunnen we het testen om er zeker van te zijn dat dit het geval is.
  • Recentheid: Dit controleert of de gegevens actueel zijn en niet verouderd.

Bedrijfslogica-tests zijn essentieel om onnauwkeurige gegevens te vermijden in het geval dat we een proces niet strak genoeg kunnen controleren om ervoor te zorgen dat de gegevens perfect het systeem binnenkomen. We gebruiken ze ook om te evalueren dat de logica die we op onze gegevens hebben toegepast om deze te transformeren, nauwkeurige inzichten oplevert.

Voorbeelden van bedrijfslogica-tests die u op de gegevens van uw bedrijf kunt uitvoeren, zijn onder meer ervoor zorgen dat verkoopkansen alleen worden toegewezen aan accountmanagers. U wilt ook valideren dat leads de juiste stappen in uw marketingtrechter doorlopen. Een ander belangrijk stuk informatie is of de som van de aankopen van klanten overeenkomt met de gerapporteerde omzet.

Tests moeten worden toegepast op de onbewerkte gegevens, zowel nadat deze uw datasystemen zijn binnengekomen als gedurende de levenscyclus van de datapijplijn / datatransformatie, om consistente kwaliteit en integriteit gedurende het hele traject te garanderen.

Gegevens opschonen die niet voldoen aan de normen voor gegevensintegriteit

Nu we weten wat gegevensintegriteit is, moeten we bespreken wat we doen als we gegevens vinden die niet aan onze normen voldoen.

Als gegevens niet beschikbaar zijn, moeten we systemen kiezen die continue gegevensbeschikbaarheid ondersteunen. Als u uw gegevensarchitectuur begrijpt en de zwakke punten kent, weet u wat u kunt doen om 100% beschikbaarheid te garanderen.

Onvolledige gegevens, zoals gegevens die zijn verwijderd of nooit zijn gegenereerd, kunnen moeilijk te verwerken zijn. Als u echter back-ups gebruikt, kunt u ontbrekende gegevens herstellen. Toegangscontroles kunnen ongewenste verwijderingen voorkomen, dus zorg ervoor dat alle gebruikers de juiste rechten hebben ingesteld. Regelmatig testen kan er ook voor zorgen dat de gegevens uw programma consistent volgen en dat er geen hiaten zijn.

Onnauwkeurige gegevens moeten indien mogelijk in het bronsysteem worden opgelost (of, als dat niet lukt, overal waar u toegang en controle hebt om het probleem op te lossen). In grotere datasets, waar een zekere mate van fouten wordt verwacht, zal het gebruik van een foutpercentage en een drempelwaarde om enige fouttolerantie te bieden u toelaten om flexibel met uw gegevens om te gaan, maar wordt gewaarschuwd voor grotere problemen.

Onderscheid maken tussen gegevensintegriteit en beveiliging

Gegevensbeveiliging is een naaste van gegevensintegriteit, aangezien we er sterk op vertrouwen om ongewenste ingrepen in onze gegevens te vermijden die de beschikbaarheid, volledigheid en nauwkeurigheid ervan zouden kunnen veranderen, en dus de waarde voor ons bedrijf. Het hebben van een sterk gegevensbeveiligingssysteem voor mensen, processen en systemen voorkomt dat gegevens worden beschadigd of op schadelijke of onbedoelde manieren worden geopend. Als u uw programma voor gegevensintegriteit aan het herzien bent, kan het ook een goed moment zijn om uw gegevensbeveiligingsprotocollen te herzien, en vice versa. Wat u ook bouwt met uw gegevens, integriteit en beveiliging zullen er belangrijke onderdelen van zijn.

Chris Meier is Manager Analytics Engineering bij Sisense.