Kent u iemand die veel luxe fitnessapparatuur heeft gekocht, maar deze niet gebruikt? Het blijkt dat fitnessapparatuur niet veel voordelen biedt als deze niet wordt gebruikt.
Hetzelfde principe is van toepassing op het halen van waarde uit data. Organisaties krijgen misschien veel data, maar halen er niet veel waarde uit. Dit is een wijdverbreid probleem dat verschillende sectoren doorkruist. Geschat wordt dat bijna 75% van de gegevens die bedrijven verzamelen ongebruikt blijft en dat de waarde dus niet wordt gerealiseerd. Dus wat is het probleem?
In het fitnessvoorbeeld is het probleem meestal niet de fitnessapparatuur; het is een probleem met de gewoonten van de gebruiker. Evenzo is het halen van waarde uit gegevens vaak geen probleem met de gegevens zelf. Problemen vloeien veeleer voort uit beperkingen die worden opgelegd door data-infrastructuur en datapraktijken die effectief en efficiënt gebruik in de weg staan. Met andere woorden, slechte keuzes in data-infrastructuur en datagewoonten kunnen leiden tot dataverspilling.
Wat is dataverspilling en waarom gebeurt het?
In wezen betekent dataverspilling het missen van een kans om waarde uit data te halen of te veel betalen om data te verwerven, op te slaan en te gebruiken. In grootschalige systemen komt dataverspilling in vele vormen voor. Sommige zijn verrassend, de meeste zijn duur en bijna allemaal te vermijden.
Om onnodige dataverspilling in uw organisatie te voorkomen, moet u deze eerst herkennen. Hieronder worden vijf veelvoorkomende manieren beschreven waarop verspilling optreedt:
• Gegevens worden gebruikt en vervolgens weggegooid
Een veelvoorkomende datagewoonte die resulteert in gemiste kansen, is aannemen dat gegevens geen waarde meer hebben als ze eenmaal voor het specifieke doel zijn gebruikt. Gegevens worden opgenomen, verwerkt, getransformeerd (misschien voor een specifiek rapport of om te worden opgeslagen in een traditionele database), en vervolgens worden de onbewerkte of gedeeltelijk verwerkte gegevens weggegooid. Het is niet praktisch om al uw gegevens op te slaan, maar het is belangrijk om te beseffen dat gegevens waardevol kunnen zijn voor andere projecten. Die toegevoegde waarde verlies je als je data weggooit.
Dit soort dataverspilling leidt tot het mislopen van het tweede projectvoordeel. AI- en machine learning-projecten bieden bijvoorbeeld grote potentiële waarde, maar zijn speculatief. Door de instapkosten te verlagen door gegevens en infrastructuur die al aanwezig zijn voor andere projecten te hergebruiken, is het mogelijk om veel verschillende benaderingen uit te proberen. Dat maakt het op zijn beurt waarschijnlijker om degenen te vinden die de moeite waard zijn. Gelukkig gebruiken op leren gebaseerde projecten doorgaans gegevens die voor andere doeleinden zijn verzameld.
Het is ook belangrijk om terug te gaan naar onbewerkte gegevens om nieuwe vragen te stellen en nieuwe modellen te trainen, vooral omdat de wereld voortdurend verandert. Functies waarvan u eerst niet dacht dat ze waardevol waren, kunnen later precies zijn wat u nodig heeft. Je hebt die kans verloren als de gegevens zijn weggegooid.
• U heeft gegevens, maar gebruikt deze niet
Waarom blijven waardevolle gegevens zo vaak ongebruikt? Een reden is dat mensen niet weten waar het is of zelfs maar dat het überhaupt bestaat. Gebrek aan annotatie met de juiste metadata is een bijdragende factor. Een andere is slechte communicatie tussen projecten of business units.
Een nog groter probleem is dat mensen misschien niet weten hoe ze de waarde van data moeten zien. Herkennen wat gegevens u kunnen vertellen, is een verworven vaardigheid voor mensen die verder gaan dan alleen gegevenswetenschappers. Er worden nieuwe benaderingen ontwikkeld om bijvoorbeeld ongestructureerde data te begrijpen en te gebruiken. Maar om de voordelen te krijgen die data te bieden heeft, moet u ermee leren omgaan, net zoals u moet weten hoe u fitnessapparatuur moet gebruiken voordat het u enig goed kan doen.
Een andere factor die mensen ervan weerhoudt om data volledig te gebruiken en opnieuw te gebruiken, is de data-infrastructuur die gespecialiseerde tools vereist. Deze beperking maakt het onhandig dat gegevens door verschillende soorten applicaties of verschillende analyse- en AI-tools worden gebruikt. Steeds meer mensen zoeken naar manieren om hun datalaag te verenigen en hebben flexibele toegang om een data-first-omgeving te bouwen.
• Je hebt gegevens, maar niet waar ze nodig zijn
Data op de verkeerde plaats is ongeveer hetzelfde als data die niet bestaat. En “verkeerde plaats” kan meer dan één ding betekenen. Het kan zijn dat gegevens in het bezit zijn van een andere bedrijfseenheid, waardoor het moeilijk te identificeren of uitdagend is om de machtigingen en toegang te krijgen die nodig zijn om die gegevens te delen. Nogmaals, er zijn kosten verbonden aan het niet gebruiken van gegevens omdat deze zich ergens anders bevinden dan u zou willen.
Een andere manier waarop gegevens op de verkeerde plaats staan, is in meer letterlijke zin: geolocatie. Voor grote systemen is grote databeweging van edge naar datacenter of tussen datacenters die zich in verschillende steden of landen bevinden een uitdaging, vooral als je geen data-infrastructuur hebt die is ontworpen om gegevens automatisch te verplaatsen. Het coderen van gegevensbeweging in toepassingen is geen adequaat alternatief, behalve in de eenvoudigste gevallen. Om gegevensverspilling te voorkomen, moet u een manier hebben om gegevens efficiënt te verplaatsen naar de plaats waar ze nodig zijn. Anders kan het handmatig coderen van gegevensbewegingen leiden tot extra problemen, waaronder ongewenste duplicatie.
• Uw systeem bevat ongewenste duplicatie
Het onnodig dupliceren van grote datasets is duidelijk een verspilling van de middelen die worden gebruikt om gegevens op te slaan en te openen, maar het brengt ook op andere manieren verspilling met zich mee. Het dupliceren van gegevens brengt ook dubbel werk met zich mee, wat een extra kost is. En het probleem is niet alleen een kwestie van te veel kopieën van gegevens. Ongeveer gedupliceerde datasets kunnen onzekerheid met zich meebrengen over de datakwaliteit. Bijna duplicaten roepen meteen de vraag op wat gezaghebbend is en waarom er verschillen zijn, en dat leidt tot wantrouwen over datakwaliteit.
Handgecodeerde gegevensbeweging door veel verschillende gebruikers creëert zijn eigen problemen, omdat dit moeilijk op schaal nauwkeurig te doen is. Resulterende datasets kunnen onbedoelde variaties in data introduceren, zelfs wanneer een letterlijke kopie is bedoeld.
Een ander gerelateerd probleem is het creëren van datasilo’s in grote systemen. Onwil om data te delen wijst vaak op het ontbreken van een uniforme datalaag met flexibiliteit in datatoegang. Siled data resulteert niet alleen in vermijdbare kosten, maar het beperkt ook het begrip en de inzichten die datawetenschappers en analisten uit de data kunnen halen. Siloing en slechte mogelijkheden voor gegevensdetectie zijn verspillend door alternatieve kosten plus de kosten van redundante opslag en dubbele inspanning.
Een speciaal voorbeeld van dataverspilling door onnodige duplicatie doet zich voor wanneer een onderneming data koopt die gratis verkregen hadden kunnen worden. Deze verspilling vindt plaats omdat mensen misschien niet weten welke gegevensopties beschikbaar zijn.
• Verbreek de verbinding tussen dataproducenten en dataconsumenten
Een probleem bij het verbinden van gegevensproducenten en gegevensconsumenten is dat degenen die gegevens produceren of zelfs degenen die verantwoordelijk zijn voor gegevensopname vaak niet weten hoe deze zullen worden gebruikt. Die verbinding maakt het moeilijker voor degenen die gegevens nodig hebben om te weten waar ze die kunnen vinden of om te weten waar de gegevens eigenlijk uit bestaan als ze ze vinden. Gegevensproducenten worden uitgedaagd om gegevens op de juiste manier te annoteren zonder te weten hoe ze zullen worden gebruikt. Deze ontkoppeling tussen dataproducenten en dataconsumenten leidt tot een klassieke vorm van dataverspilling in de zin van gemiste kansen of onnodige inspanningen en kosten die nodig zijn om data op te sporen.
Gegevensverspilling verminderen
Hoe kunt u de bovengenoemde problemen aanpakken om gegevensverspilling te verminderen? U moet een uitgebreide datastrategie ontwikkelen die een verenigende data-infrastructuur omvat die is ontworpen om flexibele datatoegang, datadeling en efficiënte databeweging te ondersteunen. HPE Ezmeral Data Fabric is een softwaregedefinieerde en hardware-agnostische datatechnologie die wordt gebruikt om data op grote schaal in een onderneming op te slaan, te beheren en te verplaatsen – van edge tot datacenter, on-premises of in de cloud. Als zodanig dient het als een verbindende gegevenslaag die een breed scala aan toepassingen en tools ondersteunt, en zo uitnodigen tot hergebruik van gegevens. Bovendien verwerkt datafabric databewegingen automatisch op platformniveau.
Andere oplossingen komen in de vorm van een beter gebruik van metadata om te helpen bij het ontdekken en begrijpen van data, samen met nieuwe data-initiatieven om dataproducenten beter in contact te brengen met dataconsumenten. Een nieuw initiatief is de Agstack Foundation, een open source digitale infrastructuur voor de landbouw. Een ander voorbeeld is Dataspaces, een nieuw serviceplatform dat dataproducenten en dataconsumenten helpt bij het integreren van diverse datasets, het verbeteren van data-ontdekking en toegang tot en verbetering van databeheer en vertrouwen.
Deze oplossingen kunnen u helpen kostbare gegevensverspilling te verminderen en beter te profiteren van de waardevolle gegevens die gegevens bieden. Het is echter nog steeds aan u om uw fitnessapparatuur beter te gebruiken.
Lees deze technische paper voor meer informatie over data-infrastructuur die u kan helpen dataverspilling te verminderen.
____________________________________