Het probleem met big data: het wordt steeds groter

Klik voor meer informatie over auteur Bernard Brode.

Bekijk snel het geschiedenis van big data, en één feit zal u onmiddellijk opvallen: het vermogen om gegevens te verzamelen is bijna altijd groter geweest dan ons vermogen om het te verwerken. Vroeger groeide de verwerkingskracht exponentieel, maar de laatste jaren is die groei vertraagd. Hetzelfde kan niet gezegd worden van de volumes van data beschikbaar, die jaar na jaar blijven groeien.

De cijfers hierover zijn verbluffend. Tussen 2014 en 2015 zijn er meer gegevens gegenereerd dan in de hele voorgeschiedenis van de mensheid, en die hoeveelheid gegevens zal naar verwachting elke twee jaar verdubbelen. Tegen 2020 werd voorspeld dat onze verzamelde digitale gegevens zouden groeien tot ongeveer 44 zettabytes (of 44 biljoen gigabyte) en tot 180 biljoen gigabyte in 2025. Ondanks deze geconcentreerde inspanning om gegevens te verzamelen, is minder dan 3 procent daarvan ooit geanalyseerd.

Wat dan ook big data-trends van 2020dan is het ene misschien wel belangrijker dan al het andere: de enorme hoeveelheid beschikbare gegevens en de problemen die ons zullen bezorgen. In dit artikel zullen we er een paar bekijken.

Datavolumes nemen sneller toe dan ooit

Er zijn een paar belangrijke redenen waarom datavolumes exponentieel blijven toenemen. Een daarvan is simpelweg dat steeds meer mensen hun hele zakelijke en persoonlijke leven online leiden. Als je in een relatief welvarend deel van de wereld (of in feite de VS) woont, kan het gemakkelijk zijn om te vergeten dat de “internetrevolutie” nog lang niet voorbij is. Internetpenetratie in de VS nog steeds blijft achter andere landen, en dus zijn er genoeg mensen die nog niet online zijn. Terwijl ze dat doen, zullen ze een wereld betreden waarin elke stap wordt gecontroleerd. Dit is grotendeels zodat ze kunnen worden getarget met advertenties, maar het heeft ook geleid tot enorme opslagplaatsen met informatie over individuele internetgebruikers.

De tweede belangrijke reden waarom datavolumes blijven toenemen, is het Internet of Things (IoT). Tien jaar geleden was het IoT grotendeels beperkt tot primitieve fitnesstrackers en medische toepassingen. Nu is een verbijsterende reeks apparaten ontworpen om gegevens over de gewoonten van hun eigenaren te verzamelen en deze gegevens terug te sturen naar enorme datawarehouses.

Waar gaan we het opslaan?

Voor marketeers is deze toename van de hoeveelheid beschikbare gegevens over de gemiddelde consument ongetwijfeld een enorm voordeel geweest en heeft het een revolutie teweeggebracht in de marketingindustrie. Voor netwerkingenieurs was de explosie van datavolumes minder gunstig. Dat komt omdat al deze gegevens ergens moeten worden opgeslagen en we kunnen de limiet naderen van wat mogelijk is met traditionele manieren om dat te doen.

Om te zien waarom, is het de moeite waard om een ​​idee te krijgen van hoeveel gegevens we het hebben. In zijn Data Age 2025-rapport voor Seagate voorspelt IDC dat de wereldwijde datasfeer zal bereiken 175 zettabytes tegen 2025. Dat klopt, we meten nu in zettabytes.

Het zou een understatement zijn om te zeggen dat de systemen die momenteel worden gebruikt om deze gegevens op te slaan en te beheren, verouderd zijn. Tot voor kort werden de uitdagingen op het gebied van de verwerking van big data grotendeels aangepakt via de inzet van open-source ecosystemen, zoals Hadoop en NoSQL. Deze open source-technologieën vereisen echter handmatige configuratie en probleemoplossing, wat voor de meeste bedrijven nogal gecompliceerd kan zijn.

Dit was de belangrijkste reden dat bedrijven zo’n tien jaar geleden begonnen met het migreren van big data naar de cloud. Sindsdien hebben AWS, Microsoft Azure en Google Cloud Platform de manier veranderd waarop big data wordt opgeslagen en verwerkt. Vroeger, toen bedrijven data-intensieve apps wilden draaien, moesten ze hun eigen datacenters fysiek vergroten. Nu, met pay-as-you-go-services, biedt cloudinfrastructuur flexibiliteit, schaalbaarheid en gebruiksgemak.

Big data en slimme data

Zoals we eerder hebben opgemerkt, maakt de mogelijkheid om enorme hoeveelheden gegevens op te slaan op zichzelf de gegevens niet bruikbaar. Het cruciale feit om hier te onthouden is dat er een verschil is tussen big data en slimme data; de eerste is slechts zettabytes aan ongestructureerde gegevens, terwijl de laatste nuttige intelligentie is.

Net zoals de noodzaak om voorheen ongehoorde hoeveelheden gegevens op te slaan leidde tot een revolutie in de manier waarop bedrijven met IT werkten, zal de mogelijkheid om betekenis uit big data te halen waarschijnlijk leiden tot fundamentele veranderingen in de manier waarop we omgaan met technologie.

Op dit moment zijn de meeste analisten van mening dat de enige manier waarop we met de enorme datasets van de toekomst zal zijn via AI-proxy’s. Naarmate de hoeveelheid beschikbare gegevens het vermogen van de mensheid om ermee te werken overtreft, zullen AI’s een noodzaak worden.

In veel opzichten is het vreemd dat deze verschuiving nog niet heeft plaatsgevonden. AI-platforms bestaan ​​al een decennium en veel zijn gebaseerd op open-sourcearchitecturen waarmee in theorie elk bedrijf ze kan implementeren. Helaas heeft een gebrek aan expertise velen ervan weerhouden dit te doen. De dingen zijn echter aan het veranderen. AI-leveranciers zijn begonnen met het bouwen van connectoren voor open-source AI- en ML-platforms en bieden betaalbare oplossingen die geen complexe configuraties vereisen. Bovendien bieden commerciële leveranciers de functies die open-sourceplatforms momenteel missen, zoals ML-modelbeheer en hergebruik.

De gevaren

Terwijl deze volgende transformatie zich ontvouwt, moeten we de tijd nemen om van de laatste te leren. De ethische implicaties van big data-acquisitiesystemen, die automatisch biljoenen datapunten van miljarden internetgebruikers verzamelden en opslaan, worden pas erkend.

We moeten niet dezelfde fout maken met AI-systemen. Er zijn enkele veelbelovende signalen: giganten zoals Google en IBM dringen al aan op meer transparantie door hun machine learning-modellen te bouwen met technologieën die bias monitoren. Om het potentieel van big data te benutten, hebben we echter veel meer nodig dan geavanceerde AI’s en grotere opslagcentra. We hebben ook een ethisch kader nodig voor wanneer, waarom en hoe deze gegevens kunnen worden gebruikt.


follow:
admin

admin

Related Posts

Een korte geschiedenis van gegevensbeheer

Datamanagement is de organisatie van gegevens, de stappen die worden gebruikt om efficiëntie te bereiken en informatie uit die gegevens

Datakans klopt! Moet je antwoorden?

Klik voor meer informatie over auteur Kartik Patel. Als zakenmensen krijgen we vaak te maken met wat misschien een geweldige

Een korte geschiedenis van gegevensbeheer

Datamanagement is de organisatie van gegevens, de stappen die worden gebruikt om efficiëntie te bereiken en informatie uit die gegevens

Datakans klopt! Moet je antwoorden?

Klik voor meer informatie over auteur Kartik Patel. Als zakenmensen krijgen we vaak te maken met wat misschien een geweldige