Synthetische gegevens gedefinieerd
Synthetische gegevens zijn kunstmatig gegenereerde informatie die kan worden gebruikt in plaats van echte historische gegevens om AI-modellen te trainen wanneer de feitelijke gegevenssets kwalitatief, volume of variatie missen. Synthetische gegevens kunnen ook een essentieel hulpmiddel zijn voor AI-inspanningen van ondernemingen wanneer beschikbare gegevens niet voldoen aan de bedrijfsbehoeften of privacyproblemen kunnen veroorzaken als ze worden gebruikt om machine learning-modellen te trainen, software te testen en dergelijke.
Volgens Gartner-analist Svetlana Sicular zal in 2024 60% van de gegevens die worden gebruikt voor de ontwikkeling van AI- en analyseoplossingen synthetisch worden gegenereerd, tegen 1% in 2021.
Gebruiksscenario’s voor synthetische gegevens
Kunstmatige gegevens hebben veel toepassingen in AI-strategieën voor ondernemingen. Als vervanging voor echte gegevens kunnen synthetische gegevens nuttig zijn in de volgende scenario’s:
Voor trainingsmodellen wanneer gegevens uit de echte wereld ontbreken: AI- en ML-systemen vereisen enorme hoeveelheden gegevens. Voor sommige use-cases zijn er gewoon niet genoeg gegevens beschikbaar, ofwel omdat de use-case zeer zelden voorkomt, of omdat de use-case nieuw is en er nog niet veel historische gegevens beschikbaar zijn. Synthetische data kunnen ook de kosten verlagen wanneer het verzamelen of kopen van real-world data onbetaalbaar is.
Om hiaten in trainingsgegevens op te vullen: Sommige datasets weerspiegelen niet volledig de gebruiksscenario’s van een bedrijf. Een systeem dat bijvoorbeeld is getraind om telefoonnummers te herkennen, heeft mogelijk niet genoeg internationale nummers om mee te werken.
Een ander veelvoorkomend probleem is het balanceren van een dataset. Een historische dataset kan bijvoorbeeld bestaan uit 99% niet-frauduleuze transacties en minder dan 1% frauduleuze transacties, zegt John Blankenbaker, hoofddatawetenschapper bij SSA & Co., een wereldwijd managementadviesbureau. “Veel modellen zullen beslissen dat het meest succesvolle beleid zal zijn om elke transactie als niet-frauduleus te bestempelen.”
Synthetische gegevens kunnen helpen om de dataset in evenwicht te brengen, maar het moet zeer zorgvuldig gebeuren. “Het is alleen nuttig als het syntheseproces alles vastlegt over een transactie die op fraude wijst”, zegt Blankenbaker. “Wat waarschijnlijk niet voor de hand ligt, want dan zouden we dat als onze fraudedetector gebruiken.”
‘Long tail’-gebruiksscenario’s: Nu AI alomtegenwoordig wordt in organisaties, hebben bedrijven bijna geen gebruiksscenario’s meer waar de vereiste trainingsgegevens overvloedig en gemakkelijk beschikbaar zijn. Zodra die projecten succes hebben, willen bedrijfsleiders dezelfde benaderingen gebruiken voor hun eigen gebruiksscenario’s.
Modelontwikkeling versnellen: Het verzamelen van trainingsgegevens uit de praktijk kan enige tijd vergen, aangezien de informatie wordt verzameld, gelabeld, verwerkt en door nalevings- en andere controles gaat. Dit kan de ontwikkeling van nieuwe AI-modellen vertragen. Met synthetische data kunnen modellen worden getraind en gekalibreerd voordat real-world data beschikbaar komt.
Om de toekomst te simuleren: Wanneer de mode verandert, kunnen historische gegevens van de ene op de andere dag verouderd raken. Toen mensen bijvoorbeeld overstapten van een bedrade hoofdtelefoon naar een draadloze koptelefoon, verloren al die historische klantgegevens hun voorspellende waarde. Aanbevelingsengines die op oude trainingsgegevens vertrouwen, kunnen nog steeds bekabelde opties aanbevelen. Door de historische gegevens te vervangen of aan te vullen met synthetische gegevens die de modeverandering verklaren, kunnen aanbevelingsengines relevant blijven.
Om alternatieve toekomsten te simuleren: Als er een verandering op komst is en het onduidelijk is in welke richting klanten zullen gaan, kunnen gesimuleerde gegevens bedrijven helpen scenariosimulaties uit te voeren en op beide opties voorbereid te zijn.
Om “zwarte zwaan”-gebeurtenissen te simuleren: Bepaalde situaties komen zeer zelden voor en zijn misschien helemaal niet aanwezig in historische gegevens – maar als ze een dramatische impact op een organisatie zouden hebben als ze zich zouden voordoen, dan is het noodzakelijk om voorbereid te zijn. Het gebruik van synthetische gegevens om die situaties te simuleren, kan een bedrijf helpen om die reacties te modelleren.
Om de metaverse te simuleren: De metaverse – virtuele, 3D-simulaties van gaming-, sociale en zakelijke omgevingen – vereist een enorme hoeveelheid inhoud. Er moeten kamers, gebouwen, landschappen, enzovoort worden gemaakt, en het inhuren van 3D-artiesten om al deze inhoud helemaal opnieuw te maken, zal onbetaalbaar zijn. Synthetische gegevens kunnen een aantal hiaten opvullen om realistische, geschikte instellingen en objecten te creëren voor virtuele omgevingen, gebeurtenissen en interacties.
Marketingafbeeldingen genereren: Adverteerders maken al synthetische afbeeldingen om hun producten te laten zien. Een foto van een model dat een trui in één kleur draagt, kan bijvoorbeeld worden omgezet in realistische foto’s van hetzelfde model met alle verschillende versies van dezelfde trui. Er zijn ook hulpmiddelen voor het genereren van afbeeldingen beschikbaar die zelfs realistische maar unieke gezichten kunnen genereren of meubels in verschillende opstellingen kunnen laten zien.
Voor softwaretesten: Het gebruik van echte gegevens om nieuwe software te testen, kan privacy- en beveiligingsproblemen veroorzaken. Synthetische gegevens die eruitzien als echte gegevens, maar waarmee software niet kan worden getest in het volledige scala van gebruiksscenario’s zonder echte gegevens in gevaar te brengen. “Als we willen zien hoe onze infrastructuur omgaat met een groot aantal gebruikersaccounts, is het eenvoudig om een programma te schrijven dat verbinding maakt met onze website en synthetische gebruikers aanmeldt”, zegt Blankenbaker van SSA.
Digitale tweelingen maken: In rechtszaken stellen advocaten soms een schaduwjury samen om argumenten te testen. Organisaties kunnen iets soortgelijks doen door synthetische data te gebruiken. In 2019 heeft de Noorse Arbeids- en Welzijnsadministratie bijvoorbeeld een synthetische versie van de hele bevolking gemaakt. De gegevens worden dagelijks opnieuw gegenereerd, zegt Gartner’s Sicular, en worden gebruikt door een aantal externe organisaties.
In plaats van medische en financiële gegevens: Het gebruik van echte klant- of patiëntgegevens voor het trainen van AI-modellen, het uitvoeren van simulaties of het vinden van bruikbare behandelingen of correlaties kan vanuit het oogpunt van naleving zeer riskant zijn. Zelfs gescrubde of geanonimiseerde gegevens kunnen vaak worden reverse-engineered om de originele gegevens terug te krijgen, zegt Andy Thurai, vice-president en hoofdanalist bij Constellation Research. Synthetische gegevens kunnen niet worden gedeanonimiseerd, maar kunnen nog steeds worden gebruikt om waardevolle inzichten te vinden.
Voor verkoop en marketing: Wanneer een verkoopteam een klant oproept om een product of dienst te demonstreren die gegevens opneemt, kan het handig zijn om voorbeelden te gebruiken die zo dicht mogelijk bij de eigen use case van de klant liggen. Het gebruik van gegevens van een andere klant zou een schending van de privacy zijn. Synthetische gegevens kunnen het verkoopteam in staat stellen het product te testen in een gebruikssituatie die vergelijkbaar is met die van de klant, zonder gevoelige informatie te onthullen.
“Een startup die een applicatie voor de gezondheidszorg probeert te bouwen, kan zijn hele framework bouwen met synthetische PHI [protected health information] data om een end-to-end raamwerk te creëren voor potentiële demo’s aan klanten in plaats van zich af te vragen en te wachten om de juiste verbindingen te maken om echte PHI-gegevens te gebruiken”, zegt Priya Iragavarapu, vice-president in het centrum van data excellence bij ARete, een wereldwijd managementadvies.
AI-systemen testen op vooringenomenheid: Wanneer AI-systemen discrimineren op basis van ras, religie of andere illegale overwegingen, kan dit leiden tot nalevingsaansprakelijkheid of een public relations-ramp – of beide. Met “black box” AI-systemen en nieuwe AI-technologieën zoals neurale netwerken, kan het moeilijk zijn om erachter te komen waarom een AI de aanbeveling doet dat het doet. Door de AI-systemen te testen aan de hand van synthetische datasets die zijn ontworpen om demografische gegevens uit de echte wereld na te bootsen, kunnen deze verborgen vooroordelen worden blootgelegd.
Synthetische gegevensgeneratie
Soms kan het genereren van synthetische gegevens heel eenvoudig zijn. Een lijst met namen kan bijvoorbeeld worden gegenereerd door een willekeurig gekozen voornaam uit een lijst met voornamen en een achternaam uit een lijst met achternamen te combineren. Postcodes kunnen willekeurig worden gekozen uit een lijst met postcodes. Dat kan voor sommige toepassingen voldoende zijn. Voor andere doeleinden kan het echter nodig zijn om de lijst in evenwicht te brengen, zodat bijvoorbeeld synthetische bestedingsgegevens correleren met de gebruikelijke bestedingspatronen in die postcodes.
De meeste datasets worden nog steeds handmatig geproduceerd met SQL voor data-extractie en anonimisering en worden vervolgens opgeschoond met behulp van standaard programmatische talen, zegt Steven Karan, vice-president en hoofd inzichten en data bij Capgemini Canada.
“Er is nog geen commerciële kant-en-klare oplossing op de markt”, zegt hij. “Hoewel er een klein handjevol startups is die synthetische data-oplossingen bieden, heeft geen van hen een kritiek niveau bereikt.”
In plaats daarvan gebruiken de meeste datawetenschappers vooraf gebouwde pakketten om synthetische datasets te genereren, zegt hij.
Het genereren van synthetische datasets die statistisch zinvol zijn en echte data weerspiegelen op manieren die relevant zijn voor use cases, kan een uitdaging zijn. Meest recent zijn AI- en machine learning-algoritmen gebruikt om synthetische gegevens te creëren die nuttiger en representatiever zijn. Datawetenschappers zijn bijvoorbeeld net begonnen met het gebruik van generatieve adversariële netwerken (GAN’s), zegt Iragavarapu van AArete.
“Het is een soort neuraal werk dat een enorme sprong heeft gemaakt in het realiseren van het genereren van synthetische gegevens”, zegt hij.
De manier waarop een GAN werkt, is dat het ene systeem gegevens genereert, bijvoorbeeld een afbeelding van een kat, en een tweede systeem probeert te raden of de afbeelding echt of nep is. Door de twee systemen in een race tegen elkaar uit te spelen, zijn de gegenereerde beelden al snel niet meer van de werkelijkheid te onderscheiden.
Er zijn momenteel een aantal tools beschikbaar voor organisaties die geïnteresseerd zijn in het genereren van hun eigen synthetische gegevens, waarvan de meeste open source zijn. Hieronder volgen enkele van de meer populaire tools voor het maken van synthetische gegevens:
- GPT-J: Open-source alternatief voor OpenAI’s GPT-3 tekstgeneratietool
- Synthea: Open-source tool populair in de medische wereld
- scikit-learn: gebruikt om synthetische datasets te genereren voor gebruik bij regressie, clustering en classificatie met als doel datasets te produceren die voorspellingen mogelijk maken, volgens Karan van Capgemini
- symPy: Gebruikt door datawetenschappers die meer aangepaste synthetische datasets nodig hebben voor meer specifieke behoeften, omdat het de creatie en ontwikkeling van aangepaste symbolische uitdrukkingen mogelijk maakt
- pydbgen: Gebruikt om algemene gegevenssets te genereren, zoals telefoonnummers of e-mailadressen
- synthpop: een R-pakket dat wordt gebruikt om synthetische demografische gegevens te genereren
- faker: een Python-pakket dat synthetische gegevens kan genereren, zoals namen, adressen, e-mails, burgerservicenummers en andere gegevens
- SDV: een Python-tool voor het genereren van tabellen, relationele databases en tijdreeksmodellen
Best practices voor synthetische gegevens
Bedrijven die net beginnen te experimenteren met synthetische data moeten beginnen met goed gestructureerde voorbeelden, suggereert Gartner’s Sicular. Deze use-cases kunnen het gemakkelijkst te implementeren zijn en bieden de meeste initiële waarde. Een database met namen en burgerservicenummers kan bijvoorbeeld eenvoudig worden vervangen door een synthetisch equivalent dat zakelijke voordelen biedt zonder nalevingsverplichtingen te creëren.
Constellation’s Thurai raadt het gebruik van synthetische gegevens af voor het maken en testen van modellen. “Dat zal leiden tot valse positieven”, zegt hij. “En ga niet goedkoop en gebruik alle synthetische data. Je hebt ook een behoorlijke hoeveelheid gegevens uit de echte wereld nodig om in de blend te mengen. ”
Een andere fout zou zijn om synthetische gegevens te gebruiken om erachter te komen of dingen causaal verband houden, zegt Iragavarapu van AArete, of om synthetische uitbijters te genereren, tenzij er specifieke logica is waarmee ze worden gegenereerd.
“En we moeten altijd expliciet vermelden waar we synthetische gegevens gebruiken versus werkelijke gegevens om transparant te blijven voor onze klanten”, voegt hij eraan toe.
Synthetische databedrijven
Verschillende bedrijven komen tussenbeide om synthetische gegevens te creëren voor gebruik in uw modellen, waaronder de volgende: