Lekt uw AI-model intellectueel eigendom?

Klik voor meer informatie over auteur Sameer Vadera.

Bedrijven gebruiken AI vaak in applicaties om intelligente functionaliteit te ontgrendelen, zoals het voorspellen van relevante productaanbevelingen voor klanten. Onlangs zijn bedrijven begonnen met bouwen AI-aangedreven applicaties die voorspellende functionaliteit bieden met behulp van gevoelige informatie – een aanzienlijk voordeel voor gebruikers. Tegenwoordig zijn er bijvoorbeeld AI-toepassingen die zijn getraind medische gegevens om te helpen bij het voorspellen van diagnoses voor patiënten en andere toepassingen die zijn getraind in gebruik privé-e-mails om de volgende zin te voorspellen die in een sms of e-mail moet worden geschreven.

Maar voorspellende AI-modellen trainen trainingsgegevens gebruiken die gevoelige informatie bevat, bemoeilijkt de naleving van de voorschriften voor gegevensbescherming. Gegevensbeschermingsregels in de context van AI vereisen dat bedrijven ervoor zorgen dat trainingsgegevens worden beschermd tegen onrechtmatige toegang door onbevoegde partijen. Bepaalde typen AI-modellen vertonen echter inherente kenmerken die het beschermen van de privacy van trainingsgegevens een moeilijke taak maken. Als er bijvoorbeeld geen passende voorzorgsmaatregelen worden genomen, kunnen voorspellende AI-modellen, zoals generatieve sequentiemodellen die vaak worden gebruikt in toepassingen voor het voltooien van voorspellende zinnen, onbedoeld onthouden gevoelige informatie opgenomen in trainingsgegevens. Deze onbedoelde opslag creëert het risico dat het voorspellende AI-model gevoelige informatie zal lekken, zoals de handelsgeheimen van een bedrijf of het creditcardnummer van een gebruiker, als een voorspelling in reactie op een nieuwe, voorheen ongeziene invoer.

Een tegenstander kan misbruik maken van deze informatielekkage en details afleiden over het intellectuele eigendom in de trainingsgegevens (bijv. Gevoelige trainingsvoorbeelden beschermd door handelsgeheimen) of over de parameters van het model zelf (bijv. De gewichten tussen knooppunten van een neuraal netwerk, die kunnen worden beschermd door handelsgeheimen). Dit is een aanzienlijk probleem omdat het verzamelen van trainingsgegevens en het trainen van een AI-model om de parameters van het model te genereren erg kostbaar en arbeidsintensief kan zijn. Bedrijven hebben er belang bij die kosten te beschermen. Als aanvulling op het probleem kan de tegenstander conclusies trekken over de inhoud van trainingsgegevens door alleen API-toegang tot het AI-model te gebruiken. De tegenstander kan bijvoorbeeld het AI-model onderzoeken met een groot aantal vragen en vervolgens de modeloutputs analyseren om conclusies te trekken over de inhoud van de trainingsgegevens of de parameters van het model zelf.

Dit artikel geeft een inleiding op twee veelvoorkomende AI-privacyaanvallen die een tegenstander zou kunnen gebruiken om intellectueel eigendom, zoals handelsgeheimen, te extraheren in de trainingsgegevens of in de parameters van het AI-model zelf. Bovendien geeft dit artikel een overzicht van de aanbevelingen van de Information Commissioner’s Office (ICO) voor het beschermen van het intellectuele eigendom dat is opgenomen in de trainingsgegevens. De ICO is de onafhankelijke instantie van het VK, die is opgericht om gegevensrechten te handhaven.

Gevoelige informatie kan in allerlei verschillende vormen binnen trainingsgegevens verschijnen

Gevoelige informatie omvat alle gegevens die worden beschermd door middel van een beveiligingsmaatregel, zoals codering. Een voorbeeld van gevoelige informatie is elk intellectueel eigendom, zoals handelsgeheimen, vervat in trainingsgegevens. Handelsgeheimen kunnen bijvoorbeeld bepaalde financiële, zakelijke, wetenschappelijke, technische, economische of technische gegevens bevatten. Trainingsgegevens kunnen gevoelige informatie bevatten in de vorm van gestructureerde gegevens (bijv. Een gegevenselement dat de privé-e-mail van een klant bevat) of ongestructureerde gegevens (bijv. De jaarlijkse uitgaven van de klant opgenomen in de tekst van een chattranscript of in een audio-opname).

Hoewel een enkel gegevenselement gevoelige informatie kan bevatten (bijv. Een privé-e-mailadres), kan de combinatie van verschillende niet-gevoelige gegevenselementen ook gevoelig zijn. Een onderzoek heeft bijvoorbeeld aangetoond dat 87 procent van de gebruikers in de VS uniek kan worden geïdentificeerd met behulp van een combinatie van drie niet-gevoelige gegevenselementen: postcode, geslacht en geboortedatum. Veel complexer is echter wanneer gevoelige informatie in trainingsgegevens wordt weergegeven als context van anderszins niet-gevoelige informatie. Een transcriptie van een chatsessie tussen een gebruiker en een chatbot kan bijvoorbeeld de volgende verklaring bevatten: “Ik heb een slechte verbinding op de 4th
verdieping van mijn kantoor, dus ik sta nu in de lobby voor het G St. Buffet. ” Stel dat er maar één G St. Buffet is; dan kan de locatie van de gebruiker contextueel worden herkend aan de hand van de ongestructureerde transcriptietekst.

Gevoelige informatie in trainingsgegevens veilig houden is een complexe uitdaging

Het is een uitdagende taak om de trainingsgegevens van een voorspellend AI-model te beschermen tegen onbedoeld verlies voor tegenstanders. Veel AI-toepassingen draaien op systemen die grote sets trainingsgegevens, validatiegegevens en testgegevens gebruiken. Trainingsgegevens worden gebruikt om een ​​model te trainen, validatiegegevens worden gebruikt om de hyperparameters van het model te verfijnen en testgegevens worden gebruikt om de prestaties van het uiteindelijke model te evalueren. Als een bedrijf een externe machine-learning-as-a-service (MLaaS) -leverancier gebruikt om een ​​voorspellend AI-model te bouwen, moet het bedrijf de MLaaS-leverancier mogelijk autoriseren om toegang te krijgen tot de trainingsgegevens, validatiegegevens en testgegevens van het bedrijf. . Het autoriseren van toegang tot een derde partij maakt het naleven van gegevensbeschermingsregels complexer, omdat dit mogelijk een pad kan effenen voor een privacyaanval.

Bovendien onthoudt een getraind voorspellend AI-model inherent aspecten van zijn trainingsgegevens tot op zekere hoogte (de gewichten tussen knooppunten van een classificatiemodel kunnen bijvoorbeeld opgeslagen correlaties vertegenwoordigen binnen de trainingsgegevens). Als er geen passende voorzorgsmaatregelen worden genomen, kan een tegenstander gebruik maken van deze inherente geheugenkenmerk van voorspellende AI-modellen om zeldzame of unieke gevoelige informatie uit die trainingsgegevens te extraheren door simpelweg conclusies te trekken over modelvoorspellingen. Er zijn verschillende soorten privacyaanvallen die kwaadwillenden kunnen uitvoeren om de inhoud van de trainingsgegevens of de parameters van het model zelf af te leiden. Twee hoofdtypen privacyaanvallen – een modelinversie-aanval en een lidmaatschapsinferentieaanval – worden hieronder besproken.

Model-inversieaanvallen op voorspellende AI-modellen

Bij een modelinversie-aanval probeert een tegenstander de onbekende gevoelige kenmerken van een trainingsvoorbeeld van een doelwit bloot te leggen met behulp van bekende niet-gevoelige kenmerken van dat voorbeeld van een doeltraining en de output van het voorspellende AI-model. Ter illustratie: in een real-world model inversie-aanval, datawetenschappers bouwde een voorspellend AI-model dat is getraind om de juiste dosering van een anticoagulans voor te schrijven aan een patiënt te voorspellen. Het voorspellende AI-model is gebouwd om bepaalde genetische biomarkers en andere demografische informatie van patiënten als input te ontvangen. Een tegenstander had toegang tot een deel van de demografische informatie over de patiënten die in de trainingsgegevens waren opgenomen. De tegenstander gebruikte een modelinversie-aanval om de gevoelige genetische biomarkers af te leiden van de patiënten die in de trainingsgegevens waren opgenomen, ook al had de tegenstander geen toegang tot de trainingsgegevens.

Lidmaatschapsinferentieaanval op voorspellende AI-modellen

Een tegenstander kan een inferentieaanval op lidmaatschap uitvoeren om af te leiden of een bepaald gebruikersrecord al dan niet is opgenomen in de trainingsgegevens van een voorspellend AI-model. Dit is een black-box privacyaanval, en dus heeft de tegenstander geen toegang tot de trainingsgegevens of het getrainde voorspellende model. Ter illustratie: elektronische medische dossiers worden gebruikt om een ​​voorspellend AI-model te trainen dat is gebouwd om de optimale tijd te voorspellen om patiënten uit een ziekenhuis te ontslaan. Als een tegenstander toegang kan krijgen om het getrainde voorspellende AI-model te bevragen met alle patiëntfuncties en de output kan ontvangen (bijvoorbeeld via een API), dan kan de tegenstander een inferentieaanval op lidmaatschap starten. Hoewel een lidmaatschapsinferentieaanval de informatie in een bepaald trainingsvoorbeeld niet onthult, onthult dit type privacyaanval het bestaan ​​van het gegeven trainingsvoorbeeld in de trainingsgegevens. In sommige gevallen is het bestaan ​​van een bepaald gebruikersrecord binnen trainingsgegevens gevoelige informatie, bijvoorbeeld in het geval van een gebruiker die is ingeschreven voor een vertrouwelijk genomisch onderzoek.

De aanbevelingen van de ICO voor het beschermen van de privacy van handelsgeheimen in trainingsgegevens

De ICO beveelt aan om de privacyrisico’s te beoordelen die gepaard gaan met het verstrekken van een voorspellend AI-model aan anderen buiten een onderneming.

  • De ICO beveelt aan om te beschermen tegen privacyaanvallen, zoals modelinversie-aanvallen en lidmaatschapsinferentieaanvallen, door het vermijden van het bouwen van een voorspellend AI-model dat de trainingsgegevens overtreft. Een voorspellend AI-model dat zijn trainingsgegevens overtreft, is er een die de ruis van de trainingsgegevens leert. Het leren van de ruis van trainingsgegevens resulteert erin dat het voorspellende AI-model onbedoeld bepaalde trainingsvoorbeelden in de trainingsgegevens onthoudt, in tegenstelling tot het leren van de generaliseerbare patronen in de trainingsgegevens. Als de luidruchtige trainingsgegevens handelsgeheimen of andere gevoelige informatie bevatten, bestaat het risico dat die informatie onbedoeld wordt onthuld als output van het model.
  • Sommige voorspellende AI-modellen zijn getraind om samen met de voorspelling van het model een vertrouwensscore te produceren. De betrouwbaarheidsscore vertegenwoordigt de interpretatie van het model van het vertrouwen dat de voorspelling van het model nauwkeurig is. Vertrouwensscores kunnen echter worden misbruikt door tegenstanders bij een privacyaanval. Het verstrekken van een vertrouwensscore samen met een modelvoorspelling creëert een kwetsbaarheid in dat de betrouwbaarheidsscore een indicatie is van de mate waarin het model de input eerder heeft gezien. Als de invoer een doelgebruiker is (waarvan het lidmaatschap van de trainingsgegevens wordt afgeleid), kan de vertrouwensscore leiden tot een conclusie of informatie over de doelgebruiker in de trainingsgegevens is opgenomen. In het licht hiervan beveelt de ICO aan om een ​​evenwicht te vinden tussen de noodzaak voor eindgebruikers om het vertrouwen van de voorspelling van een model te kennen en de kwetsbaarheid die wordt gecreëerd door eindgebruikers de vertrouwensscore te verstrekken.
  • Als het voorspellende AI-model voor iedereen toegankelijk is, bijvoorbeeld via een openbare API, kan het model kwetsbaar zijn voor black-box privacyaanvallen. Bij een black-box privacyaanval kan een tegenstander het model opvragen en een modelvoorspelling ontvangen met behulp van bijvoorbeeld een API. Een tegenstander kan veel vragen verzenden, de resultaten van de vragen verkrijgen en vervolgens de relatie tussen de invoer en de uitvoer evalueren om kenmerken over de trainingsgegevens of over het model zelf af te leiden. Daarom het monitoren van de vragen die naar het model worden verzonden, kan helpen bij het identificeren van een AI-privacyaanval.

Overweeg de aanbevelingen van de ICO wanneer u uw AI-model extern beschikbaar stelt

Het beschermen van de privacy van intellectueel eigendom in trainingsgegevens of in de parameters (bijv. Kenmerkgewichten) van een model is om vele redenen erg belangrijk. Gegevensbeschermingsregels vereisen dat deze gegevens worden beschermd tegen ongeoorloofde toegang. Verder kan het verzamelen van trainingsgegevens en het genereren van de parameters van een model een aanzienlijke investering zijn, en daarom is het beschermen van deze investering belangrijk. Voorspellende AI-modellen kunnen het doel van het beschermen van de privacy van trainingsgegevens complexer maken. De aanbevelingen van de ICO bieden een veilige manier om een ​​voorspellend AI-model voor het publiek open te stellen (bijvoorbeeld door een openbare API te gebruiken) en tegelijkertijd de trainingsgegevens van het model te beschermen tegen onbedoeld verlies voor tegenstanders.