Hoe zien fraudemodellen voor machine learning eruit in 2021?

Klik voor meer informatie over auteur Trevor Anderson.

2020 zal voor altijd bekend staan ​​als het jaar waarin de coronaviruspandemie de wereld overspoelde. Door het hoofd te bieden aan de crisis gingen organisaties in verschillende bedrijfstakken (en ook bij consumenten) in drastische verschuivingen. In sommige gevallen versnelden trends waarvan verwacht werd dat ze zich over een decennium zouden spelen, tot slechts een paar kwartalen. Doordat consumenten gedwongen werden thuis te blijven, verdubbelde de penetratie van online handel van 15 procent naar meer dan 30 procent in slechts drie maanden, waarbij digitaal bankieren en betalen een vergelijkbare groei kende. De omzet van PNC Bank steeg bijvoorbeeld van 25 procent digitaal naar bijna 75 procent digitaal tijdens COVID-19, terwijl Visa een onthutsende rapporteerde 150 procent toename in contactloze betalingen voor de 12 maanden die eindigen in maart 2020.

Online-handelsbedrijven hadden in verschillende mate moeite om de plotselinge gedragsveranderingen die door de pandemie werden veroorzaakt, op te nemen in hun strategieën voor fraude en risicobeperking, de ene meer dan de andere. Inmiddels hebben de meesten zich gevestigd in het ‘nieuwe normaal’. Terugkijkend op de manier waarop bedrijven met de crisis zijn omgegaan, kan op weg naar 2021 enkele nuttige lessen worden geleerd voor het omgaan met weer een reeks veranderingen die waarschijnlijk zullen komen naarmate we langzaam overstappen naar een post-COVID-wereld.

COVID-19 introduceerde nieuwe fraudepatronen

De COVID-19-uitbraak bracht voor het eerst meer mensen naar de digitale wereld. Volgens Visa meer dan 13 miljoen kaarthouders alleen al in Latijns-Amerika deden hun allereerste online transactie in het kwartaal van maart van dit jaar. Met een recordaantal mensen dat voor het eerst online winkelde en bankierde, schoten ook het aantal nieuwe rekeningen omhoog. Maar met de toestroom van nieuwe klanten die online accounts openen, ontdekten bedrijven dat het gebrek aan transactiegeschiedenis het veel moeilijker maakte om de identiteit van personen achter het account te verifiëren en potentiële fraude op te sporen.

De pandemie had ook een enorme impact op de financiële en huisvestingsomstandigheden van veel mensen. In een poging klanten te helpen die door de pandemie werden getroffen, boden telefoonbedrijven over de hele wereld nieuwe prepaidpakketten aan met meer data en mobiele hotspots. Dit gaf consumenten meer opties voor betaalbare telefoondiensten, maar introduceerde ook nieuwe online telefoongegevensinvoer die verdacht kan lijken voor platforms voor fraudedetectie. Omdat prepaid-telefoons ook populair zijn bij fraudeurs (omdat ze niet zo gemakkelijk aan een identiteit te koppelen zijn), kan een piek in prepaid-telefoonnummers een rode vlag zijn.

Evenzo gingen veel mensen die hun baan of huis verloren gingen bij vrienden en familieleden wonen, terwijl anderen kamers in hun huis onderhuurden om de huur te dekken. In beide gevallen woonden mensen op plaatsen waar hun naam niet op een huurovereenkomst of een nutsplan stond. Nieuwe gegevens uit dit soort omstandigheden zorgden ervoor dat goede klanten verdacht leken, wat resulteerde in meer false positives voor fraude.

De impact van COVID-19 op modellen voor machinaal leren voor frauderisico’s

Begeleid machine learning (ML) omvat het trainen van een algoritme om een ​​invoer in de juiste uitvoer te plaatsen, op basis van voorbeelden van invoer-uitvoerparen. Een kernaanname is dat de voorbeelden waarmee u traint een goede weergave zijn van de cases die u in de toekomst zult zien. Door de enorme impact van COVID-19 is deze aanname niet langer waar. Gegevens uit het verleden zijn niet langer representatief voor de toekomst.

Als reactie op deze verschuiving hebben bedrijven drie benaderingen geïmplementeerd:

  • Underfit ML-modellen: Als bedrijven hun machine learning-aanpak niet veranderden, pasten ze hun modellen uiteindelijk te veel toe omdat voorbeelden uit het verleden niet langer een goede weergave waren van de toekomst. Een manier waarop bedrijven dit verzachten, was door opzettelijk te weinig te passen bij modellen. Voor hen had een bescheiden maar betrouwbaar model de voorkeur boven een model dat er op papier goed uitziet, maar tot verrassingen leidt, zoals overstroomde wachtrijen voor handmatige beoordelingen of meer terugboekingen en fraude.
  • Op regels gebaseerde modellen: Sommige bedrijven hebben hun ML-systemen teruggezet op op regels gebaseerde systemen. Deze systemen hebben minder historische gegevens nodig en zijn gebouwd om veel meer menselijke intuïtie en supervisie te omvatten – een aantrekkelijke optie voor teams die proberen te reageren op de plotselinge ups en downs van de pandemie. Deze aanpak vereist echter ook meerdere stappen voor verificatie, wat de gebruikerservaring kan belemmeren.
  • Handmatige beoordeling: Andere bedrijven realiseerden zich al vroeg dat ze meer handmatige controles moesten doen, maar met COVID-19-gerelateerde verlof- en wervingsuitdagingen konden ze niet zomaar meer mensen aannemen. Bedrijven die succes zagen, waren bedrijven die de teams die ze al hadden beter gebruikten door hen betere training en tools te bieden. Vertrouwen op menselijk oordeel was het beste wat ze konden doen om op nieuwe fraudepatronen te reageren. Toch is er een reden waarom organisaties machine learning gebruiken om fraude te stoppen. Het is niet alleen de moeilijkheid om een ​​menselijk personeelsbestand op te schalen, maar het is ook dat machines gewoon beter en sneller patronen kunnen detecteren. Mensen kunnen gewoon niet genoeg gegevens analyseren om een ​​goed beeld te krijgen van de fraudepatronen die spelen.

Bedrijven die in de loop van de pandemie het menselijke oordeel goed hebben gedaan, zijn beter voorbereid om te beginnen met het bouwen van betere machine learning-modellen voor morgen. Maar hoe lang duurt het voordat bedrijven over voldoende trainingsdata beschikken om weer machine learning-modellen te bouwen?

Fraudemodellen voor machine learning in 2021

De hoeveelheid tijd die het duurt voordat machine learning-modellen een ‘inhaalslag’ maken, hangt af van de hoeveelheid trainingsgegevens die een bedrijf nodig heeft. Dit bepaalt hoe ver ze terug moeten kijken om voldoende gegevens te krijgen. Een deel ervan hangt ook af van hoe sterk het model is dat ze willen bereiken. Sommige kredietmaatschappijen willen bijvoorbeeld gegevens over jaren modelleren, andere doen het met minder. Aanvankelijk, in de chaotische periode waarin COVID-19 voor het eerst toesloeg en mensen plotseling veel meer online gingen winkelen, konden verkopers rondkomen met veel minder trainingsgegevens en toch vertrouwen hebben dat ze het niveau van frauderisico begrepen.

Er is het komende jaar nog veel onzekerheid, zelfs nu vaccins worden uitgerold en consumenten terugkeren naar fysieke winkels en meer typische winkelpatronen. Sommige gedragingen zullen misschien nooit meer terugkeren naar wat ze waren vóór COVID-19. Hoewel de onzekerheid in 2021 aanhoudt, zal het niet zo dramatisch zijn van week tot week of van maand tot maand. Bedrijven die het afgelopen jaar gedragspatronen beter zijn gaan begrijpen, zullen beter voorbereid zijn om aan het begin van het nieuwe jaar van start te gaan en weer sterkere modellen voor machine learning te gaan bouwen. Maar om modellen flexibel te houden voor eventuele onzekerheden die in het verschiet liggen, zullen ze nog steeds recentere gegevens moeten blijven gebruiken, hun voortgang bij elke stap moeten beoordelen en hun modellen moeten aanpassen als de omstandigheden veranderen.