Met meer dan 2,5 miljard consumentenaccounts verbindt Mastercard bijna elke financiële instelling ter wereld en genereert het bijna 75 miljard transacties per jaar. Als gevolg hiervan heeft het bedrijf gedurende tientallen jaren een datawarehouse gebouwd dat “een van de beste datasets over handel werkelijk overal ter wereld bevat”, zegt Ed McLaughlin, president operations en technologie bij Mastercard.
En het bedrijf maakt goed gebruik van die gegevens. Het snelst groeiende onderdeel van de huidige activiteiten van Mastercard zijn de diensten die het levert rond de handel, zegt McLaughlin.
IDG’s Derek Hulitzky ging zitten met McLaughlin en Mark Kwapiszeski, president van gedeelde componenten en beveiligingsoplossingen bij Mastercard, om te bespreken hoe het bedrijf geanonimiseerde en geaggregeerde gegevens omzet in waardevolle zakelijke inzichten en hun advies om de beste resultaten uit machine learning-modellen te halen.
Hieronder volgen bewerkte fragmenten van hun gesprek. Bekijk de volledige video hieronder om rechtstreeks van McLaughlin en Kwapiszeski te horen en aanvullende inzichten te krijgen.
Derek Hulitzky: Het Decision Management Platform van Mastercard heeft onze CIO 100-prijs gewonnen in 2020. En het gebruikt AI en gegevens voor fraudedetectie. Kun je iets meer vertellen over het platform?
Mark Kwapiszeski: We gebruiken het voor verschillende doeleinden, voornamelijk in onze fraudeproducten voor het maken van zaken als fraudescores op transacties. Maar wat echt opwindend is aan het platform, is alleen de omvang en schaal en reikwijdte van wat het doet. Het is gebouwd op ongeveer 900 basisservers en het verwerkt ongeveer 1,2 miljard transacties per dag met een snelheid van ongeveer 65.000 transacties per seconde, en dat alles in ongeveer 50 milliseconden per transactie.
Het maakt gebruik van veel verschillende AI-technologieën en -technieken; het gebruikt ongeveer 13 verschillende algoritmen, waaronder zaken als neurale netwerken, case-based redeneringen en machine learning. Maar het draait niet slechts één model tegelijk. We hebben eigenlijk lagen gebouwd, waar het meerdere modellen tegelijk kan draaien, zodat het allerlei verschillende variabelen binnen die transactie kan analyseren.
Derek Hulitzky: Je hebt beschreven dat je analysemodellen niet statisch zijn en dat je ze continu in de gaten houdt om te begrijpen wat er met een transactie gebeurt en waarom het gebeurde. Kun je omschrijven wat je daarmee bedoelt?
Mark Kwapiszeski: Als je kijkt naar elke transactie die we zien, elke interactie, kan het fraude zijn of het kan een moeder zijn die medicijnen probeert te kopen voor hun kind. Elke transactie is belangrijk. We moeten dus altijd niet alleen weten wat er is gebeurd, maar ook het waarom achter wat er is gebeurd.
En hoewel de modellen de neiging hebben om de krantenkoppen te halen in gesprekken als deze, zijn voor mij al deze dingen rond het model die echt interessant worden als je erover nadenkt: hoe weet je niet alleen wat er is gebeurd, waarom het is gebeurd, en hoe kun je dan bekijk dat na verloop van tijd om te letten op zaken als modelafwijking.
Een van de beste manieren om te zien of je een model hebt dat afdrijft, is door er een challenger-model in te plaatsen en het gedurende een bepaalde periode te bekijken. En in feite hebben we dat gedurende een periode van meer dan een jaar gedaan, een model bekeken, het met een ander vergeleken, dus je krijgt echt het beste model en de best mogelijke resultaten.
Derek Hulitzky: Dus Mark, je had het over drift. Kunnen jullie even praten, Ed en Mark, over hoe jullie dat oplossen, hoe jullie erop reageren?
Ed McLaughlin: Ik denk dat mensen vaak bijna de verkeerde metafoor gebruiken als ze het over AI en modellering hebben. Ze gebruiken meer een code-metafoor, waar je het bouwt, je voert het uit, en het blijft redelijk statisch totdat je het ergens aan het einde van de levensduur beëindigt. Terwijl we meer zien bij deze modellen die constant moeten worden bijgewoond en gecontroleerd.
Mark Kwapiszeski: Ja, het manifesteert zich op twee manieren. We hebben een hele analytische omgeving die echt is toegewijd aan wat zijn die outputs en wat waren de resultaten? En dan proberen we dat te koppelen aan het daadwerkelijke eindresultaat van een transactie, omdat we vaak pas later weten of een goedgekeurde transactie daadwerkelijk fraude is.
Dus onze datawetenschappers nemen die fraude-informatie en de signalen die we krijgen, vergelijken het terug met die analytische informatie van wat de DMP [Decision Management Platform] stelt de fraudescores die we hebben uit, en dan proberen ze constant die twee dingen aan te passen om de juiste balans te vinden.
Ed McLaughlin: Een laatste ding dat ik zou willen toevoegen, want als je zeker wilt weten dat je niet afdrijft, moet je duidelijk zijn over je concepten. U herinnert zich waarschijnlijk, net als een consument, als een kaarthouder, jaren geleden, veel weigeringen, veel echt botte regels, omdat de nadruk lag op het bestrijden van fraude. Wat we nu zeggen is… [make] zeker dat er zoveel mogelijk goede dingen doorheen komen, terwijl je tegelijkertijd de fraude bestrijdt.