Van modelleren tot scoren: een optimale classificatiedrempel vinden op basis van kosten en winst

Klik voor meer informatie over co-auteur Maarit Widmann.

Klik voor meer informatie over co-auteur Alfredo Roccato.

Rijden als een hamster in de Data Science-cyclus? Weet u niet wanneer u moet stoppen met het trainen van uw model?

Modelevaluatie is een belangrijk onderdeel van een Data Science project en het is precies dit deel dat kwantificeert hoe goed uw model is, hoeveel het is verbeterd ten opzichte van de vorige versie, hoeveel beter het is dan het model van uw collega, en hoeveel ruimte voor verbetering er nog is.

In deze reeks berichten bekijken we verschillende scorestatistieken: voor classificatie, numerieke voorspelling, ongebalanceerde datasets en andere vergelijkbare, meer of minder uitdagende, modelevaluatieproblemen.

Vandaag: classificatieresultaten bestraffen en belonen met een winstmatrix

Verwarmeringsmatrix en klassenstatistieken vat de prestaties van een classificatiemodel samen: de werkelijke en voorspelde verdeling van de doelklassen, de nauwkeurigheid van de toewijzing in de positieve klasse en het vermogen om de positieve klasse-gebeurtenissen te detecteren. Deze statistieken houden echter geen rekening met de kosten van een fout, dat wil zeggen een voorspelling in de verkeerde doelgroep.

Als de verdeling van de doelklassen onevenwichtig is, vereist het correct voorspellen van gebeurtenissen in de minderheidsklasse hoge modelprestaties, terwijl het voorspellen van gebeurtenissen in de meerderheidsklasse gemakkelijk toevallig kan gebeuren. Zou het niet zinvol zijn om hier rekening mee te houden en de resultaten anders te wegen bij het evalueren van de modelprestaties?

Uiteindelijk bepaalt het uiteindelijke doel van de classificatie of het zinvol is om kosten in te voeren voor bepaalde typen classificatieresultaten. Kosten zijn handig wanneer onjuiste voorspellingen in de ene doelklasse ernstiger gevolgen hebben dan onjuiste voorspellingen in de andere klasse (n). Of, anders gezegd, correcte voorspellingen in de ene klasse hebben gunstiger gevolgen dan correcte voorspellingen in de andere klasse (n). Het niet detecteren van een criminele passagier op de veiligheidscontrole van de luchthaven heeft bijvoorbeeld ernstiger gevolgen dan het per ongeluk classificeren van een niet-bedreigende passagier als gevaarlijk. Daarom moeten deze twee soorten onjuiste voorspellingen verschillend worden gewogen. Er zijn geen kosten nodig als alle doelklassen even interessant of belangrijk zijn, en de gevolgen van een verkeerde voorspelling in de ene doelklasse net zo slecht zijn als voor de andere klassen. Dit is het geval wanneer we bijvoorbeeld de kleur van een wijn of het geslacht van een klant voorspellen.

Van modelnauwkeurigheid tot verwachte winst

Naast nauwkeurigheidsstatistieken kunnen de prestaties van een classificatiemodel worden gemeten aan de hand van verwachte winst. De winst wordt gemeten in een concrete eenheid die wordt bepaald door het uiteindelijke doel van de classificatie.

Wanneer we in de praktijk classificatieresultaten gebruiken, kennen we elke voorspelde klasse een andere behandeling toe: criminele passagiers worden aangehouden, niet-bedreigende passagiers worden doorgelaten. Risicovolle klanten krijgen geen kredietverstrekking, kredietwaardige klanten wel! Enzovoort. De meest wenselijke classificatieresultaten leveren winst op, zoals de beveiliging van een luchthaven of het geld dat een kredietinstelling verdient. Deze winst meten we in een vooraf gedefinieerde eenheid zoals het aantal dagen zonder terreuralarm, of euro’s. De meest ongewenste resultaten brengen kosten met zich mee – een terreuralarm op de luchthaven of geld verloren door een bank – en we meten de kosten in dezelfde eenheid als de winst.

Hier beoordelen we de nauwkeurigheid en verwachte winst van een classificatiemodel dat de kredietwaardigheid van kredietaanvragers voorspelt. In een credit scoring-applicatie heeft het voorspellen van individueel klantgedrag een consequentie in termen van winst (of verlies). Het weigeren van goede kredieten kan leiden tot verlies van winstmarges (commercieel risico). Het goedkeuren van krediet voor aanvragers met een hoog risico kan leiden tot slechte schulden (kredietrisico).

Classificatiedrempel optimaliseren

Een classificatiemodel voorspelt een positieve klassenscore voor elke gebeurtenis in de gegevens. Standaard worden de gebeurtenissen toegewezen aan de positieve klasse als hun score hoger is dan 0,5, en anders aan de negatieve klasse. Als we de classificatiedrempel wijzigen, veranderen we de toewijzing in de positieve en negatieve klasse. Bijgevolg veranderen ook de waarden van nauwkeurigheid en verwachte winst.

De data

In dit voorbeeld gebruiken we de bekende Duitse kredietgegevensset, zoals overgenomen uit de Archief van de Universiteit van Californië voor machinaal leren en intelligente systemen.

De dataset is samengesteld uit 1000 klanten. De inputvariabelen zijn de individuele kenmerken van de onderwerpen, zoals sociaal-demografische, financiële en persoonlijke, maar ook die met betrekking tot de lening, zoals het geleende bedrag, het doel van de inschrijving en vermogensindicatoren. Het doel is de beoordeling van de kredietwaardigheid van de kredietaanvrager door de bank (2 = risicovol en 1 = kredietwaardig).

In deze dataset worden 700 aanvragers (70%) geclassificeerd als kredietwaardig en 300 (30%) als risicovol.

We noemen de risicovolle klanten de positieve klasse en de kredietwaardige klanten de negatieve klasse.

Workflow om verwachte winst te produceren voor verschillende classificatiedrempels

De workflow die in Figuur 1 wordt getoond, begint met gegevenstoegang en voorverwerking. Om de voorspellende mogelijkheden van het model te beoordelen, wordt de initiële dataset verdeeld in twee even grote tabellen, respectievelijk de trainingsset en de validatieset genoemd. Vervolgens wordt op de trainingsset een logistisch regressiemodel getraind om de kredietwaardigheid van de sollicitanten te voorspellen.

Binnen de metanode “Winst per drempel” worden aanvragers in de validatieset toegewezen aan de twee kredietwaardigheidsklassen “risicovol” en “kredietwaardig” op basis van de positieve klassenscores die worden voorspeld door het logistieke regressiemodel, en een classificatiedrempel. De classificatie wordt meerdere keren herhaald, te beginnen met een lage waarde van de drempelwaarde en deze voor elke iteratie te verhogen. De uitvoertabel van de metanode bevat de nauwkeurigheidsstatistieken en verwachte winst zoals verkregen met de verschillende drempelwaarden en een vooraf gedefinieerde winstmatrix.

Ten slotte worden de prestatiestatistieken van het model voor verschillende drempelwaarden getoond in een interactieve samengestelde weergave zoals geproduceerd door de component “Winstweergaven”.

U kunt deze workflow downloaden van:

  • Hub
  • EXAMPLES Server (EXAMPLES / 04_Analytics / 10_Scoring / 02_Optimizing_Classification_Threshold_Based_on_Profit)
Figuur 1: Workflow om een ​​classificatiemodel te trainen en om nauwkeurigheidsstatistieken en verwachte winst te produceren op basis van de voorspelde positieve klassenscores, vooraf gedefinieerde winstmatrix en variërende waarden van de classificatiedrempel. Een optimale drempelwaarde kan empirisch worden gedefinieerd uit de interactieve samengestelde weergave en tabeluitvoer die de nauwkeurigheid en verwachte winst door verschillende drempelwaarden laten zien. De workflow kan worden gedownload vanaf de EXAMPLES Server en op de Hub

Winstmatrix

Om misclassificatie te beoordelen in termen van verwachte winst, wordt een winstmatrix gevraagd om kosten toe te wijzen aan ongewenste uitkomsten.

We introduceren negatieve kosten (-1) voor de valse negatieven – risicovolle aanvragers die een krediet krijgen – en een positieve winst (0,35) voor de echte negatieven – kredietwaardige aanvragers die een krediet krijgen. De winstmatrix in Tabel 1 toont de kosten- en winstwaarden voor deze classificatieresultaten.

Tabel 1: Winstmatrix die winst toevoegt aan de classificatieresultaten: kosten voor goedgekeurde slechte kredieten en winst voor goedgekeurde goede kredieten.

De waarden van kosten en winst geïntroduceerd in tabel 1 zijn gebaseerd op de volgende hypothese [1]: Laten we aannemen dat een juiste beslissing van de bank zou resulteren in 35% winst aan het einde van een bepaalde periode, zeg 3-5 jaar. Als het tegendeel waar zou zijn, dat wil zeggen dat de bank voorspelt dat de aanvrager kredietwaardig is, maar het blijkt een slechte kredietwaardigheid te zijn, dan is het verlies 100%.

Verwachte winst berekenen

De volgende formules worden gebruikt om de modelprestaties te rapporteren in termen van verwachte winst:

Waar p is het aandeel van de positieve (risicovolle) klassegebeurtenissen van alle gegevens.

Waar n is het aantal kredietaanvragers. Meer in het algemeen, aangenomen dat de klasse met een negatief risicopotentieel wordt gedefinieerd als de positieve klasse, kan een gemiddelde winst voor een classificatiemodel met een winstmatrix worden berekend met behulp van de volgende formule:

Waar n is het aantal gebeurtenissen in de gegevens. In dit voorbeeld hebben we 500 kredietaanvragers in de validatieset met een gemiddelde lening van € 10.000. 70% van de aanvragers is kredietwaardig en 30% is risicovol. Laten we eerst een basislijn voor de winststatistieken berekenen zonder een classificatiemodel te gebruiken:

Als we een krediet goedkeuren voor alle aanvragers, bedraagt ​​het verwachte verlies 225.000 €.

Laten we vervolgens uitrekenen wat de verwachte winst is als we de kredietwaardigheid evalueren met behulp van een classificatiemodel en we wegen de uitkomsten af ​​met de winstmatrix.

De minimumdrempel voor de positieve klasse om niet-nulwinst te behalen [2] kan uit de kostenmatrix worden berekend als:

Deze waarde kan empirisch worden aangepast zoals hieronder beschreven.

De workflow die in Figuur 2 wordt getoond, herhaalt verschillende drempels naar de positieve klassenscores die zijn voorspeld door een classificatiemodel, hier een logistisch regressiemodel. De drempelwaarden variëren van 0 tot 1 met een stapgrootte van 0,01. De workflow produceert de algehele nauwkeurigheid voor elke waarde van de drempel door de werkelijke (ongewijzigd in elke iteratie) en voorspelde (gewijzigd in elke iteratie) doelklassewaarden te vergelijken. Om de verwachte winst te berekenen, worden de classificatieresultaten van elke iteratie gewogen met de waarden in de winstmatrix. In de uitvoertabel van deze workflow komt elke rij overeen met een waarde van de classificatiedrempel, bovendien worden voor elke classificatiedrempel de modelnauwkeurigheidsstatistieken, de gemiddelde winst per aanvrager, het gemiddelde bedrag per aanvrager en het totale gemiddelde bedrag weergegeven.

Figuur 2: Produceren van de nauwkeurigheid en verwachte winst voor verschillende classificatiedrempelwaarden van 0 tot 1 met een stapgrootte van 0,01. Invoergegevens bevatten de werkelijke waarden van de doelklasse, positieve klassenscores voorspeld door een classificatiemodel en winstmatrixwaarden.

De resultaten

De interactieve samengestelde weergave in figuur 3 laat zien hoe de waarden van vier verschillende prestatie-indicatoren van het model zich ontwikkelen als de waarde van de classificatiedrempel stijgt van 0 naar 1. De prestatie-indicatoren zijn: 1. Algehele nauwkeurigheid (lijndiagram in de linkerbovenhoek) 2 Totaal gemiddeld bedrag (lijndiagram in de rechterbovenhoek), 3. Gemiddelde winst per aanvrager (lijndiagram in de linker benedenhoek), en 4. Gemiddeld bedrag per aanvrager (lijndiagram in de rechter benedenhoek).

Figuur 3: Een interactieve samengestelde weergave om de ontwikkeling te tonen van 1. Algemene nauwkeurigheid, 2. Totaal gemiddeld bedrag, 3. Gemiddelde winst per aanvrager, en 4. Gemiddeld bedrag per aanvrager wanneer de classificatiedrempel stijgt van 0 naar 1.

Gebaseerd op een empirische evaluatie, de optimale drempel is 0,51 in termen van algehele nauwkeurigheid en 0,27 in termen van verwachte winst. Tabel 2 geeft de prestaties weer van het logistische regressiemodel met behulp van de standaard en geoptimaliseerde drempelwaarden in termen van algehele nauwkeurigheid en gemiddelde winst per aanvrager:

Tabel 2: Verwachte winst en algehele nauwkeurigheid wanneer kredietwaardigheid helemaal niet wordt voorspeld, en wanneer deze wordt voorspeld met behulp van de standaard en geoptimaliseerde classificatiedrempels 0,113 winst per aanvrager geeft een gemiddeld bedrag van 1.130 € en, op basis van 500 aanvragers, het totale gemiddelde bedrag is 565.000 €.

Referenties

[1] Wang, C., & Zhuravlev, M. Een analyse van winst en klanttevredenheid in consumentenfinanciering. Case Studies in het bedrijfsleven, de industrie en overheidsstatistieken, 2(2), pagina’s 147-156, 2014.

[2]

C. Elkan. De basis van kostenbewust leren. In Proceedings of the Seventeenth International Joint Conference on Artificial Intelligence, pagina’s 973-978, 2001.

follow:
admin

admin

Related Posts

Een korte geschiedenis van gegevensbeheer

Datamanagement is de organisatie van gegevens, de stappen die worden gebruikt om efficiëntie te bereiken en informatie uit die gegevens

Datakans klopt! Moet je antwoorden?

Klik voor meer informatie over auteur Kartik Patel. Als zakenmensen krijgen we vaak te maken met wat misschien een geweldige

Een korte geschiedenis van gegevensbeheer

Datamanagement is de organisatie van gegevens, de stappen die worden gebruikt om efficiëntie te bereiken en informatie uit die gegevens

Datakans klopt! Moet je antwoorden?

Klik voor meer informatie over auteur Kartik Patel. Als zakenmensen krijgen we vaak te maken met wat misschien een geweldige