Succesvol programma voor machinaal leren bouwen

Succesvol programma voor machinaal leren bouwen

Kristen Serafin, associate director bij Financial Industry Regulatory Authority (FINRA) en Lizzie Westin, hoofdsysteemanalist bij FINRA, spreker bij DATAVERSITY® Enterprise Analytics online conferentie, vertelde hoe ze grip konden krijgen op een succesvol machine learning-programma. De presentatie was getiteld Het tijdperk van machine learning inluiden.

FINRA is een particuliere organisatie zonder winstoogmerk, die verantwoordelijk is voor het reguleren van de handel in aandelen en opties. Hoewel FINRA rapporteert aan de federale Securities and Exchange Commission (SEC), het is geen overheidsinstantie. “We hebben hier bij FINRA een tijdperk van machine learning ingeluid en we moedigen jullie allemaal aan om te evalueren of het voor jou gepast is om hetzelfde te doen,” zei Serafin. In maart 2019 hadden ze twee actieve projecten in hun machine learning-programma, en zeven maanden later hadden ze er tien.

Machine leren

Westin gaf een kort overzicht van machine learning, parallellen trekken tussen hoe kinderen en machines leren. Wanneer ouders kinderen meenemen naar een dierentuin, zei ze, wijzen ze naar een dier en zeggen ze de naam, waardoor ze in wezen een ‘label’ creëren. Een kind leert dieren op de juiste manier te labelen door te worden versterkt als ze slagen, maar ook door verkeerde identificatie en correctie, zoals het zien van een dier dat op een hond lijkt, en het leren van de naam voor vos. Na herhaalde ontmoetingen met dieren leert een kind uiteindelijk hoe hij ze zonder hulp correct kan labelen.

Labels spelen een belangrijke rol bij supervisie machine learning ook, en het trainen van de machine maakt deel uit van het proces. Het onderscheiden van het ene dier van het andere en het kennen van de naam (of ‘label’) gebeurt in de menselijke geest zonder bewuste focus. “We hoeven geen details te verwoorden, zoals uitleg over de vorm van de staart, de ogen of de oren. Evenzo leveren we met machine learning gelabelde gegevens aan de computer. ” Bij machinaal leren onder supervisie worden vooraf gelabelde voorbeelden gebruikt voor training en tijdens het validatieproces trekt de machine conclusies over welk label geschikt is. Zonder te vertrouwen op formules of algoritmen, leert de machine vervolgens patronen te identificeren, zijn eigen beslissingen te nemen en zijn eigen labels af te leiden.

Drie componenten voor succes

Serafin identificeerde drie stappen die bijdragen aan het succes van hun programma: de aard van de gegevens begrijpen, vaardigheden en tools evalueren en de betrokkenheid van belanghebbenden opbouwen.

De aard van de gegevens: kenmerken en volume

Westin zei dat de kenmerken en het volume van de gegevens hun benadering van machine learning beïnvloedden. FINRA heeft gestructureerde gegevens, zoals de datum waarop een aandeel wordt verhandeld, de prijs en het aantal aandelen, evenals ongestructureerde gegevens van vragen over klantenservice, e-mails en telefoontjes. Volume is een andere overweging. In 2018 verwerkte FINRA gemiddeld 66,7 miljard records per dag en dit was een belangrijke drijfveer in de overgang naar machine learning als mogelijke oplossing. Op dat niveau zei ze: “Het is niet efficiënt om meer middelen van analisten in te zetten om het groeiende volume te beoordelen. We hebben een innovatieve aanpak nodig. ” Hoewel het niet nodig is om datavolumes van deze omvang te hebben om machine learning succesvol te gebruiken, moeten er voldoende gegevens zijn om werkbare trainings- en validatiesets te maken, zei ze.

De aard van de gegevens: kwaliteit en context

Westin toonde een afbeelding van een hond, verduisterd door een troebele lens. “Machine learning kan niet optimaal werken als de invoer niet duidelijk is.” Als de gegevens beschadigd of onvolledig zijn of andere kwaliteitsproblemen hebben, zoals in de afbeelding, kan de output van machine learning-modellen worden beïnvloed. Met marktgegevens, als een gegevenswaarde bijvoorbeeld buiten een verwacht bereik valt, kan het een anomalie lijken terwijl het eigenlijk een gegevensprobleem is. “U moet ervoor zorgen dat uw processen gegevensvalidaties blijven bevatten, net als bij al het andere.” Het begrijpen van de gegevenscontext is net zo belangrijk. Verwijzend naar een dia van een mens en een kip, vroeg ze welke verbanden er waren tussen de twee soorten:

“Als een machine learning-model je vertelt dat het aantal legs een belangrijk criterium is, en je kennis over deze context iets anders suggereert, stel het proces dan in vraag en probeer misschien een andere aanpak.”

Evalueer vaardigheden en tools

Het hebben van de juiste mensen voor succes met de meest geschikte tools is een cruciaal onderdeel, zei Serafin. Het is een mythe dat organisaties zeer bekwame datawetenschappers moeten inhuren om een ​​machine learning-programma te starten. “De kans is groot dat iemand in uw team al een diepgaand begrip heeft van de gegevens of de zakelijke context, of dat u al een zeer bekwame data-analist of ingenieur. ” Om de groei van machine learning-vaardigheden te stimuleren, moet u contact opnemen met vakdeskundigen die al een diepgaand begrip hebben van de gegevens en de zakelijke context; evalueer vervolgens bestaande bronnen aan de hand van de vereiste vaardigheden om te bepalen waar nieuwe vaardigheden kunnen worden ontwikkeld. Goed data-analisten of data-ingenieurs kan in staat zijn om snel machine learning-vaardigheden op te bouwen of te leren.

Prioriteit geven aan training

Westin had een analist in haar team met codeervaardigheden en een diep begrip van de gegevens die interesse toonden in machine learning. Ze bevrijdde hem van een deel van zijn bestaande werk en gaf hem de tijd om lessen te volgen en te gaan experimenteren met machine learning. “Het was niet van de ene op de andere dag, en er was veel vallen en opstaan, maar uiteindelijk hadden we onze eerste datawetenschapper.” Het moeilijkste deel van het ontwikkelingsproces van vaardigheden, zei ze, was niet het vinden van iemand die geïnteresseerd was in machine learning, en het was ook niet om financiering te krijgen: het was het geven van tijd en ruimte aan het bestaande personeel. “Als manager moest ik mezelf er voortdurend aan herinneren dat hij de vrijheid moest krijgen om te experimenteren, wat betekende dat ik moest uitzoeken welke deadlines konden worden verplaatst en welke niet.” Bepaal bij het ontwikkelen van personeel en het opbouwen van het programma wanneer u hiaten moet aanvullen of aanvullen door samen te werken met leveranciers of door personeel in te huren.

Vaardigheden opbouwen

Niet iedereen heeft dezelfde training nodig. Bied voor de beste resultaten interne en externe trainingsmogelijkheden aan, zei ze, die kunnen worden gericht op specifieke doelgroepen, zoals analisten of ontwikkelaars, en betrek indien nodig uw belanghebbenden. Een andere potentiële interne kandidaat was een ingenieur die functies kon identificeren en modellen kon maken, maar het ontbrak haar aan de zakelijke context en aan kennis van FINRA-gegevens. In deze situatie waren externe trainingen niet het antwoord, maar er was een gebouw vol belanghebbenden naast de deur, zei Serafin:

“Door je stakeholders te betrekken, gaat er een hele nieuwe wereld open. Ze kunnen een heleboel training en inzichten bieden in niet alleen de gegevens, maar ook identificatie, feedback en validatie bieden dat uw benadering van het probleem zinvol is. “

Gereedschap

Hoewel effectieve tools belangrijk zijn, zei Westin dat tools altijd ondergeschikt zijn aan vaardigheden. Serafin voegt eraan toe: “Een misleide persoon met een goed hulpmiddel is niet bijzonder behulpzaam.” Dat gezegd hebbende, kan zelfs een ervaren datawetenschapper met een incompatibele tool snel te maken krijgen met obstakels en problemen. Houd rekening met de aard, het volume en het type gegevens bij het selecteren van de juiste tool voor gebruik binnen uw organisatie. Als het kopen van nieuwe tools geen optie is, zoek dan naar bestaande tools die kunnen worden gebruikt voor machine learning. “Je hoeft geen hoge dollar te besteden aan een glanzende Cadillac als je met een gebruikte auto naar je volgende bestemming kunt rollen”, zei ze.

Bouw de betrokkenheid van belanghebbenden op

Vaardigheden en tools alleen zijn niet genoeg, zei Serafin. Betrokkenheid van belanghebbenden is de belangrijkste component voor succes. Sommige FINRA-belanghebbenden wisten al van machine learning, waren enthousiast om het eens te proberen en noemden gemakkelijk extra voordelen, die hielpen een sterkere pleidooi te houden voor de financiering van een geformaliseerd programma. Stakeholders stelden voor om machine learning te gebruiken voor echte problemen, zoals het bijhouden van de steeds veranderende aandelenmarkt.

Creëer-een-Thon

Een ander forum dat een goede omgeving bood voor training en coaching, is een jaarlijks ‘hack-a-thon’-evenement. Het evenement werd zo populair dat het werd opengesteld voor de hele organisatie en omgedoopt tot de ‘Create-a-thon’. Het thema van 2018, ‘AI-Ready’, moedigde deelnemers aan om mee te experimenteren kunstmatige intelligentie (AI) en machine learning. “Dit bood een fantastische kans om buy-in en sponsoring van het bedrijf te krijgen door training en lessen aan te bieden in alle facetten van machine learning voorafgaand aan het evenement.” Dit bood ook een forum om real-world toepassingen te demonstreren, hoewel Serafin zei dat een speciale gebeurtenis niet nodig is. In 2018 werkten meer dan 500 deelnemers en 57 teams aan zes verschillende zakelijke uitdagingen. In 2019 bedroeg het aantal deelnemers meer dan 600, wat een veelvoud aan nuttige ideeën opleverde, de meeste met werkende prototypes, zei Westin. Meer dan een jaar later worden nog steeds Create-a-thon-projecten geïntroduceerd in de R & D-pijplijn, waardoor de stroom van ideeën wordt ondersteund en innovatie wordt gestimuleerd.

Haalbaar, waardevol en transformatief

“Naarmate uw team meer ideeën en projecten genereert, moet u een systeem opzetten om die projecten te prioriteren en te beoordelen”, aldus Serafin. Experimenteer met prototypes om bestaande problemen op te lossen door middel van machine learning, en selecteer ideeën die stapsgewijs haalbaar zijn. Chatbots kunnen het callcenter bijvoorbeeld tijd besparen die wordt besteed aan het beantwoorden van veelgestelde vragen. De menselijke component is niet verwijderd, zei ze – het is nu alleen gericht op moeilijkere problemen. De Create-a-Thon is uitgegroeid tot een formeel R&D Analytics-programma dat het hele jaar door geopend is, met een team dat bestaat uit managers, data-engineers, datawetenschappers en materiedeskundigen. Het team komt regelmatig bijeen om ideeën uit te wisselen en om voorstellen te evalueren en prioriteren. FINRA zoekt naar voorstellen die haalbaar en waardevol zijn en het potentieel hebben om het bedrijf te transformeren. Het is belangrijk ervoor te zorgen dat de maatstaven voor succes in overeenstemming zijn met de waarden en doelstellingen van het bedrijf.

Innovatie door middel van experimenten

Westin gebruikte het proces van het boren naar olie als een metafoor voor hoe ze door experimenten innoveren. Het management ondersteunt een aanpak met vallen en opstaan ​​en moedigt het personeel aan om een ​​veelvoud aan snelle, goedkope ideeën in te dienen zonder zich zorgen te maken over risico’s in een experimentele context. Net als bij olieboringen selecteren ze eerst een algemeen gebied om te verkennen, met als doel snel de beste plek te vinden om hun inspanningen te concentreren. Ze kunnen twee of drie maanden besteden aan het volgen van een bepaald pad, maar als de verkenning niet verloopt zoals gepland, gaan ze snel door naar de volgende. Als het veelbelovend is, onderzoeken ze het verder of schalen ze het breder uit, zei ze. “Het R & D-programma bevordert een cultuur van innovatie en maakt daarnaast de organische groei van ideeën mogelijk [our]
reguliere projecten. ” Iedereen in de organisatie kan nieuwe ideeën ter discussie indienen op dit forum, dat gezamenlijke experimenten in het hele bedrijf bevordert.

Praktijkgemeenschappen

Praktijkgemeenschappen zijn groepen mensen die interesse in een onderwerp delen en de wens hebben om te leren hoe ze het beter kunnen doen, aangezien ze regelmatig met elkaar omgaan. Bij FINRA zijn deze gemeenschappen geëvolueerd als een forum om ideeën uit te wisselen en voorstellen voor machine learning te evalueren. Naast het R&D Analytics-programma en de praktijkgemeenschappen, organiseert FINRA een wekelijks data science-forum dat een meer technische, diepgaande duik in een onderwerp biedt.

Bepaal de volgende stappen

Met terugwerkende kracht hebben ze aanvullende best practices geïdentificeerd:

  • Identificeer uitdagingen die uniek zijn voor uw specifieke bedrijf, zoals het implementeren van machine learning in een regelgevende omgeving
  • Stel criteria vast en gebruik deze om potentiële projecten te beoordelen en prioriteiten te stellen
  • Bepaal de economische levensvatbaarheid
  • Ontwikkel maatregelen en volgmechanismen voor succes, zoals een R & D-analyseprogramma, en beoordeel de projectstatus periodiek opnieuw

Westin noemt hun effectieve communicatie- en samenwerkingsstructuur de sleutel tot de succesvolle integratie van machine learning bij FINRA. Hoewel het niet elk probleem kan oplossen, voegt Serafin eraan toe, “heeft machine learning ons geholpen een aantal lastige problemen op te lossen, zodat we ons kunnen concentreren op enkele nog moeilijkere.”

Wilt u meer weten over de aankomende evenementen van DATAVERSITY? Bekijk onze huidige line-up van online en persoonlijke conferenties hier.

Succesvol programma voor machinaal leren bouwen

Hier is de video van de online presentatie van Enterprise Analytics:

Afbeelding gebruikt onder licentie van Shutterstock.com

Meer informatie over ?

Succesvol programma voor machinaal leren bouwen
Of weten wat het voor jouw organisatie kan betekenen?

Onze business consultants komen het graag op locatie uitleggen.

Meer kennis uit deze categorie

Succesvol programma voor machinaal leren bouwen

Gratis scan aanvragen
voor jouw organisatie?

    Succesvol programma voor machinaal leren bouwen

    Gratis scan aanvragen
    voor jouw organisatie?