Kunstmatige intelligentie en machine learning kunnen het aantal valse waarschuwingen verminderen dat operationeel personeel vastlegt, het oplossen van problemen versnellen en ontwikkelaars en architecten helpen om snel veranderende, cloudgebaseerde IT-omgevingen te begrijpen en te beheren.
Maar CIO’s mogen niet verwachten wat sommige klanten ‘magische’ resultaten noemen, zoals het automatisch voorspellen en oplossen van elk denkbaar IT-probleem, of zelfs maar het accepteren van een log- of gebeurtenisstoom en het analyseren ervan zonder enige gegevensopschoning of normalisatie.
AIops is het gebruik van kunstmatige intelligentie om IT-systemen sneller, efficiënter en effectiever te beheren, optimaliseren en beveiligen dan met handmatige processen. Marktonderzoeker Gartner schat dat de AIops-markt in 2020 tussen $ 900 miljoen en $ 1,5 miljard lag, met een samengesteld jaarlijks groeipercentage van ongeveer 15% tussen 2020 en 2025. Samen met zelfstandige AIops-platforms, integreren veel IT-observatie-, beheer- en monitoringtools met AIops platforms of hebben AI-mogelijkheden aan hun producten toegevoegd.
AIops is volgens klanten en analisten het beste in staat om snel enorme hoeveelheden gegevens uit honderden of duizenden bronnen te scannen om de belangrijkste waarschuwingen eruit te filteren of onderliggende trends te identificeren, en om snel nieuwe elementen te detecteren, zoals Application Programming Interfaces (API’s) die applicaties met elkaar verbinden – die “dingen die menselijke intelligentie niet langer aankan”, zegt Sean Mack, CIO en CISO bij Wiley, een wereldleider in onderzoek en onderwijs. Het is ideaal, zegt hij, om inzicht te geven in IT-problemen binnen “de exponentiële groei van de complexiteit van onze systemen en services”, met gevirtualiseerde elementen die “misschien het ene moment er zijn en het andere moment misschien niet”.
Maar AIops-inspanningen kunnen mislukken als bedrijven de limieten ervan niet begrijpen.
Waar AIops uitblinkt
Patronen herkennen. Een veelvoorkomend en succesvol gebruik van AIops is het verminderen van de “ruis” van waarschuwingen die ofwel andere waarschuwingen dupliceren, normale veranderingen in de IT-infrastructuur weerspiegelen of geen invloed hebben op kritieke bedrijfsprocessen.
Intelligente analyse van operationele gegevens kan veelvoorkomende patronen identificeren, zoals een toename van het verkeer vroeg op de dag wanneer gebruikers inloggen of tijdens financiële kwartaalafsluitingen, om te begrijpen welke patronen normaal zijn en welke problemen kunnen signaleren, zegt Stephen Elliot, group vice president bij marktonderzoeker IDC. Het kan ook terugkerende problemen identificeren, zoals overbelaste servers, om het operationele personeel te helpen een oplossing toe te passen voordat de problemen gebruikers treffen. Het correleren van meerdere waarschuwingen aan een enkel onderliggend probleem kan ook de belasting van het operationele personeel verminderen en de oorzaakanalyse van problemen versnellen, zegt hij.
Terwijl “vroeg in [its] AIops-reis” met behulp van het observatieplatform van New Relic, heeft de farmaceutische distributeur AmerisourceBergen een vermindering met tweederde gezien van waarschuwingen waarvoor geen actie nodig is, waardoor de technici zich kunnen concentreren op belangrijke problemen, incidenten beter kunnen prioriteren, de analyse van de oorzaak kunnen versnellen en de beschikbaarheid van applicaties kunnen vergroten. Vice-president van IT-operaties Paul Stuart. Bij Wiley gebruikten de medewerkers van Mack de AIops-mogelijkheden van Dynatrace om het aantal valse positieven met meer dan 50 procent te verminderen. Als er zich toch problemen voordoen, heeft Wiley de gemiddelde tijd tot een oplossing met meer dan 37 procent verkort, wat Mack ‘een enorme, enorme verbetering’ noemt. Dit alles stelt zijn team in staat, zegt hij, meer tijd te besteden aan het verbeteren van de klantervaring en het leveren van innovatieve nieuwe diensten.
Bewaken en volgen. AIops kan het voor operationele medewerkers ook gemakkelijker maken om veranderingen in hun IT-omgeving te volgen, de prestaties ervan te bewaken en grotere omgevingen kosteneffectief te beheren. “We zitten momenteel midden in een grote overname”, zegt Stuart. “Door gebruik te maken van AIops kunnen we extra controletaken op ons nemen zonder een substantiële toename van het personeelsbestand.”
Parkeeraanbieder op de luchthaven, Park ‘N Fly, gebruikt het Dynatrace AIops-platform om zijn eigen IT-infrastructuur te bewaken, evenals API’s die informatie van partners verstrekken, zoals die waarmee klanten de locatie van hun shuttlebussen kunnen volgen en onderhoud voor hun voertuigen kunnen kopen terwijl ze’ opnieuw op reis, zegt Senior Director van IT Ken Schirrmacher. Dynatrace ontdekt ook automatisch nieuwe componenten zoals servers die Park ‘N Fly in de cloud host, “analyseert het gedrag zoals de gegevens die het gebruikt en de andere applicaties waarnaar het die gegevens verzendt”, waardoor een webtopologie wordt gecreëerd die bijhoudt hoe componenten van zijn IT infrastructuur integreren, zegt hij.
Een van de toepassingen van AIops bij Wiley is het beheren van gebeurtenislogboeken om niet alleen te observeren, maar ook om de redenen achter de beschikbaarheid en betrouwbaarheid van zijn systemen te begrijpen, zegt Mack. “Monitoren is passé geworden”, zegt hij. Wat hij nodig heeft, is ‘waarneembaarheid’, dat wil zeggen het vermogen om vragen te stellen en antwoorden te krijgen. Monitoring kan u elke seconde de latentie (van systemen) laten zien, maar de vraag die ik wil stellen is ‘Waarom heeft een gebruiker in Timboektoe een probleem?’”
Oorzaken aanpakken. AIops is ook handig voor het versnellen van de analyse van de hoofdoorzaak van problemen, om te helpen bepalen “Op welke laag van de servicekaart bestaat (het probleem) – in de browser, in de database, in de code (of) is het een on- premisse netwerkprobleem?” zegt Elliott. Wiley correleert gegevens uit alle lagen van de applicatie-stack, inclusief database- en applicatieprestaties en hoe gebruikers de applicaties en services ervaren, en heeft Dynatrace en andere tools gebruikt om de gemiddelde tijd om problemen op te lossen met 40% te verminderen. “Dit betekent serieuze prestatieverbeteringen voor onze klanten”, zegt hij.
Verschillende klanten waarschuwden dat AIops configuratie vereist en vaak geen kostenbesparingen op korte termijn zal opleveren. “U zult geen besparingen zien” tijdens de implementatiefase, zegt Schirrmacher. “Het voordeel is grotendeels onderweg wanneer u minder werknemers nodig hebt om uw groeiende omgeving te beheren, deze optimaal te laten draaien, geen personeel meer hoeft in te plannen voor nachtelijke updates of om storingen op te lossen, of om updates rond vakanties te plannen.
Waar AIops tekortschiet
Omgaan met tekortkomingen in de gegevens. Hoe meer gegevens en gegevens van hogere kwaliteit een machine learning-algoritme heeft, hoe beter het de werking van een complexe IT-infrastructuur kan begrijpen en analyseren. Het ontbreken van dergelijke gegevens, of de limieten waarop een AIops-platform gebruik kan maken, kan de effectiviteit van AIops beperken, waardoor goed gegevensbeheer een cruciaal onderdeel van succesvolle AIops wordt.
“Onze vroege AIops-inspanningen worstelden omdat leveranciers hun belofte niet konden nakomen om onze ‘rommelige’ gegevens te accepteren en deze te gebruiken om afwijkingen en problemen binnen de IT-infrastructuur te identificeren”, zegt Vilius Ellikas, hoofd van de service betrouwbaarheid en observeerbaarheid van Danske Bank. Danske Bank “ziet veel potentieel” in het gebruik van het StackState-observatieplatform om automatisch gegevens te aggregeren, correleren en taggen, zodat onze systemen kunnen zien welke infrastructuurcomponenten welke toepassingen en services ondersteunen”, zegt hij. Dit helpt de bank om “de basis onder de knie te krijgen voordat we de magie van machine learning leren”.
Notified, dat een cloudgebaseerde infrastructuur gebruikt om communicatie en hosting voor zakelijke evenementen en communicatie te bieden, voert zijn eerste AIops-proof of concept uit met behulp van de AIops-mogelijkheden in Splunk en New Relic, zegt CTO Thomas Squeo. Hoewel AIops nuttig is voor het versnellen van root cause analysis en event aggregation, zegt hij, aggregeert Notified nog steeds de historische prestatiegegevens die nodig zijn voor het voorspellen van de hoeveelheid cloud-resources die het nodig heeft voor grootschalige evenementen zoals investor relations conferenties.
Het consolideren van de benodigde operationele data over haar infrastructuur was belangrijk voor AmerisourceBergen. “Een van onze grootste pijnpunten was dat we in een siloomgeving keken naar hun set tools en gebieden die ze ondersteunden in plaats van naar het algemene beeld”, zegt Stuart. “Nu we alle gegevens centraal hebben gelokaliseerd, kan onze AIops-engine waarschuwingen uit verschillende bronnen met elkaar in verband brengen, waardoor AmerisourceBergen-teamleden zich snel op het kernprobleem kunnen concentreren. Door alle gegevens op één locatie te correleren, kunnen we beginnen met het identificeren van patronen die vroege waarschuwingssignalen zijn dat er problemen ontstaan.”
Geautomatiseerde sanering. Volledig geautomatiseerde oplossing van beveiligings-, prestatie- of andere problemen is een ander gebied waarop AIops de leveranciersbeloften niet kan nakomen. “AIops levert dramatisch weinig op als klanten een ‘magic box’ willen die onmiddellijk en continu problemen kan vinden en de ideale oplossing voor hen kan voorstellen”, zegt Gartner Inc. Senior Research Director Gregory Murray.
Sommige risico’s, zoals de exploitatie van een voorheen onbekende beveiligingskwetsbaarheid, zijn moeilijk of onmogelijk te voorspellen, zegt hij. “Het is ook onmogelijk voor een AI-systeem om alle combinaties van wijzigingen in de IT-infrastructuur te evalueren en het effect van die wijzigingen betrouwbaar te voorspellen.”
“Sommige IT-organisaties beginnen af te haken op wat ze prettig vinden om automatisch te herstellen”, zegt Elliott. “In sommige gevallen is het het barsten van nieuwe services of nieuwe infrastructuur” om prestatievermindering te voorkomen wanneer transactiebelastingen of behoeften pieken, terwijl in andere gevallen het automatisch services naar een andere AWS-regio of een andere set bronnen kan verplaatsen.
Notified voert momenteel geautomatiseerde remediëring uit op slechts 20% tot 25% van de applicatieportfolio “…op risicogecorrigeerde basis”, zegt Squeo.
Cultuurverschuiving vooruit
Voor sommigen is AIops minder een op zichzelf staande discipline dan een extra tool voor agile IT- en bedrijfsprocessen. IDC noemt het ‘IT operations analytics’ en bij Notified: ‘We gebruiken de term AIops niet’, zegt Squeo. “We gebruiken de term `devsecops’ die uitgaat van het bestaan van goede monitoring-, meldings- en gebeurtenispraktijken en het profiteren van AIops als onderdeel van de algehele samenwerking tussen ontwikkeling en operaties en beveiliging.”
Bij Wiley maakt AIops deel uit van een bredere beweging om meer verantwoordelijkheid voor applicatie- en servicekwaliteit te geven aan de teams die ze ontwikkelen. “We hanteren een devops-benadering van onze betrouwbaarheid en beheer”, zegt Mack. “Uiteindelijk is de verantwoordelijkheid (met) de teams die de systemen bouwen” die het meeste op het spel hebben bij hoe ze presteren in productie.
Stuart voorspelt dat AIops uiteindelijk “een teambrede culturele verschuiving zal faciliteren, waarbij automatisering de focus wordt” in plaats van handmatig te reageren op problemen wanneer ze zich voordoen. “Naarmate we volwassen worden, zal de focus liggen op het bekijken van de omgeving vanuit een serviceperspectief dat applicatie- en infrastructuurcomponenten zal combineren met zakelijke drijfveren.”