Uitdagingen voor gegevensbeheer en gegevenskwaliteit in een machine learning-ecosysteem

De hoge beschikbaarheid van data, verbeterde rekenkracht en geavanceerde Data Science-technologieën vormen samen een dodelijke combinatie voor datagestuurde resultaten. Met de open data-economie om de hoek, zullen goed afgestemde Data Governance-mogelijkheden het doel van de meeste bedrijven zijn.

De huidige praktijken voor gegevensbeheer zijn gericht op het zonder risico delen van gegevens en naleving van de regelgeving. In een open data-economie zijn verminderde risico’s van het delen van gegevens en toegenomen bestuursmechanismen de sleutels tot succes. Nu Data Governance steeds belangrijker wordt in datagestuurde bedrijfsmodellen, zullen organisaties investeren in geavanceerde datatechnologieën zoals kunstmatige intelligentie (AI) en machine learning (ML) om “kwaliteit, compliance en beveiliging op schaal te bereiken”. Volgens Bill Tomazin, Managing Partner, West Region en National Audit Solutions, bij KPMG LLP US.

“Als de gegevens niet betrouwbaar of van slechte kwaliteit zijn, is de kans groot dat er minder dan optimale zakelijke beslissingen worden genomen.”

Zoals verteld door de schrijver van De impact van datakwaliteit in het machine learning-tijdperkWordt datakwaliteit zelfs nog belangrijker in het ML-aangedreven, selfservice-analyse-tijdperk, aangezien zakelijke gebruikers niet gekwalificeerd zijn om de kwaliteit van de gebruikte data te beoordelen. Bedrijven realiseren zich nu dat hun AI-investeringen mogelijk verloren gaan als ze problemen met de datakwaliteit niet eerst aanpakken! In het moderne bedrijfsanalyseregime hebben de toenemende verscheidenheid aan gegevensbronnen, invoerkanalen, hoge gegevensvolumes en “ongestructureerde gegevenstypen” de problemen met gegevensbeheer vergroot, vooral op het gebied van gegevenskwaliteit en gegevensbeheer. Hier is een verslag van McKinsey, The Insights Value Chain: Data Quality Uitdagingen in IoT, die helpt om de uitdagingen op het gebied van datakwaliteit in de Internet of Things (IoT) -data te benadrukken.

Uitdagingen voor datakwaliteit in digitale bedrijven

Hoewel multi-type en multi-source data de enterprise data troves heeft verrijkt, is datamanagement een serieuze uitdaging geworden vanwege de slechte datakwaliteit. Data kwaliteit het management blijft experts op het gebied van datamanagement achtervolgen, en ze weten dat bedrijven de gouden kans kunnen verliezen om competitieve informatie af te leiden, tenzij datakwaliteitsproblemen goed worden aangepakt. Zelfs de meeste onderzoekers denken dat zorgen over datakwaliteit het ware potentieel van datagestuurde ondernemingen belemmeren. De gebruik van ML technologie om de uitdagingen op het gebied van datakwaliteit te verminderen, is nog steeds beperkt, hoewel de meeste marktleiders van mening zijn dat ML het potentieel heeft om problemen met datakwaliteit het hoofd te bieden. Bovendien zijn de oplossingen die worden geboden door geavanceerde AI / ML-oplossingsplatforms om datakwaliteit aan te pakken vaak zeer economisch en efficiënt. Sinds “handmatige opschoning van datakwaliteitsbeoordeling” is vervangen door geautomatiseerde tools, hebben dataprofessionals waardevolle werktijd terugverdiend voor feitelijke Data Science-taken.

ML-oplossingen hebben momenteel de mogelijkheid om “de kwaliteit van gegevensassets te beoordelen, ontbrekende waarden te voorspellen en aanbevelingen voor opschoning te geven, waardoor de complexiteit en inspanningen van datakwaliteitsexperts en wetenschappers worden verminderd”.

Nu het aantal gegevensinvoerpunten met de dag toeneemt, hebben bedrijven moeite om die gegevens op een efficiënte manier te verzamelen en op te slaan. AI biedt de mogelijkheid om het gegevensinvoerproces te automatiseren door middel van “intelligente vastlegging”, waardoor de kwaliteit van inkomende gegevens wordt verbeterd. Gegevens van goede kwaliteit verhogen de kwaliteit van marketingcampagnes en voorspellende analyse. Bekijk dit blogbericht om het Laatste informatie over AI, ML en Master Data Management die samenwerken om de beste resultaten voor datamanagement te leveren.

De artikel, Uitdagingen van gegevenskwaliteit in het AI-ecosysteem, helpt bij het naar voren brengen van de veelvoorkomende problemen met de datakwaliteit die inherent zijn aan AI-projecten, waarbij geavanceerde datatechnologieën zoals ML en deep learning (DL) gezamenlijk worden gebruikt voor het beheer van ‘gegevensverzameling, gegevensopslag, gegevensvoorbereiding en geavanceerde gegevensanalyse’. Om de omvang van de problemen te beschrijven, citeert de auteur van dit artikel Nathaniel Gates, CEO en mede-oprichter van Alegion, een AI- en ML-trainingsdataplatform:

“Het grootste obstakel voor het implementeren van ML-modellen in productie is het volume en de kwaliteit van de trainingsgegevens.”

Uitdagingen voor gegevensbeheer in digitale bedrijven

Als auteur van een Bloomberg.com blog Post zegt dat “de kern en vaak knagende kwestie van datakwaliteit” de complexiteit van het databeheer van een organisatie nog ingewikkelder maakt vanwege “ongelijksoortige databronnen, immense datavolumes en ongestructureerde datatypes.” Hoewel AI / ML-aangedreven systemen steeds populairder worden in digitale bedrijven, kan het ontbreken van solide Data Governance-frameworks “onbetrouwbare en misleidende informatie en onverwachte overheadkosten opleveren”.

Hier zijn enkele veelvoorkomende en vaak besproken uitdagingen op het gebied van gegevensbeheer waarmee door AI / ML aangedreven ondernemingen worden geconfronteerd:

  • De gegevenstoegangscontroles – wie heeft toegang tot welke gegevens?
  • De nauwkeurigheid, consistentie en betrouwbaarheid van gegevens.
  • Is de huidige infrastructuur voor gegevensopslag en -integratie voldoende?
  • De beveiligingskwesties rond gegevensbewegingen binnen en buiten bedrijven.
  • De geïmplementeerde Data Governance Plans – wat ontbreekt er?

De Forbes auteur heeft de kernproblemen van een Data Governance Plan in een AI-aangedreven datamanagementomgeving, waaronder gegevensintegriteit, gegevensbeveiliging, gegevensintegratie en ten slotte gegevensbeheer vallen. Naast het kijken naar de datakwaliteit, toegangscontrole, consistentie en opslagintegratietechnieken, analyseert het artikel ook de grenzeloze mogelijkheden van datagestuurde inzichten in een door AI / ML aangedreven bedrijfsecosysteem. Een artikel uit Data Republiek onthult de belangrijkste trends op het gebied van datagovernance die tegenwoordig zichtbaar zijn in digitale bedrijven, waar metadatabeheer, datamodellering, datakwaliteit en databeveiliging hoge prioriteit hebben. Volgens de auteur van dit artikel houdt een goed Data Governance Plan ‘databronnen, datagebruik en data-afstamming bij van oorsprong tot uiteindelijk gebruik’, en heeft het tot doel het ‘onderscheid tussen mensen, processen, digitaal, analyse en data’ te vervagen.

Machine learning gezien als een redder voor gegevensbeheer

Een artikel, Gegevensbeheer en machine learning, onthult de huidige status van AI-acceptatie in de branche. Aan de ene kant staan ​​de C-Suite Executives meer dan te popelen om AI-enabled, datamanagementoplossingen te omarmen; aan de andere kant zijn de technologie-experts er zeker van dat de adoptie van AI / ML-technologie een verre droom kan blijven, tenzij er goede datastrategieplannen zijn, waarvan datagovernance een kerncomponent is.

Hier is een interessante blog post met de titel Metadata en machine learning in data governance, waarin de auteur stelt dat in een post-GDPR-wereld metadata een cruciale rol spelen in Data Governance, zoals blijkt uit de opkomst van actuele discussies over de “rol van metadata in Data Governance.” Eerder verklaarde Gartner dat in 2020 50% of meer van het datagovernancebeleid “wordt bepaald door metadata”. Door zakelijke praktijken transparant te maken door middel van een “gemeenschappelijk vocabulaire en een controleerbaar proces”, hebben metadata nu geholpen ML-technologieën om de zakelijke corridors te vullen.

Elke moderne onderneming moet een eigen hebben Gegevensbeheer infrastructuur aanwezig om de vruchten te plukken van “door technologie ondersteunde besluitvorming”, gefaciliteerd door geavanceerde AI / ML-systemen. Maar om deze geavanceerde technologische systemen competitieve intelligentie te laten leveren, moet de datastroom gedurende zijn hele traject worden “gevolgd, gecontroleerd en bewaakt” in een end-to-end enterprise-analysesysteem.

Een populaire use case voor gegevensbeheer: financiële sectoren

In de artikel getiteld Hoe kan machine learning uw organisatiegegevensstrategie beïnvloeden, benadrukt de auteur dat het succes van ML Solutions is nauw verweven met Data Governance-strategieën die in een onderneming aan het werk zijn. Terwijl algemene Amerikaanse bedrijven bezig zijn met de implementatie van CCPA of de vele variaties ervan in het land, lijkt de financiële sector een overtuigend antwoord te hebben gevonden in ML-aangedreven oplossingen. De AI-serviceleveranciers, die een sector-voor-sector onderzoekend standpunt innemen, denken dat hun oplossingen zijn ontworpen om te voldoen aan alle regelgevings- of nalevingsvereisten die de financiële dienstensector vaak teistert.

Lees deze Forbes post om te begrijpen hoe auditteams in de financiële sector een waakhond kunnen spelen voor interne Data Governance-praktijken door het operationele Data Governance-raamwerk te onderzoeken. De auditors kunnen er ook voor zorgen dat de Data Governance-praktijken van een organisatie in overeenstemming zijn met de algemene bedrijfsvisie. Het American Institute of Certified Public Accountants publiceerde een rapport met de titel Een overzicht van gegevensbeheer, wat bevestigt dat interne auditteams de principes van gegevensbeheer routinematig toepassen in hun dagelijkse werkzaamheden met financiële gegevens.

Aangezien digitale bedrijven voor hun activiteiten uitsluitend vertrouwen op de kracht van data, speelt Data Governance een strategische rol bij het leveren van concurrentievoordelen. Data, in combinatie met geavanceerde technologieën, kunnen een bedrijf naar het toppunt van succes duwen, mits correct gebruikt. Zoals echter onthuld door Guardians of Trust, is een KPMG International rapport maken 2200 bedrijfsleiders zich zorgen over de bestuurlijke uitdagingen van “gegevens op een gedeeld platform”, zoals in de gezondheidszorg of productiebedrijven. In deze industriesectoren wisselen doorgaans veel partijen gegevens op een hoogfrequente basis uit, waardoor de integriteit van de beschikbare gegevens in twijfel wordt getrokken.

Gegevens- en zakelijke teams die teamsporten spelen

Een DBTA artikel, gericht op kostenverantwoording voor investeringen in datakwaliteitstechnologie in AI / ML-systemen, onthult dat de primaire bron van “gegevens van slechte kwaliteit” de verkoopafdelingen zijn, waar het verkooppersoneel vaak onjuiste of onvolledige gegevens in het CRM-systeem invoert. De slechte gegevens kunnen zich gemakkelijk verspreiden naar andere afdelingen of functies via gekoppelde processen en applicaties. Het fundamentele probleem van gegevensbeheer, zoals dit artikel aangeeft, is het gebrek aan communicatie tussen de IT- en bedrijfsmedewerkers. De businessmedewerkers denken dat data een IT-probleem zijn, terwijl de IT-afdeling denkt dat schone data de verantwoordelijkheid is van de businessmedewerkers, die de data creëren.

Tijdens een recente zakelijke top hebben bedrijfsleiders, hoewel ze het belang van een datastrategie voor datagestuurde inzichten erkenden, hun eigen succes niet gedeeld met een duidelijk omschreven Gegevensstrategie. Ze vonden dat datapraktijken het bedrijf en datapersoneel als onderdeel van een team moesten omvatten. “Vertalers” zouden als bindweefsel dienen om de communicatiekloof tussen de zakelijke en technische experts te overbruggen. “

Ze vonden dat datapraktijken het bedrijf en datapersoneel als onderdeel van een team moesten omvatten. Het team zou “vertalers” gebruiken om “als bindweefsel te dienen om de communicatiekloof tussen de zakelijke en technische experts te overbruggen.”

Afbeelding gebruikt onder licentie van Shutterstock.com