mk_nosqldbs_092220.jpg

NoSQL-databases: de veelzijdige oplossing voor continue intelligentie

De meeste bedrijven zijn geneigd te vertrouwen op relationele databasebeheersystemen (RDBMS) om zakelijk inzicht te verschaffen, inclusief continue informatie. Relationele databases in de cloud hebben verbeterde rekenkracht die ze naar de tafel brengen, om grotere hoeveelheden gegevens te verwerken. Echter, relationele databases, zelfs die in de cloud, kampen met twee problemen. Ze hebben het moeilijker met de ongestructureerde big data en enorme geheugenvereisten. Hun vaste schema-architectuur maakt het moeilijk om een ​​groot deel van de continue intelligentie te onderhouden.

Gartner voorspelt, tegen 2022, meer dan “de helft of grote nieuwe bedrijfssystemen zullen continue intelligentie bevatten”. Continue intelligentie vereist het omzetten van big data in realtime analyses die de bedrijfsvoering kan gebruiken om acties voor te schrijven. Toch worstelen veel bedrijven met het vinden van een databaseoplossing voor algemeen gebruik die snel reageert, enorme hoeveelheden gegevens van alle soorten verwerkt, schaalbaar is over meerdere computerinstanties, goed presteert en consistent en bestuurbaar blijft.

Het verlangen naar een snellere, beter presterende en flexibelere architectuur leidde tot de ontwikkeling van de niet-relationele of NoSQL-databases. NoSQL-databases hebben minder opslagbehoeften, kunnen beter omgaan met big data en verwerken opgenomen gegevens snel. Als DATAVERSITY® Trends in datamanagement 2019 report vermeldt, voelen veel bedrijven zich overweldigd door te begrijpen hoe ze zakelijk inzicht kunnen krijgen uit de NoSQL-database en de bijbehorende architectuur.

DATAVERSITY sprak onlangs met Jai Karve, een Solutions Architect bij MongoDB, om niet-relationele databasetechnologie beter te begrijpen, hoe deze is voorbereid op continue intelligentie, terwijl hiaten worden gedicht met RBDMS-voordelen om meer algemene doeleinden te worden.

Gegevens sneller en over meer machines verplaatsen

NoSQL-technologie kwam van een drive om “gegevens snel te verplaatsen” en “goed horizontaal uit te schalen”, zei Karve. Ga terug naar 2008 en ontdek dat streaming media-applicaties zoals Twitter en YouTube steeds populairder worden. Die applicaties verzamelden continu gegevens sneller en sneller, en het RDBMS ondervond prestatieproblemen bij het proberen alles af te handelen.

“Daarom keken sommige NoSQL-ontwikkelaars hoe ze gigantische datasets over meerdere machines konden distribueren. Ze wilden rijke JavaScript Object Notation (JSON) -datastructuren mogelijk maken die zijn ontworpen om verzoeken en reacties tussen computers te versnellen en tegelijkertijd uit te breiden naar vele netwerkcomputers. Het resultaat is dat NoSQL-technologie presteert als een kant-en-klaar big data-platform als een service, waarmee ontwikkelaars data-applicaties kunnen bouwen. “

Omdat ze graag feedback wilden krijgen over dit nieuwe soort architectuur, werd de niet-relationele databasecode open source, waar ontwikkelaars het konden uitproberen, wijzigen, problemen konden indienen en verbeteringen konden voorstellen. Zoals hij opmerkte, bleven bedrijven de niet-relationele database als een anomalie beschouwen.

“Bedrijven bleven hun RDBMS gebruiken voor een recordsysteem en keken naar een NoSQL-database, zoals MongoDB, om Application Programming Interfaces (API’s) te bouwen en JSON-mogelijkheden te gebruiken voor prestaties en snelheid. De markt zag de NoSQL-database dus als een oplossing voor een niche-use case, een caching-laag om opgeslagen gegevens sneller te serveren. “

Hoewel de NoSQL-databases streefden naar meer algemeen gebruik, misten ze essentiële kenmerken, waaronder gegevensvalidatie en ACID-a-compatibele transacties. ZUUR beschrijft atomaire, consistente, geïsoleerde en duurzame database-eigenschappen, ideaal voor betalingen. Elk databasesysteem dat is ontworpen om te voldoen aan ACID-kenmerken, behoudt de integriteit van elke transactie, één set bewerkingen en waarden. Daarentegen kan de NoSQL-database gegevens wijzigen vanaf het moment van invoer en uiteindelijk consistent zijn, maar niet noodzakelijkerwijs sterke garanties voor consistentie bieden.

Sommige NoSQL-technologieën probeerden deze consistentie te bereiken door gegevens op databaseniveau te vergrendelen. “Maar dan wordt het updaten of schrijven naar de database omslachtig”, zoals Karve zei, “om het gebruik van de NoSQL-database te ontmoedigen.” De NoSQL-uitdaging werd: “… de sterke punten van hoge beschikbaarheid en horizontale schaalbaarheid in NoSQL bieden, maar de kloof dichten met gewenste RDBMS-functies, zoals ACID-transacties.”

Een NoSQL-database voor algemeen gebruik met ACID-eigenschappen

In 2017 zijn de NoSQL-databasetechnologieën geëvolueerd, waarbij flexibiliteit, snelheid en prestaties zijn behouden terwijl ACID-database-eigenschappen zijn ingesloten. Karve noemde een oplossing, de document database. Elk document bevat sleutels en waarden, aangepast aan gebruikersspecificaties. De inhoud, het aantal en de reeks documenten in een documentendatabase kennen weinig beperkingen, waardoor deze ideaal is voor big data.

Karve legde uit dat MongoDB ACID-eigenschappen aan dit document Data Architecture heeft toegevoegd. Ten eerste valideren algoritmen inhoud die naar JSON-documenten is geschreven. Beschouw deze code als een manier om de datakwaliteit te behouden door te controleren of de inhoud van het document voldoet aan de bedrijfsregels en -vereisten en degene die dat wel doen te behouden, te vergrendelen. Deze programmering maakt transacties atomair en consistent.

De duurzaamheid van de NoSQL-database is afkomstig van een replicaset. Elk gegevenscluster bevat een primair knooppunt, dat databaseschrijfbewerkingen accepteert en secundaire knooppunten die de schrijfbewerkingen repliceren. Wanneer het primaire knooppunt uitvalt, wordt een van de back-upknooppunten primair. Gegevens kunnen zeker server- of netwerkstoringen doorstaan ​​als een nieuw knooppunt opstapt om primair te worden.

MongoDB ontwerpt een ACID-database, een datacluster met een reeks JSON-documenten, geconfigureerd en gecontroleerd door code. In de tussentijd kan het bedrijf vervolgens zoveel dataclusters opschalen als nodig is over meerdere locaties of flexibel beslissen hoe dat moet.

Een Continuous Intelligence-databasearchitectuur

Het is een uitdaging om te begrijpen hoe u continue informatie uit de NoSQL-architectuur van de documentdatabase kunt halen. Karve merkte op:

“Mensen blijven steken in relationele database-bagage terwijl ze proberen hun databasemodel in een documentendatabase te koppelen. Ze proberen normalisatie te bereiken door gegevens te ordenen om te voldoen aan een schema op basis van relaties. Klanten hebben dan een vreselijke ervaring. Startend, zakelijk voordeel door een paradigmaverschuiving door te voeren. Ze moeten nadenken over gegevensopslag en toegang bij het modelleren van gegevens. Houd gelijke gegevens bij elkaar om toegang te krijgen. Denk minder aan dozen en meer aan details van elk datacluster. “

MongoDB realiseerde zich dat bedrijven vast kunnen komen te zitten in een RDBMS-perspectief en creëerde The Toolkit voor modernisering met enkele partners. “Deze grafische interface helpt bedrijfsanalisten om van RBDMS naar dataclusters in kaart te brengen, waardoor ze NoSQL beter begrijpen continue intelligentie datamodellering.”

Voor degenen die hun relationele schema willen behouden, integreren leveranciers, zoals Confluence, NoSQL- en SQL-technologieën en verbinden ze bedrijfstools. Het resultaat is een “krachtig platform waarmee bedrijfsanalisten eenvoudig toegang hebben tot real-time screening van gebeurtenissen, terwijl die continue intelligentie wordt getransformeerd met SQL-queries.” Voorbeelden zijn ook Tableau en PowerBI, die realtime interactieve dashboards en rapporten bieden die met SQL kunnen worden opgevraagd.

Gegevensclusters beheren

Real-time interactieve dashboards geven slechts zo goede informatie als de datakwaliteit binnen de databasesystemen. Maar wat gebeurt er als de zakelijke vereisten veranderen? Karve merkte op:

“Sommige medewerkers gebruiken een open source documentendatabase om dingen snel gedaan te krijgen. Maar dan een veelvoud aan verschillende praktijken die na verloop van tijd worden geërfd. Het bedrijf weet niet hoe het die database moet beheren of beheren zodra werknemers vertrekken. “

Hij legde uit hoe MongoDB dit soort behandelt Gegevensbeheer probleem, de clouddatabaseservice die bekend staat als Atlas. Beschouw Atlas als een controlecentrum voor dataclusters die in de cloud zijn opgezet. Mongo doet het “zware werk van de NoSQL-databasestructuur”, terwijl het bedrijf “de hendels, knoppen en knoppen heeft om de parameters van het datacluster in te stellen”. Van daaruit kan een onderneming de gegevensprestaties en -locaties verfijnen.

Hoe is dit van toepassing op Data Governance? Als u de datalocatie kent, moet u weten welke regels van toepassing zijn op de gegevens die daar zijn opgeslagen. Aangezien overheden verschillende privacynormen hanteren, wordt het gemakkelijker om de dataconfiguraties bij te werken om te voldoen aan nieuwe wetten of om de gegevens naar een andere locatie te verplaatsen zonder de regelgeving.

Combineer deze mogelijkheid onder een bedrijfsbrede Data Governance-paraplu en krijg een krachtige manier om gegevensbeleid en -procedures te verfijnen en flexibel te beheren.

Streaminggegevens gebruiksvriendelijker maken met uitgebreide schaalbaarheid

De toekomst van NoSQL-technologie ziet er rooskleurig uit voor continue intelligentie. Ten eerste beloven NoSQL-databases gebruiksvriendelijker te zijn door middel van autonome databasefuncties. Karve legt uit: “MongoDB zal gebruikersgedrag detecteren en suggesties geven voor databasemodellering

en het maken van een index. ” Met indexering worden zoekresultaten sneller opgehaald.

Ten tweede zal de documentendatabase van MongoDB zijn capaciteit uitbreiden om meer mobiele apparaten en het internet der dingen (IoT) te verwerken. Karve zei: “Hierdoor kunnen de dataclusters aan de rand van het netwerk beter synchroniseren met de server.” De NoSQL-technologie maakt gebruik van 5G-technologie met een hogere verbindingssnelheid, waardoor meer gegevensinvoer via streaming mogelijk is.

Bedrijven hebben NoSQL-technologie nodig om gebruik te maken van continue intelligentie vanwege de flexibiliteit, prestaties en betrouwbaarheid. Zie bovendien, op basis van de recente COVID-19 pandemische activiteiten, het omarmen van multi-cloud-mogelijkheden als een veerkrachtiger en elastischer manier om gegevens op te slaan en downtime te voorkomen. NoSQL-databases schalen uit met prestaties over veel clouds, waardoor u meer continue gegevens kunt vastleggen en waar u deze kunt plaatsen. RDBMS alleen heeft niet de architectuur om multi-cloud data en continue intelligentie te verwerken.

Afbeelding gebruikt onder licentie van Shutterstock.com

Evelyn_Johnson_600x448.jpg

Maak deze zes Big Data-fouten niet

Klik voor meer informatie over auteur Evelyn Johnson.

Waarom mislukken big data-projecten?

Zij doen; dat is zeker.

Gartner schatte dat 60 procent van de big data-projecten de gewenste doelstellingen niet haalt. Een jaar later hebben ze dit cijfer bijgesteld tot 85 procent, waarbij ze toegaven dat ze “te conservatief” waren met de oorspronkelijke schatting.

Dus om terug te gaan naar de oorspronkelijke vraag: wat is de reden dat zoveel big data-projecten niet succesvol zijn?

Welnu, er is een combinatie van redenen. Meestal is technologie niet eens de belangrijkste boosdoener.

Laat het me uitleggen.

Fouten die van big data een grote mislukking kunnen maken

Niet om clichématig te zijn, maar big data verandert de moderne wereld. Zijn vingerafdrukken zijn in elke sector, uit de detailhandel naar de gezondheidszorg en daarbuiten.

De term “too big to fail” krijgt een geheel nieuwe betekenis wanneer hij wordt toegepast op big data.

De omvang van dergelijke projecten overweldigt organisaties vaak tot het punt dat ze deze initiatieven helemaal vermijden. Het verliezen van investeringen in Data Science-projecten kan bedrijven een grote slag toebrengen.

Maar niet alle big data-projecten zijn gelijk gemaakt en zijn gedoemd te mislukken. Als u de volgende fouten vermijdt, kan big data uw grootste troef worden.

1. Focus op kortetermijnwinst

Onze jaartelling wordt niet voor niets het informatietijdperk genoemd. Elke belangrijke beslissing, of deze nu van een overheidsinstelling of een zakelijke entiteit is, moet worden ondersteund door relevante en authentieke gegevens. Voorbij zijn de dagen dat intuïtie en persoonlijke ervaring de besluitvorming bepaalden.

Bedrijven erkennen nu dat de gegevens die van klanten worden verzameld een enorme waarde hebben. Het is een troef die effectief moet worden beheerd. Dit kan gebeuren door technologie te gebruiken om het verzamelen van gegevens te vereenvoudigen, door automatisch te schalen voor het beheren van variabele gegevensvolumes en door AI in te schakelen, terwijl er wat ruimte overblijft voor aanpassing.

Wat de meeste bedrijven neigen te doen, is zich concentreren op de kortetermijnwaarde van deze tools en alles negeren wat ze op de lange termijn zouden opleveren. Hierdoor lopen ze een aantal belangrijke voordelen mis.

2. Gebrek aan focus op visualisatie

Soms besteden datawetenschappers niet veel tijd aan het begrijpen van de gegevens via een groot aantal visualisatietechnieken. Deze tools kunnen een belangrijke rol spelen bij het helpen van bedrijven om snel inzicht te krijgen.

Passende visualisaties zijn belangrijk voor het modelleren van verkennende data-analyse, het volgen van deze analyse en het illustreren van het resultaat.

Zonder dit kunnen zelfs de beste machine learning-modellen uw big data-projecten niet redden.

De meeste datawetenschappers geven de voorkeur aan grafiekachtige beelden vanwege hun esthetische aantrekkingskracht in plaats van rekening te houden met de kenmerken van hun dataset en dienovereenkomstig te beslissen.

Bedrijven zouden datawetenschappers moeten inhuren die de doelen van visualisatie en de basisprincipes ervan realiseren.

3. Geen centrale autoriteit hebben

De nauwkeurigheid en kwaliteit van de gegevens is een terugkerend probleem bij veel bedrijven. Het maakt niet uit hoe “groot” de gegevens zijn, ze hebben geen zin als ze vol inconsistenties en duplicaties zitten.

Een manier om hoge standaarden voor gegevensverzameling te handhaven, is door hiervoor een centraal toezicht in te stellen. Op deze manier kunnen duplicaties, slechte invoer en onjuist kolommengebruik helemaal worden vermeden.

Stel dus een commissie in of geef deze rol aan een doorgewinterde professional. Deze autoriteit zou in ieder geval een mandaat moeten hebben om de gegevens schoon te houden en medewerkers op te leiden die er gebruik van zullen maken.

Datahygiëne verdient bijzondere aandacht, en organisaties moeten niet terugdeinzen om extra te investeren in zo’n kritieke functie.

4. Te “groot” gaan

Dit lijkt misschien een beetje ironisch, maar het is iets dat gezegd moet worden; big data hoeft niet altijd groot te zijn. Ja, het hele punt is om grote brokken datasets te onderzoeken om patronen bloot te leggen, inzichten te verkrijgen en uw toekomstige beslissingen daarop te baseren.

Het verzamelen van alles wat kan worden verzameld, kan echter zakelijke functies ingewikkelder maken. Wanneer irrelevante gegevens worden bewaard, ontstaat er wat bekend staat als gegevensverzadiging – een situatie waarin enorm veel gegevens worden opgeslagen en het bijna onmogelijk is om deze te ordenen en zinvolle inzichten te verkrijgen.

Het is dus belangrijk om vanaf het allereerste begin met een goed doordacht plan in te gaan. Uw datastrategie moet aansluiten bij de algemene bedrijfsdoelstellingen van uw bedrijf. Verzamel doelgerichte en strategische informatie, en het zal tot enkele nuttige ontdekkingen leiden.

Nogmaals, een centraal gezaghebbend orgaan zou de taak moeten krijgen om te zorgen voor redundantie bij het verzamelen van gegevens en om de belangrijkste doelen en gerelateerde datasets te helpen identificeren.

5. Op zoek naar antwoorden zonder een vraag

Om David Copperfield te citeren: “We leven in de wereld die onze vragen creëren.” Weten welke vragen u beantwoord wilt hebben, is een essentieel onderdeel van Data Science. Het is de eerste stap waarna men de juiste datasets verzamelt en vervolgens resultaten verzamelt.

Zonder vragen over de data springen, maakt plaats voor analyseresultaten die weinig waarde hebben. Een betere benadering is om duidelijke doelstellingen en vragen te hebben, samen met enkele hypothesen om deze doelstellingen te bereiken.

Als u niet weet wat u wilt, wees dan bereid om niets te ontvangen. Big data stelt u in staat om nieuwe antwoorden op oude en nieuwe vragen te zoeken. Al deze antwoorden worden verkregen door datasets samen te voegen die nog nooit eerder zijn samengevoegd. Nieuwsgierigheid is de belangrijkste drijfveer in het hele proces.

6. Big data in dezelfde infrastructuur passen

Big data heeft zijn eigen vereisten, waaronder verschillende mechanismen voor authenticatie, gegevensisolatie, toegang tot en beheer van omgevingen in vergelijking met conventionele organisatiefuncties.

Simpel gezegd, organisatorische procedures moeten veranderen om big data te laten werken. Toevoegen aan een bestaande omgeving is slechts een recept voor teleurstelling.

De operationele processen zullen moeten worden aangepast om big data te laten werken. Anders krijgt uw bedrijf een uiterst complexe en inefficiënte architectuur.

Succes wordt behaald wanneer u een holistische blik werpt op wat uw organisatie nodig heeft, het hele bedrijf erbij betrekt en het plan in fasen uitvoert.

Dit alles moet gebeuren terwijl u op weg bent naar een referentie-infrastructuur, die werd gebouwd in de oorspronkelijke strategie.

Hoewel verandering inderdaad moeilijk is, is het noodzakelijk tijdens de implementatie van big data.

Gevolgtrekking

Verschillende technologieën zijn bedrijven helpen geld te besparen en het openen van nieuwe inkomstendeuren. Samen met kunstmatige intelligentie (AI), het internet der dingen (IoT) en virtual reality (VR) is Data Science naar voren gekomen als een technologie die de manier waarop bedrijven opereren volledig verandert.

Big data helpt besluitvormers trends uit het verleden te begrijpen en hen toe te rusten om in de toekomst betere beslissingen te nemen. Het is echter geen goocheltruc die alle beslissingsproblemen kan oplossen.

Om het een aanwinst voor uw organisatie te maken, moeten big data worden behandeld als een tool, samen met de juiste context en relevante businesscases.

Aangezien gegevens u helpen trends uit het verleden te begrijpen voor toekomstig gebruik, is het alleen maar passend dat u de veelvoorkomende fouten bij de implementatie van big data begrijpt voordat u doorgaat met het project.

kf_bhdatacontainers_052020.jpg

Een korte geschiedenis van datacontainers

Datacontainers zijn cruciaal geworden voor het efficiënt transporteren van data naar een publieke cloud en terug naar een privaat platform. Containers zijn softwarepakketten die alles bevatten wat nodig is om de software te laten werken. Dit omvat bibliotheken, systeemtools en instellingen, evenals een uitvoerbaar programma. Bovendien bieden containers een extra beveiligingslaag omdat de software geen invloed heeft op hostbesturingssystemen.

EEN container is geïsoleerd van andere containers, hoewel het via goed gedefinieerde kanalen met die containers kan communiceren. Alle containers binnen een systeem werken via een enkele kernel en zijn bijgevolg veel kosteneffectiever dan virtuele machines. Het belangrijkste verschil tussen containers en virtuele machines is dat containers dezelfde kernel van het hostsysteem zullen delen, en virtuele machines zal niet.

EEN kernel is een programma dat fungeert als de kern van het besturingssysteem van een computer en volledige controle biedt over alles in het systeem. Het ondersteunt en versnelt interacties tussen software- en hardwarecomponenten. In de meeste systemen wordt het meestal kort na de bootloader gedownload en vervolgens de opstart- en invoer- / uitvoerverzoeken van de software verwerkt door de verzoeken te vertalen in gegevensverwerkingsopdrachten voor de CPU. De kernel bestuurt ook randapparatuur zoals toetsenborden en printers, en geheugen.

Raghu Kishore Vempati, directeur technologie, onderzoek en innovatie bij Altran, zei:

“In 2020 zullen organisaties enige versnelling zien in de transformatie naar een op microservices gebaseerde architectuur op basis van containers, vanuit een servicegeoriënteerde architectuur (SOA). De acceptatie van Kubernetes als orkestratieplatform zal daarom aanzienlijk toenemen. “

Vroege dagen van datacontainers

De oorsprong van containers komt voort uit het persoonlijke project van een Finse student, Linus Torvalds, die in 1991 een nieuwe kernel van het besturingssysteem creëerde en deze in 1992 gratis maakte voor gebruik. De resulterende “Linux-kernel” is gedurende zijn geschiedenis gekenmerkt door een constante groei. Hij en Shinya Yamanaka werden geëerd met de 2012 Millennium Technology Prize voor “erkenning van zijn creatie van een nieuw open source besturingssysteem voor computers, leidend tot de veelgebruikte Linux-kernel”, door de Technology Academy Finland. (Microsoft, na een grote interne strijd met betrekking tot concurrentie en winst versus open source-technologie en winst, of, meer beknopt, producten versus diensten, begon de open-source Linux-kernel in het jaar 2009 te ondersteunen en te gebruiken.)

In 2000, FreeBSD (een gratis en open-source Unix-achtig besturingssysteem) “gevangenissen”Beschikbaar kwam. Het jail-mechanisme stelt systeembeheerders in staat om een ​​FreeBSD-computersysteem op te splitsen in een aantal onafhankelijke mini-systemen – jails genaamd – die elk dezelfde kernel delen met minimale overheadkosten. De mogelijkheid om meerdere jails op te zetten biedt uitstekende flexibiliteit met betrekking tot softwarebeheer. Een beheerder kan applicatiescheiding bieden door simpelweg verschillende applicaties in elke jail te installeren. Dit kan een jail creëren met alle geïnstalleerde applicaties of mix en match de software die in elke jail is geïnstalleerd.

Opgemerkt moet worden dat gevangenissen nog steeds populair zijn (ze zijn gratis). FreeBSD jails kunnen de beveiliging van een server verhogen door een scheiding te creëren tussen de jail en andere jails, evenals het basissysteem. FreeNAS® biedt twee manieren om een ​​gevangenis te creëren. De Tovenaar van de gevangenis biedt een gemakkelijke manier om creëer een gevangenis, snel. Geavanceerde gevangeniscreatie biedt een alternatief, waarbij elke mogelijke gevangenisoptie configureerbaar is. Deze versie wordt aanbevolen voor meer gevorderde gebruikers met specifieke behoeften.

Solaris-containers

In 2004, Solaris containers zijn uitgebracht door Sun Microsystems. Hoewel Solaris-containers niet zo aanpasbaar of flexibel zijn als Linux-containers, zijn ze redelijk gemakkelijk om mee te werken en bieden ze een aantal krachtige functies. Deze containers combineren systeembronnen met grenzen die ‘zones’ worden genoemd. Elke zone heeft een individuele knooppuntnaam, biedt toegang tot fysieke of virtuele netwerkinterfaces en toegewezen opslag. Zones vereisen geen minimale hoeveelheid speciale hardware, met uitzondering van de benodigde schijfopslag die voor de configuratie wordt gebruikt. Solaris-containers hebben geen speciale CPU, fysieke netwerkinterface, geheugen of HBA nodig. Elke zone is omgeven door een veiligheidsgrens die voorkomt dat een zone de gebeurtenissen in andere zones observeert of ermee communiceert. Individuele zones kunnen worden geconfigureerd met een aparte gebruikerslijst.

Procescontainers

In 2006 hebben Paul Menage en Rohit Seth, die voor Google werken, het cpusets mechanisme in de Linux-kernel. Hun ontwikkeling van proces containers heeft containerisatie aanzienlijk vooruitgeschoven, door te eisen dat wijzigingen minimaal opdringerig zijn en weinig invloed hebben op de complexiteit, prestaties, codekwaliteit en toekomstige compatibiliteit. Eind 2007 is de naam gewijzigd in ‘controlegroepen‘In een mislukte poging om de mogelijke verwarring te vermijden die wordt veroorzaakt door de meervoudige betekenissen van het woord’ container ‘.

2013 was een groot jaar

Laat me dat voor je bevatten werd in 2013 aan het publiek voorgesteld. Het was een open-source-vorm van de containerstapel van Google en leverde Linux ‘applicatiecontainers’. Het ontwerp van de applicatie kan “containerbewustzijn” bevatten, waardoor de applicatie zijn eigen subcontainers kan maken en beheren. LMCTFY werd stopgezet in 2015, toen Google begon met het doneren van kernconcepten van LMCTFY aan een open source-organisatie genaamd libcontainer, nu onderdeel van GitHub.

Het Docker-project begon in Frankrijk als een doel van dotCloud (nu Docker, Inc..), een platform-as-a-service-bedrijf. In maart 2013 werd Docker geïntroduceerd als open source-software voor het publiek en de populariteit van containers explodeerde. Docker bewees zijn superioriteit door een compleet ecosysteem aan te bieden voor het beheer van containers. Momenteel gebruikt Docker een containerplatform dat traditionele applicaties en microservices, en maakt gebruik van Linux- en Windows-gebaseerde applicaties. Docker is momenteel erg populair.

Kubernetes

In 2014 lanceerde Google Kubernetes als een open source-versie van Borg. (Borg is het clusterbeheersysteem van Google, ontwikkeld in 2003.) De beslissing om te lanceren was gedeeltelijk gebaseerd op de filosofie ‘Alles bij Google draait in een container’, die hun verschillende serviceaanbiedingen ondersteunde en hun eigen interne concurrentiestrijd versus open source veroorzaakte gedrag. Kubernetes wordt nu onderhouden door de Cloud Native Computing Foundation. Docker, Microsoft, IBM en RedHat zijn leden van de open source Kubernetes-community. Organisaties en bedrijven blijven in een steeds sneller tempo gecontaineriseerde software gebruiken, wat het succes van Kubernetes stimuleert.

Kubernetes is een systeem voor het indelen van containers. Het automatiseert schaalvergroting, beheer en applicatie-implementatie; ondersteunt een breed scala aan containerhulpmiddelen; en werkt goed met Docker. Het doel is om een ​​”platform te bieden voor het automatiseren van implementatie, schaalvergroting en bewerkingen van applicatiecontainers over clusters van hosts”. Veel openbare clouds bieden Kubernetes aan of bieden infrastructuur als een service.

Josh Komoroske, een senior DevOps-engineer voor StackRox, verklaarde:

“Nu steeds meer organisaties hun gebruik van gecontaineriseerde software blijven uitbreiden, zal Kubernetes in de toekomst steeds meer het de facto implementatie- en orkestratiedoel worden.”

Het container-ecosysteem

rkt (uitgesproken als “raket”) werd aangenomen door de Cloud Native Computing Foundation (CNCF) in 2017. Dit was hetzelfde jaar dat Docker het Containerd project aan de CNCF. rkt is een applicatie container motor ontworpen voor cloud-native omgevingen. Containerd richt zich op looptijd, en wordt beschreven als alles wat nodig is om een ​​containerplatform te bouwen. Het containerecosysteem is een gemeenschapsbrede inspanning geworden met de toewijding om open source-projecten te ondersteunen. Dit heeft op zijn beurt geleid tot meer samenwerking tussen projecten en een gemeenschap die zich richt op het verbeteren van het containergebruik.

Beveiliging is een belangrijk probleem met een open ecosysteem dat gemakkelijk containerafbeeldingen deelt. Een ontwikkeling is het ontstaan ​​van meerdere containerregisters. Een register scant containerimages en containerrepository’s en slaat ze op op zwakke punten in de beveiliging. Docker gebruikt dit als een veiligheidsmaatregel en biedt een alternatief voor openbare repositories van niet-geverifieerde uitgevers, wat een beveiligingsrisico zou kunnen zijn. Dit type beveiliging helpt om vervormde of gemanipuleerde gegevens te minimaliseren, waardoor de gegevenskwaliteit wordt verbeterd.

De meest populaire IaaS-providers bieden hun eigen containerregisters. Dit is vooral handig voor projecten die zwaar zijn geïnvesteerd in AWS-, Azure- of Google Cloud-platforms. Deze worden geleverd met opslag, scannen van standaardrepository’s, monitoring, meer geavanceerde toegangscontroles en verschillende andere tools voor netwerken. Sommige registers van derden, zoals Quay en GitLab, winnen ook aan populariteit. De opties voor registers zijn talrijker dan orkestratietools, en de markt is wijd open. Als alternatief kunnen beveiligingsdiensten van derden voor containers (Draaislot en Aqua Beveiliging) bieden beveiliging die verder gaat dan de standaardinstellingen.

KubeEdge

KubeEdge is een open source-systeem dat is ontworpen voor het gebruik van native gecontaineriseerde applicaties om het internet van dingen (IoT) op het rand. Het staat nog in de kinderschoenen. Het is gebaseerd op Kubernetes en biedt de fundamentele infrastructuurondersteuning die nodig is voor netwerk- en metadatasynchronisatie tussen de cloud en de edge. KubeEdge heeft een licentie onder Apache 2.0 en is gratis voor commercieel en persoonlijk gebruik. Het doel van KubeEdge is om een ​​open platform te creëren dat edge computing ondersteunt en containerized application orchestration services uitbreidt naar hosts aan de edge.

Vempati van Altran merkte op:

“Omdat IoT en edge computing in 2020 aan kracht blijven winnen, zal er meer aandacht komen voor het hosten van Kubernetes op apparaten en omgevingen met een zeer lage resource – CPU, geheugen – footprint.”

Afbeelding gebruikt onder licentie van Shutterstock.com

Scott-Taylor_300x224.png

Hoe u gegevensbeheer kunt verbinden met de essentie van uw bedrijf

Klik voor meer informatie over auteur Scott Taylor.

De videoblogserie Data Rants begint met de host Scott Taylor “The Data Whisperer.” De serie behandelt enkele van de meest prominente vragen in datamanagement, zoals masterdata, het verschil tussen masterdata en MDM, ‘waarheid’ versus ‘betekenis’ in data, datakwaliteit en nog veel meer.

In de videoblog van vandaag bespreekt Scott hoe u ervoor kunt zorgen dat u uw zakelijke prioriteiten afstemt op uw behoeften op het gebied van gegevensbeheer.

Bernard_Brode_600x448.png

Het probleem met big data: het wordt steeds groter

Klik voor meer informatie over auteur Bernard Brode.

Bekijk snel het geschiedenis van big data, en één feit zal u onmiddellijk opvallen: het vermogen om gegevens te verzamelen is bijna altijd groter geweest dan ons vermogen om het te verwerken. Vroeger groeide de verwerkingskracht exponentieel, maar de laatste jaren is die groei vertraagd. Hetzelfde kan niet gezegd worden van de volumes van data beschikbaar, die jaar na jaar blijven groeien.

De cijfers hierover zijn verbluffend. Tussen 2014 en 2015 zijn er meer gegevens gegenereerd dan in de hele voorgeschiedenis van de mensheid, en die hoeveelheid gegevens zal naar verwachting elke twee jaar verdubbelen. Tegen 2020 werd voorspeld dat onze verzamelde digitale gegevens zouden groeien tot ongeveer 44 zettabytes (of 44 biljoen gigabyte) en tot 180 biljoen gigabyte in 2025. Ondanks deze geconcentreerde inspanning om gegevens te verzamelen, is minder dan 3 procent daarvan ooit geanalyseerd.

Wat dan ook big data-trends van 2020dan is het ene misschien wel belangrijker dan al het andere: de enorme hoeveelheid beschikbare gegevens en de problemen die ons zullen bezorgen. In dit artikel zullen we er een paar bekijken.

Datavolumes nemen sneller toe dan ooit

Er zijn een paar belangrijke redenen waarom datavolumes exponentieel blijven toenemen. Een daarvan is simpelweg dat steeds meer mensen hun hele zakelijke en persoonlijke leven online leiden. Als je in een relatief welvarend deel van de wereld (of in feite de VS) woont, kan het gemakkelijk zijn om te vergeten dat de “internetrevolutie” nog lang niet voorbij is. Internetpenetratie in de VS nog steeds blijft achter andere landen, en dus zijn er genoeg mensen die nog niet online zijn. Terwijl ze dat doen, zullen ze een wereld betreden waarin elke stap wordt gecontroleerd. Dit is grotendeels zodat ze kunnen worden getarget met advertenties, maar het heeft ook geleid tot enorme opslagplaatsen met informatie over individuele internetgebruikers.

De tweede belangrijke reden waarom datavolumes blijven toenemen, is het Internet of Things (IoT). Tien jaar geleden was het IoT grotendeels beperkt tot primitieve fitnesstrackers en medische toepassingen. Nu is een verbijsterende reeks apparaten ontworpen om gegevens over de gewoonten van hun eigenaren te verzamelen en deze gegevens terug te sturen naar enorme datawarehouses.

Waar gaan we het opslaan?

Voor marketeers is deze toename van de hoeveelheid beschikbare gegevens over de gemiddelde consument ongetwijfeld een enorm voordeel geweest en heeft het een revolutie teweeggebracht in de marketingindustrie. Voor netwerkingenieurs was de explosie van datavolumes minder gunstig. Dat komt omdat al deze gegevens ergens moeten worden opgeslagen en we kunnen de limiet naderen van wat mogelijk is met traditionele manieren om dat te doen.

Om te zien waarom, is het de moeite waard om een ​​idee te krijgen van hoeveel gegevens we het hebben. In zijn Data Age 2025-rapport voor Seagate voorspelt IDC dat de wereldwijde datasfeer zal bereiken 175 zettabytes tegen 2025. Dat klopt, we meten nu in zettabytes.

Het zou een understatement zijn om te zeggen dat de systemen die momenteel worden gebruikt om deze gegevens op te slaan en te beheren, verouderd zijn. Tot voor kort werden de uitdagingen op het gebied van de verwerking van big data grotendeels aangepakt via de inzet van open-source ecosystemen, zoals Hadoop en NoSQL. Deze open source-technologieën vereisen echter handmatige configuratie en probleemoplossing, wat voor de meeste bedrijven nogal gecompliceerd kan zijn.

Dit was de belangrijkste reden dat bedrijven zo’n tien jaar geleden begonnen met het migreren van big data naar de cloud. Sindsdien hebben AWS, Microsoft Azure en Google Cloud Platform de manier veranderd waarop big data wordt opgeslagen en verwerkt. Vroeger, toen bedrijven data-intensieve apps wilden draaien, moesten ze hun eigen datacenters fysiek vergroten. Nu, met pay-as-you-go-services, biedt cloudinfrastructuur flexibiliteit, schaalbaarheid en gebruiksgemak.

Big data en slimme data

Zoals we eerder hebben opgemerkt, maakt de mogelijkheid om enorme hoeveelheden gegevens op te slaan op zichzelf de gegevens niet bruikbaar. Het cruciale feit om hier te onthouden is dat er een verschil is tussen big data en slimme data; de eerste is slechts zettabytes aan ongestructureerde gegevens, terwijl de laatste nuttige intelligentie is.

Net zoals de noodzaak om voorheen ongehoorde hoeveelheden gegevens op te slaan leidde tot een revolutie in de manier waarop bedrijven met IT werkten, zal de mogelijkheid om betekenis uit big data te halen waarschijnlijk leiden tot fundamentele veranderingen in de manier waarop we omgaan met technologie.

Op dit moment zijn de meeste analisten van mening dat de enige manier waarop we met de enorme datasets van de toekomst zal zijn via AI-proxy’s. Naarmate de hoeveelheid beschikbare gegevens het vermogen van de mensheid om ermee te werken overtreft, zullen AI’s een noodzaak worden.

In veel opzichten is het vreemd dat deze verschuiving nog niet heeft plaatsgevonden. AI-platforms bestaan ​​al een decennium en veel zijn gebaseerd op open-sourcearchitecturen waarmee in theorie elk bedrijf ze kan implementeren. Helaas heeft een gebrek aan expertise velen ervan weerhouden dit te doen. De dingen zijn echter aan het veranderen. AI-leveranciers zijn begonnen met het bouwen van connectoren voor open-source AI- en ML-platforms en bieden betaalbare oplossingen die geen complexe configuraties vereisen. Bovendien bieden commerciële leveranciers de functies die open-sourceplatforms momenteel missen, zoals ML-modelbeheer en hergebruik.

De gevaren

Terwijl deze volgende transformatie zich ontvouwt, moeten we de tijd nemen om van de laatste te leren. De ethische implicaties van big data-acquisitiesystemen, die automatisch biljoenen datapunten van miljarden internetgebruikers verzamelden en opslaan, worden pas erkend.

We moeten niet dezelfde fout maken met AI-systemen. Er zijn enkele veelbelovende signalen: giganten zoals Google en IBM dringen al aan op meer transparantie door hun machine learning-modellen te bouwen met technologieën die bias monitoren. Om het potentieel van big data te benutten, hebben we echter veel meer nodig dan geavanceerde AI’s en grotere opslagcentra. We hebben ook een ethisch kader nodig voor wanneer, waarom en hoe deze gegevens kunnen worden gebruikt.