1600247230_Eva_Murray_600x448.jpg

Wat zijn GPU’s en waarom houden datawetenschappers van ze?

Klik voor meer informatie over auteur Eva Murray.

Beweeg over, CPU’s. De GPU’s zijn aangekomen in moderne ondernemingen en datawetenschappers willen ze graag gebruiken voor hun modellering en deep learning-toepassingen.

Waarom gebeurt dit en wat zijn de voordelen van GPU’s voor Data Science-toepassingen? Lees verder en kom erachter.

Wat zijn GPU’s?

GPU’s, of grafische verwerkingseenheden, worden al decennia lang in de game-industrie gebruikt en werden populairder toen Sony de term voor het eerst gebruikte met betrekking tot zijn PlayStation-console. Ze zijn essentieel geweest voor de snelle weergave en verwerking van computerspellen en hebben de ervaring voor gamers radicaal veranderd naarmate de graphics steeds gedetailleerder, genuanceerder en realistischer werden.

Hoewel GPU’s zijn ontworpen om afbeeldingen weer te geven door middel van snelle wiskundige berekeningen, is het deze krachtige verwerking die ze aantrekkelijk maakt voor Data Science. Het stelt AI in staat om te leren van beelden en geluiden, door enorme hoeveelheden beeld- en geluidsingangen te gebruiken voor deze diepe leerprocessen.

Om dit te realiseren, voeden GPU’s neurale netwerken die op schaal worden getraind, zodat eindgebruikers kunnen genieten van beeld-, video- en spraakgebaseerde applicaties, evenals de aanbevelingsengines die zo velen van ons gebruiken, of het nu gaat om het vinden van een goed restaurant of onze nieuwe favoriete sneakers.

Hoe hebben GPU’s invloed op de datawetenschap?

We zijn allemaal bekend met de noodzaak van een goede verwerkingskracht om ons werk gedaan te krijgen. Dat geldt zowel voor onze laptops en desktopcomputers als voor grotere infrastructuur zoals servers, switches en natuurlijk het netwerk waarop we allemaal vertrouwen.

De term CPU, centrale verwerkingseenheid, is gemeengoed en beschrijft de hoofdprocessor in een computer, het “brein” van de machine die instructies en programma’s uitvoert.

In Data Science, Python-bibliotheken zijn steeds efficiënter geworden in het gebruik van de bestaande beschikbare CPU-kracht. Als u echter met honderden miljoenen of zelfs miljarden records wilt werken en diepgaande leerapplicaties wilt uitvoeren, zijn CPU’s niet voldoende.

Enter: GPU’s met hun krachtige parallelle verwerkingsarchitectuur, waarmee organisaties bijvoorbeeld prognosemodellen kunnen uitvoeren voor miljoenen mogelijke productcombinaties voor hun winkels om hun magazijnactiviteiten te informeren, plannen en optimaliseren.

GPU’s en de kracht die ze naar Data Science brengen, openen nieuwe kansen voor datawetenschappers, analyse-afdelingen, en de organisatie als geheel.

CPU’s verwerken sequentieel, terwijl GPU’s parallel worden verwerkt. Dus zelfs een groot cluster van CPU’s kan niet dezelfde prestaties behalen als de juiste architectuur van GPU’s voor het trainen van deep learning-algoritmen.

GPU’s

Stel je nu deze geoptimaliseerde parallelle architectuur van GPU’s voor, gecombineerd met de massaal parallelle verwerking die in je database is ingebouwd. Uw databasesoftware en -hardware zijn nu perfect afgestemd op de AI-taken die u wilt uitvoeren, waarbij beide van elkaar profiteren en elkaar optimaal benutten.

Om de prestaties van onze database die op GPU’s draait te testen, hebben we een model getraind in TensorFlow, met behulp van een dataset van fine food-recensies van Amazon. De dataset bevat meer dan 500.000 beoordelingen van meer dan 10 jaar. Ons model is ontworpen om de score voor elk product te voorspellen op basis van de tekst van de recensie, waar we het sentiment willen analyseren. We kunnen dan de voorspelde score vergelijken met de werkelijke score die beschikbaar is in de gegevens maar niet wordt gebruikt in de training.

De dataset bevat categorische, numerieke en tekstdata, wat het een mooie uitdaging maakt voor ons model, dat gebaseerd is op een voorgetraind model in TensorFlow, genaamd Universal Sentence Encoder. De complexiteit van de dataset zorgt voor een interessante use case voor GPU’s, omdat niet alleen de verschillende datatypes specifieke coderingsstrategieën vereisen, maar de grote hoeveelheid tekst vereist ook een groot model, wat een goede test zal zijn voor onze GPU’s.

Als je wilt leren hoe je een TensorFlow-model traint in UDF’s op GPU’s, ga dan naar deze gids op GitHub.

De resultaten

Voor onze tests hebben we de volgende instellingen gebruikt op Google Cloud Platform (regio: Iowa):

  • 1x NVIDIA Tesla K80
  • 1x NVIDIA Tesla V100
  • 1x CPU met 8 kernen
  • 1x CPU met 32 ​​kernen

Bij het vergelijken van de prestaties van GPU’s en CPU’s voor het trainen van ons model, voltooide de K80 elk tijdperk 9,9 keer sneller (72 sec versus 710 sec) dan de CPU met 8 cores en 2,9 keer sneller (72 sec versus 210 sec) dan de CPU met 32 ​​cores.

De V100, de meest geavanceerde GPU die momenteel beschikbaar is in de cloud, voltooide elk tijdperk 28,4 keer sneller (25 sec versus 710 sec) dan de 8-core CPU en 8,4 keer sneller (25 sec versus 210 sec) dan de 32-core CPU.

Deze resultaten spreken voor zich en bieden onze klanten en gebruikers echte kansen om hun Data Science-applicaties rechtstreeks naar de database te verplaatsen.

Wat zijn de kansen voor GPU’s in Data Science en Analytics?

GPU’s zijn essentieel voor datawetenschappers die met grote datavolumes werken aan het ontwikkelen, trainen en verfijnen van hun modellen. Ze bieden een meer kosteneffectieve optie voor het laden en manipuleren van gegevens op deze schaal dan CPU’s en behalen daarom het dubbele voordeel van lagere infrastructuurkosten in combinatie met verbeterde prestaties.

Gezien de vraag naar datawetenschappers in de markt en de waarde die organisaties zouden moeten hechten aan hun vaardigheden, bieden GPU’s geweldige kansen om datawetenschappers in staat te stellen meer tijd te besteden aan taken met toegevoegde waarde en ervaar minder frustraties als gevolg van traag presterende systemen en tools.

GPU’s bieden deze voordelen overal waar een organisatie gegevens heeft: in de cloud, op locatie of in een hybride model.

Add a Comment

Your email address will not be published. Required fields are marked *