Gegevens transformeren met Apache Spark

Apache Spark is een raamwerk voor snelle gegevensverwerking dat zich toelegt op big data. Het maakt de verwerking van big data op een gedistribueerde manier mogelijk (clustercomputing). Dit framework is al een paar jaar erg populair en staat op het punt Hadoop te vervangen. De belangrijkste voordelen zijn de snelheid, het gebruiksgemak en de veelzijdigheid.

Apache Spark is een open source framework voor big data-verwerking dat grootschalige analyse via geclusterde machines mogelijk maakt. Spark, gecodeerd in Scala, maakt het mogelijk om gegevens te verwerken uit gegevensbronnen zoals Hadoop Distributed File System, NoSQL-databases of relationele gegevensopslag zoals Apache Hive. Dit framework ondersteunt ook verwerking in het geheugen, waardoor de prestaties van analytische toepassingen van big data toenemen. Het kan ook worden gebruikt voor conventionele schijfverwerking als de gegevenssets te groot zijn voor het systeemgeheugen.

Apache Spark-definitie: Big data als de belangrijkste applicatie

Apache Spark is een open source framework voor big data-verwerking dat is gebouwd om geavanceerde analyses uit te voeren en is ontworpen voor snelheid en gebruiksgemak. Het is oorspronkelijk ontwikkeld door AMPLab, UC Berkeley University, in 2009 en is in 2010 open source als een Apache-project doorgegeven.

Spark heeft verschillende voordelen ten opzichte van andere big data-technologieën en MapReduce zoals Hadoop en Storm. Ten eerste biedt Spark een alomvattend en uniform raamwerk om te voldoen aan de behoeften van big data-verwerking voor verschillende datasets, verschillend door hun aard (tekst, grafiek, enz.) Alsook door het type bron (batch of tijdstroom) -realistisch ). Vervolgens zorgt Spark ervoor dat applicaties op Hadoop-clusters tot 100 keer sneller in het geheugen kunnen worden uitgevoerd, en 10 keer sneller op schijf. Het stelt je in staat om snel applicaties te schrijven in Java, Scala of Python en bevat een spel van meer dan 80 high-level operators. Bovendien kan het interactief worden gebruikt om gegevens uit een shell op te vragen.

Naast Map and Reduce-bewerkingen ondersteunt Spark SQL-query’s en datastreaming en biedt het machine learning en grafiekgeoriënteerde verwerkingsmogelijkheden. Ontwikkelaars kunnen deze mogelijkheden stand-alone gebruiken of door ze te combineren tot een complexe verwerkingsketen.

Het Apache Spark-framework kan worden uitgevoerd op Hadoop 2-clusters op basis van de YARN Resource Manager of op Mesos. Het is ook mogelijk om het in stand-alone vorm of in de cloud te lanceren met de Elastic Compute Cloud-service van Amazon. Het biedt toegang tot verschillende databronnen zoals HDFS, Cassandra, HBase en S3.

Copyright © 2019 IDG Communications, Inc.