De opkomst van Open Analytics

Klik voor meer informatie over auteur Dipti Borkar.

Aangezien bedrijven steeds meer datagestuurd worden en snellere, beter geïnformeerde beslissingen moeten nemen, wordt de traditionele datawarehousing-benadering voor toegang tot en analyse van gegevens steeds onpraktischer, tijdrovender en zal deze waarschijnlijk de kosten, inspanningen en vendor lock-in verhogen. . Het gaat ervan uit dat gegevens moeten worden opgenomen en geïntegreerd in één database om de kritische zakelijke inzichten voor besluitvorming te bieden. Toch zijn deze datawarehousing-systemen closed source, met data opgeslagen in propriëtaire formaten, en zijn ze vaak erg duur.

Afbeelding tegoed: Ahana

Een typische organisatie heeft tegenwoordig gegevens in meerdere systemen en de meeste van die gegevens staan ​​nu in de cloud, of zullen dat binnenkort zijn. De gegevens zijn meestal een mix van gestructureerd en ongestructureerd, statisch en streaming en in veel verschillende formaten. De gegevens zijn verspreid datawarehouses, open source databases, eigen databases, datameren, cloud warehouses, documentstores en objectopslag. Analyses uitvoeren op deze gevarieerde en toenemende hoeveelheid gegevens is een hogere prioriteit geworden om zaken te doen, en het consolideren van alles in een monolithisch systeem heeft niet langer de voorkeur.

Een alternatieve aanpak die inmiddels breed wordt ingezet door de meest innovatieve, datagestuurde technologie Bedrijven – Facebook, Twitter, Uber, Netflix en anderen – bestaan ​​uit een losjes gekoppelde, uitgesplitste stapel die het mogelijk maakt om vele databases en datameren te doorzoeken, zonder de gegevens te hoeven verplaatsen. Presto wordt gebruikt om gegevens rechtstreeks op een data lake op te vragen zonder dat transformatie nodig is; uw gegevens kunnen ter plaatse worden opgevraagd. U kunt elk type gegevens in uw datameer opvragen, zowel gestructureerde als ongestructureerde gegevens.

Afbeelding tegoed: Ahana

Deze nieuwe moderne open analysearchitectuur is gebouwd op open source PrestoDB, een federatieve, uitbreidbare gedistribueerde query-engine, gemaakt en open source door Facebook. Het ondersteunt insteekbare connectoren om toegang te krijgen tot gegevens van externe gegevensbronnen en om gegevens naar die externe gegevensbronnen te schrijven, ongeacht waar ze zich bevinden. Deze connectoren zijn voor databases, objectarchieven, datameren, streaming data, bijna elk datasysteem. Presto gebruiken als de query-engine in een opgesplitste stack is de voorkeursaanpak geworden voor deze geavanceerde technologiebedrijven – die genoeg geld hebben om welk systeem ze ook te kopen willen – omdat het niet alleen de realiteit van de huidige gegevens behandelt, maar ook open staat.

Afbeelding tegoed: Ahana

Open Analytics is open source, open formaten, open interfaces en open cloud.

Open source

PrestoDB wordt beheerd door de Presto Foundation onder auspiciën van The Linux Foundation, en is volledig open source onder de Apache 2.0-licentie. Het is het belangrijkste open source-project van Presto. Het was en wordt nog steeds ontwikkeld op hun openbare Github-account, en zelfs Facebook draagt ​​hun nieuwe reguliere functies bij. Dit betekent dat Facebook dezelfde versie van de code gebruikt die u zelf gratis kunt downloaden en gebruiken. Facebook en vele andere bedrijven zijn voortdurend bezig met het testen en verbeteren van Presto, waarbij ze de collectieve kracht van een gemeenschap gebruiken die samenwerkt om snelle ontwikkeling en probleemoplossing te bieden. U profiteert van deze innovaties – niet alleen van één leverancier, maar van de hele gemeenschap.

Open formaten

PrestoDB gebruikt geen eigen indelingen. In feite ondersteunt het de meeste gangbare formaten. Met de Hive-connector kan Presto gegevens lezen uit dezelfde schema’s en tabellen met dezelfde gegevensindelingen: Apache ORC, Avro, Apache Parquet, JSON en meer. In feite verwijst de Hive-connector naar de Bijenkorf metastore. Met de Hive-connector kan Presto elk datameer opvragen via een metadatacatalogus, of dat nu een Hive-metastore is of een andere catalogus zoals Amazon Glue. Hiermee kunt u gegevens opvragen met dezelfde metagegevens die u zou gebruiken om te communiceren met HDFS of Amazon S3. De metadatacatalogusintegratie is een zeer belangrijk aspect van een gedesaggregeerde computationele engine, omdat dit is wat bestanden die zijn opgeslagen in datameren in databases, tabellen en kolommen toewijst en het mogelijk maakt dat SQL wordt toegepast op querybestanden.

Open interfaces

Door te voldoen aan de ANSI SQL-standaard, zorgt PrestoDB voor naadloze integratie met bestaande SQL-systemen. SQL-analyse is essentieel, aangezien SQL de lingua franca van datasystemen is geworden en nog steeds in populariteit toeneemt. SQL is de meest gangbare manier om met elke database te werken. Het is gemakkelijk te leren en biedt een brede interoperabiliteit voor de meeste databases. Bovendien kunnen standaard JDBC / ODBC-stuurprogramma’s worden gebruikt om verbinding te maken met vrijwel elke rapportage- / dashboarding- / notebooktool. En omdat het open source is, worden er nog steeds taalclausules toegevoegd en uitgebreid.

Open Cloud

PrestoDB is cloud-agnostisch en werkt als een query-engine zonder opslag, is native uitgelijnd met containers en kan op elke cloud worden uitgevoerd. U kunt Presto uitvoeren via Amazon Elastic MapReduce (EMR) en Google Dataproc. Amazon Athena, een serverloze, interactieve zoekservice om gegevens op te vragen en big data te analyseren in Amazon S3 met behulp van standaard SQL, is gebouwd op Presto. Andere leveranciers bieden Presto aan als een beheerde service, zoals Ahana, die het gemakkelijker maken om meerdere Presto-clusters op te zetten en te bedienen voor verschillende gebruiksscenario’s.

We hebben gehoord dat bedrijven de voorkeur geven aan deze open analysebenadering in vergelijking met de eigen formaten en technologische lock-in die horen bij de traditionele benadering van datawarehousing. Wat denk je? Welke voordelen ziet u voor uw organisatie? Zijn er uitdagingen bij het implementeren van een open analyse-aanpak?

follow:
Jernst van Veen

Jernst van Veen

Related Posts

Een korte geschiedenis van gegevensbeheer

Datamanagement is de organisatie van gegevens, de stappen die worden gebruikt om efficiëntie te bereiken en informatie uit die gegevens

Een korte geschiedenis van gegevensbeheer

Datamanagement is de organisatie van gegevens, de stappen die worden gebruikt om efficiëntie te bereiken en informatie uit die gegevens