Het werk van data-engineers is buitengewoon technisch. Ze zijn verantwoordelijk voor het ontwerpen en onderhouden van het architectuur van datasystemen, dat concepten omvat die variëren van analytische infrastructuren tot datawarehouses. Data-ingenieurs moeten een gedegen kennis hebben van veelgebruikte scripttalen en zullen naar verwachting de gestage evolutie van verbeterde datakwaliteit en grotere kwantiteit ondersteunen door gebruik te maken en te verbeteren van data-analysesystemen. Data-ingenieurs zijn ook verantwoordelijk voor het creëren van de stappen en processen die worden gebruikt bij het modelleren, mijnbouw, verificatie en acquisitie.
De vraag naar bekwame data-engineers zal naar verwachting snel groeien. In de moderne wereld hebben bedrijven en organisaties behoefte aan een robuust Data-architectuur voor het opslaan en openen van gegevens. Data-engineers zijn nodig wanneer een organisatie uitbreidt naar het gebruik van Data Science. Daarom is er recentelijk een run op data-ingenieurs geweest.
Een organisatie mag ervan uitgaan dat ze de vaardigheden en ervaring op het gebied van data engineering kan ontwikkelen die nodig zijn tijdens het uitvoeren van een project. Volgens Kevin Safford, een senior director bij Bloemscherm, hebben ze meestal ongelijk. Hij voegde toe:
“Als je geen specifieke zuurverdiende praktijkervaring hebt met het bouwen van een datapijplijn, een datamanagementsysteem, data-analyse en alle tussenliggende code om de data beschikbaar en toegankelijk te maken en ervoor te zorgen dat de gegevens kloppen, om er zeker van te zijn dat de analyse die u uitvoert correct is – als u niet over die specifieke expertise beschikt, kan het lijken alsof dit het soort dingen zijn dat u gaandeweg kunt uitzoeken. En ik heb veel mensen die aannames zien doen. Ze hebben vrijwel altijd ongelijk en ze maken vrijwel altijd dezelfde fouten. “
Data Engineer versus Data Scientist
De vaardigheden en verantwoordelijkheden van de datawetenschappers en data-ingenieurs overlappen elkaar vaak, hoewel de twee posities steeds meer gescheiden worden in verschillende rollen. Datawetenschappers richten zich meestal op de vertaling van big data in Business Intelligence, terwijl data-engineers zich veel meer richten op het bouwen van de data-architectuur en infrastructuur voor het genereren van data. Datawetenschappers hebben data-engineers nodig om de omgeving en infrastructuur te creëren waarin ze werken.
Een datawetenschapper is meer gericht op interactie met de infrastructuur dan op het bouwen en onderhouden ervan. Datawetenschappers krijgen de verantwoordelijkheid om ruwe data te nemen en deze om te zetten in bruikbare, begrijpelijke en bruikbare informatie. Datawetenschappers werken met big data en data-ingenieurs werken met data-infrastructuren en fundamenten.
Gegevensfundamenten
EEN gegevensverzameling ondersteunt alle soorten rapportage en analyse. Het doel van een data-engineer is om betrouwbare, geïntegreerde en up-to-date data te leveren ter ondersteuning van rapportage en analyse. Een robuuste gegevensverzameling biedt organisaties enorme voordelen, waardoor ze efficiënter kunnen handelen en beslissen. Handige voordelen zijn:
- Verbetering van de communicatie en samenwerking van organisaties
- One-stop-shopping voor data
- Een enkele versie van de bijgehouden records
- Ondersteuning van een gemeenschappelijk begrip van informatie in de hele onderneming
Door geen efficiënte gegevensverzameling te implementeren, verhoogt een moderne organisatie haar eigen beveiligingsrisico’s en ondersteunt zij inefficiënties binnen de organisatie. Een slechte gegevensbasis kan meerdere antwoorden op dezelfde vraag bieden en minder dan intelligente zakelijke beslissingen ondersteunen.
Big Data Engineering-vaardigheden
Data-engineers hebben een goed begrip van Database Management nodig, inclusief een grondige kennis van Structured Query Language (SQL). Ze bouwen infrastructuren, tools, frameworks en services. Sommigen zijn van mening dat data-engineering meer lijkt op software-engineering en app-ontwikkeling dan op Data Science. Andere nuttige vaardigheden zijn:
- Ervaring met Apache Hadoop, Hive, MapReduce en Hbase.
- Machine leren (ML) is in de eerste plaats de focus van datawetenschappers, maar enig begrip ervan is ook belangrijk voor data engineering. ML is nauw verbonden met big data. (ML heeft de verwerking van big data gestroomlijnd en ondersteunt vele technieken om met big data om te gaan en er betekenis aan te geven.)
- Codeerkennis is zeker een pluspunt. Bekendheid met C / C ++, Java, Python, Perl, Golang of andere talen kan erg handig zijn. Een goed begrip van Linux, UNIX en Solaris is ook erg nuttig, aangezien deze systemen aanzienlijke root-toegang hebben tot de functionaliteit van het besturingssysteem en hardware.
- ETL (extraheren, transformeren en laden) ervaring is een noodzaak voor deze functie. ETL is een datawarehousing-proces dat wordt gebruikt om gegevens uit bronsystemen te halen en vervolgens op te slaan in een datawarehouse. Bekendheid met ETL-tools, zoals Segment of Oracle Warehouse Builderen oplossingen voor gegevensopslag, zoals Panoply of Roodverschuiving, is heel waardevol.
ETL (extraheren, transformeren en laden)
In de wereld van computers, ETL wordt gebruikt in databases en magazijnbouw. Extraheren, transformeren en laden werd populair in de jaren zeventig. Gegevensextractie beschrijft gegevens die worden geëxtraheerd uit homogene of heterogene gegevensbronnen. Datatransformatie geeft aan dat gegevens worden vertaald naar de juiste structuur of formaat voor opslagdoeleinden (en later voor onderzoek en analyse). Het laden van gegevens is het downloaden van de vertaalde gegevens naar een datamart, een datastore of een datawarehouse.
Een goed ontworpen ETL-systeem kan gegevens uit bronsystemen extraheren en gegevensconsistentie en kwaliteitsnormen afdwingen. Het kan ook gegevens leveren in een formaat dat klaar is voor presentatie, zodat ontwikkelaars een applicatie kunnen bouwen, waarbij eindgebruikers de waarde ervan bepalen.
ETL-systemen integreren traditioneel gegevens van verschillende applicaties en van verschillende leveranciers en computerhardware. Afzonderlijke systemen, die de originele gegevens bevatten, worden vaak bediend en gecontroleerd door verschillende mensen. Een manager van het salarisadministratiesysteem kan bijvoorbeeld de gegevens van verkoop en inkoop combineren.
Datawarehouses
Een datawarehouse wordt gebruikt voor opslag, rapportage en data-analyse. Het is essentieel bij de ontwikkeling van modern Bedrijfsintelligentie. Datawarehouses worden gebruikt voor de gecentraliseerde opslag van geïntegreerde data afkomstig uit een of meer bronnen. Ze slaan zowel actuele als historische gegevens op, die worden gebruikt voor het ontwikkelen van analytische rapporten.
Zonder datawarehouses (of hun bijgewerkte architecturale tegenhanger datameren), wordt de verwerking van big data – en elke activiteit die verband houdt met Data Science – belachelijk duur of onschaalbaar. Zonder een intelligent ontworpen datawarehouse zouden analisten gemakkelijk verschillende resultaten kunnen rapporteren, nadat ze dezelfde vraag hebben onderzocht. Ze kunnen ook onbedoeld proberen de productiedatabase te onderzoeken (zonder dat er een datawarehouse is) en vertragingen of storingen veroorzaken.
Data Engineer worden
Over het algemeen wordt een data-engineer geleverd met een informatietechnologie- of computerwetenschappelijk diploma in combinatie met certificeringen en andere trainingen. Scholen voor datatechniek benaderen onderwijs doorgaans flexibeler, vanwege de meer geïndividualiseerde eisen van elke werkomgeving.
Het diploma en de gespecialiseerde opleiding zijn belangrijk, maar alleen niet voldoende. Aanvullende certificeringen kunnen zeer waardevol zijn. Nuttige certificeringen voor data engineering zijn onder meer:
- CCP Data Engineer (Cloudera’s Certified Data Engineer-referentie) – dit levert bewijs van ervaring met ETL-tools en -analyses.
- Google’s certificering – dit vestigt de bekendheid met basisvaardigheden op het gebied van Data Engineering.
- IBM Certified Data Engineer (voor Big Data) – dit communiceert ervaring met het werken met Big Data-applicaties.
Secundaire certificeringen zijn ook beschikbaar. Bijvoorbeeld de MCSE (Microsoft Certified Solutions Expert) bestrijkt een breed scala aan onderwerpen en past subcertificeringen toe op specifieke onderwerpen, waaronder MCSE: Data Management and Analytics; MCSA: Business Intelligence Reporting; en MCSA: Microsoft Cloud Platform. Bovendien kunnen evenementen in de data-industrie een uitstekende bron van training en opleiding zijn (en een uitstekende gelegenheid bieden om te netwerken). Online cursussen kunnen ook nuttige trainingen bieden voor specifieke situaties, er zijn er veel beschikbaar.
Afbeelding gebruikt onder licentie van Shutterstock.com