Tien veelvoorkomende problemen bij het gebruik van Excel voor gegevensbewerkingen

Klik voor meer informatie over co-auteur Rosaria Silipo.

Excel gebruiken om uw gegevens te transformeren / analyseren?

Ik weet dat u nog steeds Excel-sheets gebruikt om uw gegevens te transformeren en / of te analyseren! Ik weet het, omdat de meesten van ons het tot op zekere hoogte nog steeds gebruiken. Er is niets mis met het gebruik van Excel. Excel-spreadsheets zijn een geweldig hulpmiddel om kleine hoeveelheden gegevens te verzamelen en om te zetten. Wanneer het spel echter moeilijker wordt en grotere hoeveelheden gegevens vereist, begint Excel zijn beperkingen te vertonen.

Je gelooft me niet? Laten we dan beginnen met de lijst met de meest voorkomende problemen bij het werken met een Excel-spreadsheet om gegevens te transformeren. Voor dit bericht heb ik antwoorden van collega-datawetenschappers gebruikt in deze thread op LinkedIn. Bedankt aan iedereen voor hun bijdrage!

1. Geen foutcontrole

Een belangrijk probleem dat uit veel gesprekken met collega’s naar voren kwam datawetenschappers: Excel-spreadsheets hebben geen foutcontrole en zijn daarom foutgevoelig.

Volgens Meta Brown en Karen Hardie:

“Het is gemakkelijk om per ongeluk een cel te veranderen of fouten te maken – ik heb mensen plotseling zien beseffen dat een macro verkeerd was door een cel nadat ze het proces lange tijd hebben gebruikt, en dan terug moeten gaan om erachter te komen wanneer dat is gebeurd.”

Er is geen debugging-tool en geen testframe om te controleren of alle cellen blijven werken zoals verwacht, bijvoorbeeld na een wijziging.

John Peck merkte ook op dat:

“Excel is geweldig voor eenvoudige, ad-hocberekeningen, maar het gebrek aan structuur en de moeilijkheid bij het automatiseren en documenteren van de inhoud maken het foutgevoelig bij het gebruik ervan. Analyses die in Excel zijn gebouwd, hebben de neiging om te groeien en uit te breiden, waardoor ze moeilijk te valideren en te gebruiken zijn voor repetitieve taken. “

Deze laatste hint over de moeilijkheid om Excel-spreadsheets te gebruiken voor repetitieve taken, brengt ons naar uitgave # 2.

2. Weinig herbruikbaarheid

Deze komt uit de pool van mijn eigen persoonlijke fouten bij het gebruik van Excel-spreadsheets voor professioneel gegevensbeheer. Het had te maken met de gegevensinvoer. Meestal worden gegevens opgeslagen in een of meer bronkolommen in een Excel-spreadsheet, terwijl de andere kolommen de macro’s en formules bevatten voor de verwerking. Welnu, vaak werden bij het hergebruik van de spreadsheet voor de analyse van de huidige maand de nieuwe gegevens gekopieerd en handmatig in de speciale bronkolom (men) geplakt. Aangezien de gegevensrijen voor de huidige maand echter meestal meer waren dan de gegevensrijen van de vorige maand, zou het pure kopiëren / plakken van de gegevens delen van het blad beslaan waar nog geen macro’s waren gedefinieerd, waardoor verkeerde niet-geverifieerde sommen en macro’s werden geproduceerd. resultaten.

Het ontbreken van een geverifieerde, betrouwbare, repetitieve manier om gegevens uit meerdere bronnen te verzamelen, maakt herbruikbaarheid beperkt tot zeer eenvoudige processen.

En als u erover denkt om Excel als gegevensbron te gebruiken: Roger Fried waarschuwt ervoor!

3. Problematische schaalbaarheid

Bij professionele data-wrangling-projecten hebben we meestal te maken met zeer grote hoeveelheden gegevens. Daarom is schaalbaarheid vaak een punt van zorg bij het voortzetten van het project. Excel-spreadsheets tonen hun tekortkomingen wanneer het om grote hoeveelheden gegevens gaat.

David Langer noemt “snelheid van iteratie van analyses” als een van de belangrijkste problemen bij het gebruik van een Excel-spreadsheet voor professionele gegevenstransformaties:

“Mijn ervaring is dat de huidige beperkingen van Excel-rijen (ik negeer PowerPivot hier) in de meeste gevallen geen probleem zijn. Wat me meestal uit Excel schopt, is de snelheid van iteratie. Bijvoorbeeld bij lineaire regressiemodellering. “

Voor Giovanni Marano:

“Prestatievermindering en crashes bij het uitvoeren van bewerkingen op grote datasets” zijn een grote beperking voor serieus professioneel gebruik van Excel-spreadsheets, terwijl Anna Chaney bevestigt dat “Excel niet genoeg geheugen heeft om grotere datasets te laden.”

David Montfort wijst op het limiet in aantal verwerkbare rijen:

“Excel heeft een rijlimiet, wat een probleem kan zijn met zeer grote datasets. Andere programma’s bieden ook betere tools voor statistische en gegevensvisualisatie. “

Dus ofwel gebrek aan geheugen, limiet in aantal rijen, algemene trage uitvoeringssnelheid en prestatievermindering vormen een ernstig probleem in schaalbaarheid bij het implementeren van professionele data-wrangling- en datamanagementprojecten.

4. Lage dekking van gegevensbewerkingen

Nogmaals, Excel-spreadsheets doen het goed voor kleine gegevenssets en voor een kleinere pool van gegevensbewerkingen. Wanneer de projecten echter groter worden en meer geavanceerde gegevensbewerkingen vereisen, zijn sommige niet beschikbaar in Excel.

Alessio Nicolai en zijn collega Giovanni Marano richten zich op “ad-hoc” analyses (die geen schaalbaar proces vereisen). Ze identificeerden de volgende beperkingen in gegevensbewerkingen die beschikbaar zijn voor een Excel-spreadsheet:

  • Bewerkingen op een gefilterde dataset zijn beperkt (uitgefilterde gegevens zijn alleen ‘verborgen’)
  • Geen beschikbaarheid van tussenstappen bij datavoorbereiding (bijv. Bij filteren)
  • Formulesbeperkingen (bijv. Geen MAXIFS / MINIFS zonder het gebruik van rekenkundig dure matrixformules)
  • Afzonderlijke telling in draaitabellen is niet beschikbaar
  • Het equivalent van Joiner (Vlookup) is onhandig en staat de Full Outer-join niet toe
  • Multi-key schrijnwerkers / volledige buitenschrijnwerkers zijn niet mogelijk zonder work-arounds
  • Analyse-instrumenten (zoals regressies, correlaties) zijn veel te basaal
  • Het aantal rijen in de spreadsheet is beperkt

Amit Kulkarni voegt de moeilijkheid toe om te verwijzen naar gefilterde sets voor bijvoorbeeld vlookup-functies en Sayed Bagher Nashemi Natanzi (Milad) zou graag meer opties willen hebben voor sorteren en filteren.

5. Gebrek aan automatisering

Nauw verbonden met het gebrek aan herbruikbaarheid is de gebrek aan automatisering, zoals aangegeven door Tyler Garrett hieronder.

Kopieer- en plakbewerkingen zijn gebruikelijk bij het gebruik van Excel-spreadsheets om nieuwe gegevens, nieuwe cellen en nieuwe functies te introduceren. Dat zijn allemaal handelingen die niet geautomatiseerd kunnen worden, omdat ze de start van de tool GUI en een zekere mate van expertise vereisen. Om nieuwe waarden te berekenen, moet u Excel elke keer opnieuw openen, dergelijke handmatige bewerkingen uitvoeren en opnieuw berekenen:

“Het is geweldig voor prototyping, documentatie, input op instapniveau om een ​​ETL-, analyse- of Data Science-proces te starten, maar de waarde begint echt te verdwijnen wanneer de computer offline is. De ‘beschikbaarheid’ is afhankelijk van het feit dat computers AAN staan, de ‘validiteit’ is alleen relevant als gebruikers experts zijn (maar zelfs wij maken fouten), en het ontbreken van regels om te voorkomen dat het zuur voldoet. ”

6. Niet open

We hebben tot nu toe vaak verwezen naar een kopieer- en plakactie. Dit is natuurlijk niet de enige manier om gegevens in Excel te krijgen. U kunt verbinding maken met databases en enkele andere externe tools. Er is echter een overvloed aan gegevensbronnen, gegevenstypen en gegevensindelingen die gewoonlijk nodig zijn in het kader van een gegevenskrakersproject. De openheid van een tool stelt je in staat om een ​​aantal verschillende databronnen en -typen te verbinden, importeren en verwerken, en om scripts en workflows van andere populaire tools te integreren.

Transparantie is een ander teken van de openheid van de tool. De mogelijkheid om in een oogwenk de formules en bewerkingen snel te begrijpen is een belangrijke feature om je werk aan iemand anders door te geven of om het werk van je collega te interpreteren.

Alberto Marocchino heeft dit aangegeven als een andere fout in het gebruik van Excel-spreadsheets bij data-analyse. In het bijzonder wees hij erop dat:

  • U weet niet of een cel een formule of een waarde bevat (gegevens en analyse worden samengevoegd)
  • Formules zijn verborgen in cellen
  • Er is geen directe pijplijn voor het exporteren van dashboards
  • Het duwt gegevenscorrectie terug naar een DB

“Excel kan een geweldig hulpmiddel zijn, het hangt af van het gebruik. Het is een algemeen doel en aangezien de meeste computergebruikers bij Windows blijven, is het een native manier om visueel met CSV te communiceren. Maar waarschijnlijk is ‘algemene tool’ niet per se een synoniem voor kwaliteit als het gaat om hardcore data-analyse. “

Deze moeilijkheid bij het documenteren en communiceren van wat er in de Excel-spreadsheet gebeurt, brengt ons direct naar het volgende probleem.

7. Moeilijke samenwerking

Tegenwoordig geen data scientist of data engineer werkt alleen meer. We maken allemaal deel uit van grotere of kleinere labs en we moeten allemaal communiceren over de applicaties die we bouwen. Teamdebugging, functiediscussies, best practices, documentatie zijn allemaal noodzakelijke taken in het dagelijkse werk. Excel is echt niet gemaakt voor samenwerking in grote teams.

Het bevindt zich op uw lokale computer, bij voorkeur als host voor een Windows-besturingssysteem. Het kan wat extra moeite kosten om de spreadsheet al naar een Mac te exporteren.

David Springer wijst op het “grootste probleem met Excel bij het verwerken van gegevens als meestal het standaard, niet-draagbare, eigen gegevensformaat”.

Documentatie is een groot onderdeel van samenwerking. Michael Reithel merkt op dat:

“Handmatige aanpassingen aan een spreadsheet zijn vaak niet gedocumenteerd en gaan na verloop van tijd verloren, waardoor het moeilijk is om resultaten te reproduceren.”

Dat zijn slechts een paar problemen die het moeilijk maken om samen te werken rond Excel.

8. Tijdrovend

Het gebrek aan schaalbaarheid, de handmatige bewerkingen, de beperkingen in de hoeveelheid gegevens maken het hele proces rond een Excel-spreadsheet behoorlijk tijdrovend, zoals gerapporteerd door Hrvoje Gabelica en Tyler Garrett.

Beide zijn bemoedigend om andere oplossingen te onderzoeken die automatisering, planning, openheid en betere schaalbaarheid mogelijk maken.

9. Niet gebruiksvriendelijk

Al met al is een Excel-spreadsheet niet gebruiksvriendelijk. Het lijkt in het begin gemakkelijk te gebruiken bij het verplaatsen van de eerste stappen in de wereld van gegevensverwerking. Wanneer echter complexere handelingen nodig zijn, wanneer samenwerking van pas komt, blijkt het toch niet zo gebruiksvriendelijk te zijn.

Giovanni Marano noemt daarvoor twee belangrijke redenen:

  • Excel’s macro’s voor herhaalde processen zijn niet gebruiksvriendelijk en moeilijk te coderen / debuggen in VBA
  • Wanneer meerdere formules / bewerkingen in een spreadsheet zijn ingesteld, heb je geen eenvoudig overzicht van de onderlinge afhankelijkheden en – tenzij je complexe VBA-codering gebruikt – moet je de hele uitvoering in één keer uitvoeren

Evert Homan zegt dat het draaien van gegevens in Excel omslachtig is. Ik zou hieraan willen toevoegen dat het gebrek aan overzicht en de moeilijkheid om documentatie te introduceren de gegevensverwerking in Excel behoorlijk gebruikersvriendelijk maakt, zelfs voor eenvoudige taken.

We kunnen besluiten met de uitspraak van Davide Imperati: “Het is het perfecte apparaat om corrupte gegevens te genereren”, aangezien we de verwerkingsfuncties niet altijd begrijpen.

10. Productie is moeilijk

Eindelijk, na implementatie, moeten we onze applicatie in productie brengen. Zonder planning, automatische import van nieuwe gegevens, uit veel verschillende gegevensbronnen, automatische reset van macro’s voordat ze opnieuw worden uitgevoerd, kan het overgaan naar productie een behoorlijk moeilijke taak zijn.

Hierdoor blijft Excel een uitstekende tool voor kleine datasets en misschien prototyping, maar ongeschikt voor professionele datamanagementprojecten.

Probeer iets nieuws

Dit zijn slechts de tien meest voorkomende problemen waarmee data-ingenieurs te maken hebben bij het werken met Excel-spreadsheets om hun gegevens op te slaan, op te schonen en te transformeren. Als je nog steeds verslaafd bent aan Excel en vecht om de gegevens in het juiste formaat te krijgen, probeer dan een paar alternatieve oplossingen voor gegevensanalyse te onderzoeken. Niet alles Data Science tools vereisen programmeer- of scriptvaardigheden. Sommige zijn gebaseerd op visuele programmering, waarbij het slepen en neerzetten van visuele pictogrammen en hun verbinding met een pijplijn de plaats innemen van scripts.

Met behulp van een open source en open software voor gegevensanalyse, met meer dan duizenden gegevensbewerkingen is een geweldige optie. Het kan uw gegevens van de meeste bronnen en de meeste formaten meenemen naar elke gewenste vorm en uw resultaten exporteren in de meeste beschikbare formaten op de meeste beschikbare platforms (open). Het is gebaseerd op een grafische gebruikersinterface (GUI) waar u door middel van slepen en neerzetten eenvoudig een pijplijn van bewerkingen kunt samenstellen (de zogenaamde “workflow”), die op elk moment kan worden hergebruikt. Dankzij de GUI is het gemakkelijk om documentatie en functionaliteit binnen hetzelfde project te combineren. Het maakt ook eenvoudige productie, samenwerking, delen, planning en automatisering mogelijk.

follow:
Jernst van Veen

Jernst van Veen

Related Posts

Een korte geschiedenis van gegevensbeheer

Datamanagement is de organisatie van gegevens, de stappen die worden gebruikt om efficiëntie te bereiken en informatie uit die gegevens

Datakans klopt! Moet je antwoorden?

Klik voor meer informatie over auteur Kartik Patel. Als zakenmensen krijgen we vaak te maken met wat misschien een geweldige

Een korte geschiedenis van gegevensbeheer

Datamanagement is de organisatie van gegevens, de stappen die worden gebruikt om efficiëntie te bereiken en informatie uit die gegevens

Datakans klopt! Moet je antwoorden?

Klik voor meer informatie over auteur Kartik Patel. Als zakenmensen krijgen we vaak te maken met wat misschien een geweldige