joe-debuzna_300x224.png

Zeven belangrijke voordelen van het gebruik van op logboeken gebaseerde CDC voor gegevensreplicatie: een use case

Klik hier voor meer informatie over Joe deBuzna.

In deze blog zullen we praten over wat een wereldwijd waterbedrijf heeft bereikt met realtime gegevensreplicatie.

De watervoorraden van de wereld zijn voorbij alle voorgaande limieten, en de zwaarste uitdagingen op het gebied van industriële waterprocessen liggen nog voor ons. Een wereldwijd bedrijf op het gebied van watertechnologieën en -oplossingen (dat ik GWT zal noemen) gaat de uitdaging aan om de kosten te verlagen, te voldoen aan milieuregels en zich voor te bereiden op een evoluerende toekomst, deels met gegevens uit hun SAP-systemen.

Net als duizenden bedrijven over de hele wereld is SAP Enterprise Core Components (SAP ECC) het kernsysteem voor enterprise resource planning voor GWT. Momenteel is SAP ECC, uitgebracht in 2004 maar nog steeds ondersteund, de meest gebruikte SAP-versie. SAP ECC wordt ondersteund op een aantal verschillende databasetechnologieën, waaronder Oracle, SQL Server, DB2, Sybase (nu eigendom van SAP) en SAP HANA. De release van SAP na ECC heet S / 4HANA en wordt alleen ondersteund op de SAP HANA-database. SAP werkt samen met zijn klanten om ECC-implementaties tegen eind 2027 naar S / 4HANA te migreren, wanneer de reguliere ondersteuning voor ECC eindigt. Duizenden werknemers en aannemers gebruiken financiële, boekhoudkundige, voorraad- en inkoopcomponenten om de dagelijkse zaken te runnen.

GWT gebruikt SAP-gegevens in Oracle-databases voor het voorspellen van inkoop, materialen en voorraad om te helpen bij het verbeteren van zakelijke beslissingen. Voorspellingen kunnen zaken omvatten als het voorspellen wanneer chemicaliën in de inventaris vervallen, moeten worden verwijderd en vervangen op basis van overheidsvoorschriften. GWT beheert deze SAP-implementaties on-premise door interne IT-teams. En het is niet goedkoop. Gelukkig bevatten deze systemen een goudmijn aan gegevens die GWT via analyse en rapportage kan gebruiken om processen te verbeteren, kosten te verlagen en uiteindelijk de wereld te voorzien van beter en schoner water.

Maak gebruik van bronnen

De SAP-gegevens van GWT stroomden niet altijd zo vrij naar de analysesystemen als tegenwoordig. In het begin zorgden analyses ervoor dat resources weggeleid werden van het SAP-bronsysteem. Dit had invloed op de dagelijkse activiteiten en de bron was ontworpen voor veel kleine parallelle transacties, niet voor grote batchanalyses, dus de analytische resultaten droop langzaam weg.

Dit was duidelijk niet schaalbaar, dus werden ETL-processen (Business Objects Data Services – BODS) gebruikt om periodiek grote hoeveelheden gegevens te extraheren en naar een andere Oracle-database-rapportage-instantie te transporteren. Het proces werkte een tijdje goed, zeker beter dan altijd proberen een grotere doos te kopen. Maar er kwamen uitdagingen aan de oppervlakte, waaronder:

1. Bulkextracten belasten de transactionele brondatabase van SAP enorm
2. Gegevens moesten verser zijn; ETL-latentie was te lang en werkte alleen voor historische rapportage, niet voor realtime analyses
3. Het opsporen van verwijderingen was arbeidsintensief en inconsistent, wat resulteerde in enkele slechte gegevens
4. Analytics op Oracle was traag omdat tabellen een zeer groot aantal rijen en kolommen bevatten

Operationele efficiëntie

GWT heeft zijn analyseplatform geüpgraded om ervoor te zorgen dat het enorme gegevensvragen aankan. Hoewel het analyseplatform veel beter presteerde dan de vorige versie, had het nog steeds middelen nodig om te beheren en op te schalen. Een gehoste cloudservice, Amazon (AWS) Redshift, werd als vervanging gekozen omdat deze enorme gegevensquery’s aankon.

Zelfs toen GWT een aantal nieuwe, ultramoderne technologieën koos om de toenemende datavolumes op het doelsysteem beter aan te kunnen, inclusief analyseplatforms en een overstap naar een gehoste cloudservice, moesten de bulk-ETL-extracten van BODS nog steeds worden gebruikt om extraheer gegevens uit kritische SAP-cluster- en pooltabellen.

Bulk ETL-extracten (in dit geval of in dergelijke gevallen) kosten veel tijd en middelen. Dit bleef de bron zwaar belasten bij het extraheren van deze tabellen. Ik noemde hierboven ook dat BODS bulk ETL-gegevens gemist zijn, wat resulteert in problemen met de gegevenskwaliteit.

Hier komt Log-Based Change Data Capture

Om het probleem op te lossen, begon GWT met verkennen Wijzig Data Capture (CDC) om SAP-gegevens te extraheren, middelen vrij te maken en de uitdagingen die gepaard gaan met de bulk ETL-transacties te verlichten. Zoals de naam al aangeeft, identificeert CDC wijzigingen en kan vervolgens incrementele wijzigingen synchroniseren met een ander systeem of een audittrail van wijzigingen opslaan. CDC is er in meerdere smaken, waaronder trigger- en loggebaseerd. (Zie mijn vorig artikel voor meer informatie over de verschillende methoden van CDC.)

GWT besloot voor een op logboeken gebaseerde CDC-oplossing te gaan. Van de beschikbare smaken is log-gebaseerde CDC superieur omdat het kan worden toegepast op alle mogelijke scenario’s, inclusief systemen met extreem hoge transactievolumes of systemen die veel bronnen van systemen zappen. Het is de aanpak met de laagste overhead voor individuele transacties, maar ook voor het systeem in het algemeen.

De 6 voordelen die GWT heeft behaald door het kiezen van op logboeken gebaseerde CDC voor hun gegevensreplicatie

1. Bijna nul overhead: Minder belasting van de transactionele brondatabase van SAP voor alle tabellen. Eén keer laden, stream verandert alleen
2. Lagere latentie: Wijzigingsgegevens worden buiten de box in de wachtrij geplaatst en eenmaal per uur op het doel bijgewerkt, wat resulteert in een lage latentie tussen bronnen en doelen
3. Verbeterde gegevenskwaliteit: Op logboek gebaseerde CDC garandeert gegevensverlies zonder wijzigingen, inclusief verwijderingen en tijdelijke updates
4. Flexibiliteit met Analytics: Op logboek gebaseerde CDC kan op heterogene platforms worden gebruikt om de datacenters met grote volumes on-premise en in de cloud te laten overspannen
5. Gegevensvertrouwen: Omdat log-gebaseerde CDC alleen wijzigingen detecteert, kan GWT erop vertrouwen dat belangrijke transacties niet worden gemist tijdens langdurige, omvangrijke ETL-processen
6. Beveiliging: Met best practices uit de branche rond loggebaseerde CDC kunnen gegevens tijdens de overdracht worden versleuteld
7. Schaalbaarheid: Omdat log-gebaseerde CDC een low-impact methode van gegevensoverdracht is, kan GWT opschalen zonder zich zorgen te hoeven maken over het betalen voor meer middelen om grotere gegevensquery’s af te handelen

Op logboek gebaseerde CDC vereenvoudigde de gegevensstroom van GWT aanzienlijk en elimineerde de overhead van BODS ETL op de bron, waardoor bron-SAP-bronnen vrijkwamen. Nu konden die bronnen worden toegewezen aan gebruikers in plaats van aan gegevensextractie. Door op logboeken gebaseerde CDC te gebruiken om gegevens van hun geüpgradede analyseplatform naar de cloud (AWS) te repliceren, kon GWT gemakkelijker gebruikmaken van de ‘goudmijn’ van SAP-gegevens, waardoor betere, nauwkeurigere en tijdiger analyses en rapportages mogelijk waren om beter geïnformeerde en impactvolle zakelijke beslissingen te nemen.