2021: drie baanbrekende perspectieven voor gegevensmodellering

Klik voor meer informatie over auteur Thomas Frisendal.

De algemene wijsheid is dat wij mensen ons maar op drie dingen tegelijk kunnen concentreren. Dus ik moest mijn lijst van dingen die van belang zijn in datamodellering in januari 2021 in dit nieuwe, fijne jaar (hoop ik) inkorten!

Als we ze van bovenaf bekijken, zoals we hier zullen doen, is het duidelijk dat zelfs maar drie dingen een handvol zijn!

De drie dingen zijn contextualisering, federatieve semantiek en verantwoording.

Contextualisering

Ik maak me grote zorgen over perceptie die leidt tot cognitie en hun rol daarin Datamodellering. Als je dat goed doet, heb je met minimale inspanning zowel structuur als betekenis overgebracht. Wij mensen zijn erg goed in waarnemen op basis van sensorische input (meestal visuals). Dus hier is een context:

Afbeeldingsbron: BlixenTours

Oeps, een LEEUW! Mannetje, dat niet echt probeert zich in het gras te verstoppen – dat klopt! Maar geen rijke context om beslissingen uit te nemen. Volg je instinct (teruglopen naar de auto is een prima idee).

En hier is een andere context:

Afbeeldingsbron: BlixenTours

Oeps, nog een leeuw! Iets meer context om mee te werken – dit keer is het een vrouwtje en ze heeft waarschijnlijk een volle maag. Het beest (Wildebeest?) Is bijna opgegeten. Inferentie: ze heeft op dit moment geen honger. Maak een foto en ga terug, lekker stil – lijkt veilig genoeg voor een fotograaf van wereldklasse zoals jij …

“Leeuw” is een categorie waarvoor we zijn opgeleid – het aanbrengen van labels op objecten is handig voor snelle cognitie. Contexten vertegenwoordigen verzamelingen informatie en er kan aanzienlijke overlap zijn:

Afbeeldingsbron: Thomas Frisendal

We stellen dus in de loop van de tijd een enorm aantal contexten vast en we kennen de kruispunten met enige precisie. Maar er zijn meer relaties dan het delen van contextuele elementen. We herkennen verschillende variaties in relaties, of het nu gaat om kardinaliteiten, keuzemogelijkheden, overerving, associaties en meer:

Afbeeldingsbron: Thomas Frisendal

Onze contextrepository is een grafiek – sterk verbonden met een verscheidenheid aan cognitieve semantiek. Tegenwoordig werken wij (datamodellen en ontwikkelaars) door één context tegelijk, maar contextualiseren we alles volgens het grotere plaatje van verworven contexten en waargenomen relaties. We worden betaald voor het leveren van contextualisering die werkt en langdurige waarde heeft!

Dit perspectief heeft tegenwoordig een merknaam: “Kennis grafieken”- en het is er voor u om te solliciteren. Doe het gewoon! Deze aanbeveling geldt voor 2021 en later.

Federatieve semantiek

In directe voortzetting van contextualisering komen we het tweede focusgebied voor 2021 tegen: gebruik de semantiek die we al kennen! Ik heb hierboven gezegd dat relaties in typen voorkomen (classificaties, hiërarchieën, veelvoud, enz.), Maar ze komen ook als categorieën: ‘is-a’, ‘heeft’, ‘geïdentificeerd-door’, ‘geordend op’, ‘gelokaliseerd -at ‘, enzovoort.

Informatieprofessionals zullen weten dat de basisbouwsteen in de semantiek is:

Onderwerp -> Predicaat -> Object

Deze triples vertegenwoordigen niet alleen informatie, maar zijn eerder een holistische kijk op de verhalen van het bedrijf.

Onderwerpen en objecten, die de semantiek van ‘acteurs’ en ‘dingen’ uitdrukken, vertegenwoordigen de informatiedelen. En predikaten vertegenwoordigen de processen die het bedrijf uitvoert (bestellen, registreren, vergeten) op die informatiedelen.

Dat is de reden waarom semantiek het meeste van alles tot uitdrukking brengt – zelfs als mensen een verdeelde kijk hebben op ‘data’ versus ‘bedrijfsprocessen’. Waar bewaren we semantiek vandaag? Dataprofessionals bouwen ze in datamodellen in. Ze hebben de neiging om relaties lichtvaardig te behandelen, althans in SQL, terwijl in grafiekmodellen relaties schitteren. Informatieprofessionals bouwen semantiek in ontologieën met behulp van RDF en OWL, waarbij zowel metadata als informatie in één geïntegreerde (zelfbeschrijvende) database zijn opgeslagen.

Waarom zijn we in vredesnaam niet beter in het hergebruiken van deze metadata? Welnu, in 2021 laten we de wereld zien dat we volwassen zijn.

In de Webprotege community werken ze druk aan een visualisatietool voor het vertalen van OWL ontologieën in gelabelde eigenschapsgrafieken (LPG, Neo4j-stijl):

Afbeeldingsbron: Rafael Gonçalves

Over bij data.world, hun erg mooi ogende OWL / RDF-editor, Grafo, wordt ook “LPG-vloeiend”. Eerst een fragment van een OWL-ontologie:

Afbeeldingsbron: Grafo

En dan een fragment van een LPG-model:

Afbeeldingsbron: Grafo

En meer bruggen tussen RDF / OWL zijn er al of zijn in ontwikkeling.

Ten slotte is hier nog een ander bruggenbouwproject:

Afbeeldingsbron: ISO

SQL-PGQ betekent dat SQL voldoet aan gelabelde eigenschapsgrafieken, zeer waarschijnlijk hier in 2021. Dit project is een stap in de richting van de ontwikkeling van een nieuwe querytaal voor eigenschapsgrafieken genaamd GQL. Dit gebeurt ook, terwijl je dit leest, in dezelfde SC 32 ISO-commissie als SQL-PGQ en, belangrijker nog, in dezelfde commissie als SQL zelf.

Verantwoording

In april 2018 heb ik een kleine “cross-over studie” gemaakt tussen datamodellering, informatiebeheer en datawetenschap: Waarheen datamodellering onderwijs? (De toekomst van datamodellering), blog hier gelinkt. Ik belandde op de voorspelling dat de overlap tussen de drie disciplines steeds groter zal worden. En nu – de toekomst – ziet er zeker uit als één grote maas (zoek de grafiek op met de link hierboven).

Is er iets dat ons ervan weerhoudt om de drie disciplines samen te vouwen tot één (noem het informatiemanagement als de winnende term)? Om eerlijk te zijn, ja, er is één ding: de kwestie van verantwoording!

De zakelijke drijfveer voor informatiebeheer is het bijhouden van gegevens voor een aantal use-cases.

Het begon allemaal met grootboeken en lenerspasjes. Toen kwamen de ponskaarten …

Afbeeldingsbron: Nationaal kankerinstituut via Unsplash

Na fysieke media zoals kaarten en tape kwamen DBMS’en, en zo’n twintig jaar later, recordbeheersystemen. Het is redelijk om te zeggen dat de gegevens die door professionals op het gebied van informatiebeheer in documentbeheersystemen worden bewaard, door hun ontwerp betrouwbaar en consistent zijn met de werkelijkheid. U kunt erop rekenen dat ze waar zijn – daar zijn ze voor. En de activiteit is complex zoals deze use case uit klinische onderzoeken illustreert:

Afbeeldingsbron: Srini Dagalur via toegepaste klinische onderzoeken

Het datamodel is even complex, met veel tijdafhankelijke zorgen. Srini Dagalur, de auteur van het CTMS-artikel, dat in wezen een inleiding is voor kopers van “Clinical Trial Management Systems”, benadrukt het volgende:

“Zoals met elk evoluerend proces of technologie, kan de implementatie van een CTMS leiden tot uitdagingen, zoals:

  • Problemen met gegevenstoegang, aangezien gegevens zich op meerdere locaties bevinden of er hiaten kunnen zijn in de gegevensverzameling (dat wil zeggen dat specifieke procesgegevens mogelijk niet worden vastgelegd)
  • Gebrek aan volwassen gegevensbeheermogelijkheden om huidige en historische gegevens op te slaan ter ondersteuning van gegevensanalyse
  • Het onvermogen om tijdig te reageren op mogelijke protocolwijzigingen
  • Slechte kwaliteit en betrouwbaarheid van gegevens over klinische operaties als gevolg van aanzienlijke vertragingstijden tussen gegevensinvoer en rapportage en inconsistenties in referentiegegevens tussen verschillende bronsystemen die het CTMS voeden. “

Hier zijn enkele algemene opmerkingen over archiefbeheer:

Afbeeldingsbron: AAIM

Let op de nadruk (door mij aangebrachte accentuering) op “informatie”, “onderhouden”, “bewijs” en “het nakomen van wettelijke verplichtingen of bij het zakendoen”.

Is de business case die hierboven door AAIM wordt beschreven het meest geschikt voor een recordbeheersysteem of een databasebeheersysteem? Hier, aan het begin van de toekomst, worden de databases gebruikt in Gegevensbeheer zijn nog steeds niet ontworpen om verantwoordelijke informatie te garanderen (door het ontwerp). Ja, SQL biedt enige tijdelijke ondersteuning, en ja, er zijn datakluis-, anker- en ensemble-datamodelleringpraktijken, maar zelfs dat alles geeft geen volledig, verantwoord beeld van de informatielevenscycli. We missen nog steeds belangrijke stukjes zoals retentie, metadata-wijzigingen, enz. En zou het moeilijk zijn om het te doen? Nee, de leveranciers van de hulpprogramma’s voor recordbeheer doen het. DBMS-leveranciers zouden het ook kunnen doen.

Dat zou het laatste, baanbrekende stuk DBMS-functionaliteit zijn dat de historische erfenis van datamanagement naast informatiebeheer in twee gilden opruimt.

2021 is het jaar van de creatie van de nieuwe standaard Graph Query Language (GQL), die de potentie heeft om de volgende stap na SQL te zijn. En die zal samenwerken met SQL en met RDF (zie hierboven). Onnodig te zeggen dat de GQL-to-do-lijst de gevallen van verantwoordingsgebruik moet bevatten.

Laat u dus niet misleiden door een ogenschijnlijk vredige context:

Afbeeldingsbron: BlixenTours

Realiseer je dat dit het moment is – houd je gewoon aan de drie aanbevelingen: contexten, semantiek en verantwoording. Stel ze vast als onze algemene richtlijnen voor 2021! 2020 heeft ons laten zien dat we door samen te werken zeer grote en zeer kritische uitdagingen kunnen oplossen. Gelukkig nieuwjaar!