Kennisgrafieken als inkapseling van het geloofssysteem

Klik voor meer informatie over auteur Babis Marmanis.

Toen de COVID-19-pandemie ons trof, ging de wereldwijde onderzoeksgemeenschap in een hogere versnelling om de ziekte te bestuderen en hun onderzoek te delen in de hoop een oplossing te vinden. Deze toename van de onderzoeksoutput zorgde voor een nieuwe uitdaging voor wetenschappelijke uitgevers: het vinden van voldoende gekwalificeerde peer-reviewers om de toestroom van manuscriptinzendingen bij te houden.

Deze blog is de voortzetting van een lezing die ik gaf tijdens het Outsell Signature Event in november 2020, waar ik deelnam aan een paneldiscussie met CCC President en CEO Tracey Armstrong en moderator David Worlock over “AI gebruiken om samenwerking, partnerschap en nieuwe Zakelijke kansen: lancering van de CCC Knowledge Graph. ”

Sinds begin 2020 waren er wekelijks duizenden manuscripten ingediend, alleen al op dat gebied. Vanuit het perspectief van een uitgever die toezicht houdt op peer-reviewed tijdschriften, is dat een enorm aantal nieuwe manuscripten om te onderzoeken, te bewerken en te publiceren. De vraag naar een snelle doorlooptijd van beoordelingen van hoge kwaliteit, om de voortgang te versnellen, verhoogde de druk om goede kandidaten te vinden.

Omdat iedereen zich haastte om COVID te bestrijden, wilden we ook bijdragen wat we konden. Door gebruik te maken van onze gegevens en technologie hebben we een kennisgrafiek ontwikkeld om uitgevers te helpen het probleem aan te pakken van het identificeren van geschikte kandidaten voor peer reviews in de COVID-ruimte. Dus, in wat volgt, zal ik beschrijven in welke zin onze aanpak van betekenis kan zijn buiten het COVID-specifieke werk.

Om te beginnen moeten we benadrukken dat de sleutelterm in “kennis grafiek‘Is het woord’ kennis ‘in plaats van’ grafiek ‘. Daarom moeten we eerst definiëren wat het woord “kennis” betekent voor onze discussie. Er is een langdurige discussie over de datawaardeketen, zoals gepromoot door Russell Ackoff. De Data-Informatie-Kennis-Wijsheid (DIKW) -hiërarchie, zoals deze bekend werd, werd onder de aandacht gebracht door zijn toespraak tot de International Society for General Systems Research in 1989. Op het hoogste niveau wordt algemeen aanvaard dat de gegevens waardeketen kan worden samengevat door twee belangrijke transities:

1. Een overgang van “ruwe data” naar “informatie”, en

2. Een overgang van ‘informatie’ naar ‘kennis’.

Laten we deze termen nu eens nader bekijken. We zullen “informatie” definiëren als gegevens die geschikt zijn voor het doel binnen een specifieke context. Om elke set gegevens als “informatie” te beschouwen, moet een zekere mate van gegevensopschoning, gegevensintegratie en mogelijk gegevensverrijking plaatsvinden.

Met dat in gedachten, laten we nu “kennis” definiëren als “bruikbare informatie”. Het is belangrijk op te merken dat kennis noodzakelijkerwijs gepaard moet gaan met een zekere mate van vertrouwen die de kracht van onze overtuiging over de juistheid van de informatie uitdrukt. Daarom kan het, net als onze eigen overtuigingen, niet statisch zijn. Onze overtuigingen evolueren voortdurend en passen zich aan om nieuwe informatie te accommoderen, en dat resulteert op zijn beurt in aanpassingen van het vertrouwen dat we hebben in onze kennis.

Ware kennis is niet bereikbaar. Neem bijvoorbeeld de natuurkunde; de ware aard van de dingen is niet te vinden. Zoals Feynman het verwoordde: “We hebben nooit helemaal gelijk; we kunnen er alleen zeker van zijn dat we ongelijk hebben. ” Toch heeft dit ons er niet van weerhouden om zeer succesvolle modellen van de werkelijkheid te creëren en deze te gebruiken om onze controle over de natuur op talloze manieren uit te oefenen.

Het creëren van conceptuele modellen op basis van gegevens over onze bedrijven zal essentieel zijn voor succes in de 21e eeuw, en een op kennis gebaseerd systeem is een uitstekende manier om deze conceptuele modellen te creëren. Als u eenmaal een model heeft, kunt u het in uw operationele omgeving integreren, de variabelen ervan meten, de dynamiek ervan observeren, operationele maatregelen opnemen op basis van verschillende modelcriteria, en het continu verfijnen en aanpassen. Naar mijn mening is dat waar de echte waarde van Data Science leugens.

Dat is iets waar elke verstandige persoon het mee eens zou zijn, en veel mensen beweren dat ze dit hebben bereikt. Ik denk dat het verre van triviaal is om te bereiken, zelfs als u de reikwijdte van uw op kennis gebaseerde systeem beperkt tot een specifiek gebied van uw bedrijf. Neem bijvoorbeeld de kennisgrafiek die ik eerder noemde.

Onze grafiek is gebaseerd op een dataset die bestaat uit gepubliceerde wetenschappelijke artikelen over virologie met speciale aandacht voor coronavirussen, waaronder SARS, MERS en SAR-CoV-2. We hebben bibliografische metadata voor citaten gebruikt voor artikelen die zijn vermeld door LitCovid, CORD-19 en andere bronnen. In totaal hebben we meer dan 120.000 artikelen verwerkt.

Ons denken was redelijk rechttoe rechtaan; als we de verschillende auteurs, hun bijbehorende literatuur, hun medewerkers (co-auteurs) en enige algemene karakterisering van het vakgebied van hun studie kunnen laten zien, dan kan er gemakkelijk een match worden gemaakt tussen een binnenkomend manuscript en een geschikte recensent. Maar zelfs met zo’n beperkte set gegevens zijn er nog genoeg vragen om te beantwoorden en een aanzienlijke mate van onzekerheid om mee om te gaan.

Is “Ralph S Baric” van publicatie A dezelfde auteur als “RS Baric” van publicatie B? En, hoe zit het met die “Ralph A Baric” man uit publicatie C? Is hij dezelfde persoon, een neef, een lexicografisch toeval of gewoon een fout? Wanneer we een MeSH-term aan een artikel toekennen, op welk niveau van de MeSH-hiërarchie moeten we dan de toewijzing doen? Moet dat afhangen van ons niveau van vertrouwen of moet het worden opgelost a priori? Moeten we bij het maken van onze classificatie rekening houden met de volledige tekst (indien beschikbaar) of alleen bibliografische metadata gebruiken? Moeten we de herkomst van onze overtuigingen verstrekken of gewoon de huidige toestand opslaan? Hoe zit het met de namen van de instellingen? Op welk niveau moeten we de aansluiting vastleggen? Als er meer dan één aansluiting is, zijn deze dan van voorbijgaande aard? Welke is echt van belang om contact op te nemen met de auteur? Ik zou door kunnen gaan met een lijst met vragen die je in overweging moet nemen om in een stadium te komen waarin de informatie in het systeem een ​​niveau van vertrouwen heeft bereikt dat ons in staat stelt om het bruikbaar te maken. De toestand van de gegevens die deze vragen oproept, is direct gekoppeld aan de informatie-entropie in het systeem, en daarom vermenigvuldigen deze vragen zich naarmate de omvang van het systeem toeneemt.

Om de bovenstaande en vele andere vragen te beantwoorden, hebben we de gegevens verwerkt via een speciaal vervaardigde gegevenspijplijn om de juiste metagegevens te extraheren en de namen van auteurs, de affiliaties van auteurs en hun publicatierelaties met andere auteurs ondubbelzinnig te maken. Dat proces leverde ongeveer 440.000 unieke auteurs op.

Hoewel we die kennis op dit moment alleen visualiseren, hebben we een uitbreidbare en open architectuur gebouwd waarmee de kennis kan worden getransfundeerd in vele andere toepassingen. Je kunt niet anders dan bedenken wat er mogelijk zou zijn als onze aanpak meer gegevens van onze klanten, onze partners en zelfs andere derde partijen samenbrengt. Aangezien een kennisgrafiek een geloofssysteem vertegenwoordigt, is er geen enkele kennisgrafiek die ze allemaal regeert!

Natuurlijk is er een gemeenschappelijke noemer tussen twee kennisgrafieken die zijn geproduceerd op basis van dezelfde gegevens of om in hetzelfde veld te dienen, maar een groot deel van de bedrijfswaarde moet worden gezocht in hun verschillen in plaats van in hun overeenkomsten. Wij zijn van mening dat het bouwen van een kennisgrafieksysteem in wezen het opbouwen van een geloofssysteem voor uw bedrijf betekent.

Een systeem dat de intentie van uw gebruikers in verschillende omstandigheden kan begrijpen en de kracht van kennis kan bieden aan zowel medewerkers als eindgebruikers, op de juiste plaats en op het juiste moment.

Een levend, ademend systeem dat voortdurend evolueert en nieuwe informatie absorbeert en dat nauw verbonden is met de ‘organen’ van uw bedrijf en de ‘waarheid’ presenteert zoals uw bedrijf die waarneemt.

Op die manier worden gegevens, inhoud en services semantisch interoperabel, waardoor AI-agenten uw bedrijf kunnen begrijpen en taken met grote effectiviteit kunnen uitvoeren. De tijd dat mensen door een groot aantal documenten, websites en andere bronnen van

inhoud en het handmatig extraheren en interpreteren van de informatie erin is niet de toekomst. In feite wordt het steeds meer het verleden. Gebruikers vragen tegenwoordig hun persoonlijke assistenten om op kennis gebaseerde taken uit te voeren zonder zich zelf in het vereiste proces voor die taak te verdiepen.

Als je niets anders uit dit bericht haalt, onthoud dan dit:

  • Een kennisgrafiek is een geweldige manier om de kijk op de wereld in de context van uw bedrijf, dwz uw geloofssysteem
  • Een kennisgrafiek zal continu een ROI opleveren als deze constant evolueert en nieuwe informatie bevat die nieuwe toepassingen mogelijk maakt

Bedrijven die dit doen, zullen het bereik van hun diensten verder kunnen uitbreiden, de kwaliteit van hun activiteiten kunnen verbeteren en nieuwe producten aan veel nieuwe klanten kunnen aanbieden. Dat is geen gemakkelijke taak, maar het kan een zeer lonende onderneming zijn.