Vier voorspellingen voor natuurlijke taalverwerking in 2021

Vier voorspellingen voor natuurlijke taalverwerking in 2021

Meer weten over :

Vier voorspellingen voor natuurlijke taalverwerking in 2021

Vier voorspellingen voor natuurlijke taalverwerking in 2021

Klik voor meer informatie over auteur David Talby.

2020 was een jaar van enorme groei voor toegepaste natuurlijke taalverwerking (NLP). Zelfs na COVID-19 en achterblijvende IT-budgetten, toonde een recente studie aan dat de NLP-uitgaven toenamen 10-30 procent over organisatiebranches, bedrijfsgroottes en geografische gebieden (Gradient Flow). NLP-tools kunnen in verschillende vormen worden geïmplementeerd, in verticale markten, van detailhandel tot financiën tot gezondheidszorg, en hebben de kracht om de ervaringen van patiënten en klanten te verbeteren, de behoefte aan menselijke input te verminderen en zelfs levens te helpen redden.

Neem bijvoorbeeld e-commerce. NLP wordt op grote schaal geïmplementeerd om met klanten te chatten en naar gesprekken te luisteren om gevoelens en interessegebieden te begrijpen, vragen te beantwoorden en nep- en giftige inhoud te filteren. In de financiële wereld fungeert NLP als de ogen en oren van FinTech-organisaties, aangezien algoritmen zowel lezen als schrijven zijn financieel nieuws, van SEC-aanmeldingen tot tweets. In de gezondheidszorg stellen de krachtige NLP met de naam entiteitsherkenning (NER) en classificaties datawetenschappers in staat om te detecteren en te voorkomen ongunstige geneesmiddelgebeurtenissen – een enorme last voor de gezondheidszorg en de patiënten.

Met deze use-cases en nog veel meer is het duidelijk dat 2021 klaar is voor nog grotere stappen NLP, en er zijn verschillende trends die deze stijging in acceptatie en uitgaven stimuleren. Hoewel er veel bijdragende factoren zijn, staan ​​hieronder vier van de belangrijkste trends die het komende jaar een grote impact zullen hebben op de NLP-industrie.

1. State-of-the-art modellen worden teruggebracht tot één regel code

Het democratiseren van natuurlijke taalverwerking is een onfeilbare manier om voortdurende groei in het veld te garanderen en stelt beoefenaars van alle vaardigheidsniveaus in staat om de voordelen ervan te realiseren. Gelukkig is het uitvoeren van veel van de meest nauwkeurige en complexe deep learning-modellen in de geschiedenis teruggebracht tot één regel Python-code. Dit verlaagt de toegangsdrempel aanzienlijk voor degenen die net zijn begonnen. Door de vereisten terug te brengen tot één regel code, kunnen mensen die niets van NLP weten aan de slag. Zelfs als je een datawetenschapper bent die weet hoe je modellen moet trainen, zorgt dit gebruiksgemak voor een automatiseringsniveau dat je tijd geeft voor complexere ondernemingen.

Het hebben van een formele opleiding in het veld en hands-on ervaring met de kern-NLP, diep leren, en het overbrengen van leerbibliotheken naar de kern-NLP-bibliotheken waren vroeger nodig om de technologie in de praktijk toe te passen. Neem bijvoorbeeld sentimentanalyse: concluderen dat ‘een mooie dag’ een positieve uitspraak is, had je een datawetenschapper nodig om te trainen, terwijl je tegenwoordig een volledige emotieanalyse (dat wil zeggen in staat zijn om te zien tussen vreugde, angst, verrassing en sadness) is out-of-the-box beschikbaar in vele talen. Veel toegangsbarrières behoren tot het verleden en naarmate de technologie verbetert, wordt deze toegankelijk voor nog meer mensen.

2. Auto NLP: wie heeft er eigenlijk een datawetenschapper nodig?

Als het op code aankomt, wat is er dan beter dan oneliners, zoals het hierboven genoemde Python-voorbeeld? Hoe zit het met een volledig codevrij proces? Hoewel u nog steeds uw eigen modellen moet trainen om domeinspecifieke tekst te begrijpen, komt Auto-NLP snel achter de Auto-ML-trend om dit mogelijk te maken. Geïmpliceerd door het woord zelf, stelt automatisering iedereen in staat om deel te nemen aan het machine learning community en beperkt de technologie niet tot datawetenschappers en software-engineers.

Auto-NLP dient niet alleen om een ​​vaardigheidskloof te dichten, maar het presteert ook verrassend goed. In feite heeft nieuw onderzoek naar de modernste Auto-ML-frameworks dat gevonden Auto-ML-tools presteren beter of vergelijkbaar met hun menselijke tegenhangers. Hoewel Auto-ML- en -NLP-tools nog niet als op zichzelf staande oplossingen kunnen dienen, kunnen ze de vaardigheden van datawetenschappers aanvullen om de tijd die aan alledaagse taken wordt besteed te verminderen en beginners te helpen vertrouwd te raken met de technologie.

3. Betere modellen ontdekken, zoeken en beheren

Hoewel het geweldig is om modellen binnen handbereik van enthousiaste gebruikers te plaatsen, hoe groter de selectie van modellen wordt, hoe moeilijker het is om het model te vinden dat u daadwerkelijk voor uw volgende project zou moeten gebruiken. Denk maar aan het aantal openbaar beschikbare NLP-modellen dat de afgelopen jaren is geëxplodeerd door de TensorFlow, PyTorch, en Knuffelend gezicht gemeenschappen. Met Hugging Face kan iedereen bijvoorbeeld gratis modellen uploaden en heeft het nu meer dan 3.000 modellen om uit te kiezen. Dat maakt het buitengewoon moeilijk om degene te vinden die het beste aan uw behoeften voldoet.

Modelhubs verbeteren snel om gebruikers te helpen dit goed te doen – met een betere zoekfunctie, samengestelde “meest populaire” en “best beoordeelde” suggesties en een slimmere rangschikking van zoekresultaten. De Spark NLP model hub heeft een andere benadering door community-uploads te beperken, maar officiële ondersteuning te bieden voor alle gepubliceerde modellen als onderdeel van de bibliotheek. Dit betekent dat modellen en pijplijnen voor elke NLP-taak regelmatig worden bijgewerkt, regelmatig worden vervangen wanneer een beter geavanceerd algoritme, model of inbedding beschikbaar komt, en dat gelicentieerde klanten kunnen vertrouwen op bedrijfsondersteuning als ze problemen ondervinden.

4. NLP wordt meertalig

Historisch gezien werd NLP-software van de hoogste kwaliteit gebouwd voor Engels en vervolgens voor Mandarijn Chinees. Nu publiceren bedrijven als Google en Facebook vooraf opgeleid embeddings voor meer dan 150 talen als gratis en open source. NLP-bibliotheken volgen ook dit voorbeeld. Neem bijvoorbeeld Spark NLP, dat nu modellen in 46 talen aanbiedt. Dit niveau van meertalige ondersteuning was slechts een paar jaar geleden ongehoord, dus dit is een enorme stap voor inclusie en diversiteit, waardoor NLP in handen komt van datawetenschappers over de hele wereld.

Volgens de eerder genoemde NLP-enquête werd taalondersteuning genoemd als een van de grootste uitdagingen die technische leiders noemden als het gaat om de technologie. Dankzij recente ontwikkelingen zoals taal-agnostisch zin inbedding, zero-shot leren, en de openbare beschikbaarheid van meertalige insluitingen, worden open source bibliotheken die tientallen talen ondersteunen voor het eerst de norm.

Deze trends hebben allemaal één ding gemeen: ze democratiseren NLP. Nu nauwkeurigere software gemakkelijker toe te passen wordt, betere tools voor het vinden en gebruiken van de beste modellen en wijdverbreide toegang tot de technologie, wordt 2021 opnieuw een jaar van aanzienlijke groei voor natuurlijke taaltechnologie.