Indlæring af nulskud i naturlig sprogbehandling med henblik på tekstklassificering

Hvad er nulskudslæring?

Takket være de seneste avancerede transformatorbaserede modeller til behandling af naturlige sprog har nulskudslæring fået stor opmærksomhed. popularitet i Natural Language Processing-verdenen. Ideen er, at en model nu kan genkende nogle klasser, selv om den ikke har blevet trænet til det.

Det er det, som mennesker naturligt gør. Hvis dit barn f.eks. ved, hvad en kamel er, skal du blot fortælle ham, at der findes et andet dyr, der hedder dromedar, som ligner kamelen meget, bortset fra at det har 1 pukkel på ryggen i stedet for 2! Næste gang dit barn ser et billede af en dromedar, vil han vide, hvad det er, mens det er første gang, han ser en!

Nulskudsteknikker forbinder observerede og ikke-observerede klasser gennem en form for såkaldt "hjælpeinformation", som koder for objekters særlige egenskaber. Det har været en meget populær teknik inden for computervision i lang tid, som nu i stigende grad anvendes inden for Natural Language Processing.

Indlæring af nulskud og tekstklassificering

Indlæring med nulskud fungerer godt til tekstklassificering. Tekstklassificering handler om at anvende en eller flere kategorier på et stykke tekst (rum, forretning, sport osv.).

Indtil for nylig kunne tekstklassifikationsmodeller kun kategorisere tekststykker med et foruddefineret antal kandidatkategorier. Disse kategorier skulle fastsættes på forhånd under træningen. Dette var smertefuldt fordi det betød, at hver gang man ønskede at tilføje en kategori, skulle man træne sin model på ny med flere eksempler.

Siden der er blevet skabt meget større modeller til behandling af naturligt sprog (som oftest baseret på transformere), har det været muligt kun at træne modellerne på en bestemt liste af kategorier og derefter lade brugerne oprette nye kategorier on the fly uden at skulle træne modellen på ny.

Lad os f.eks. sige, at din tekstklassifikationsmodel med nulskud blev trænet til kun at genkende 3 kategorier: rum, natur og sport. Du kan stadig bruge den til at kategorisere tekster for andre kategorier, som f.eks. forretning, mad eller videnskab.

Dette er en meget effektiv teknik, der giver stor fleksibilitet og samtidig giver gode resultater.

Bedste klassifikationsmodeller med nulskud

Der findes fremragende open source-modeller til behandling af naturligt sprog baseret på Hugging Face Transformers, som fungerer rigtig godt til nul-shot tekstklassificering.

Hos NLP Cloud har vi udvalgt disse 2 modeller, som efter vores mening er de bedste state-of-the-art modeller til nul-shot tekstklassifikation for øjeblikket:

Facebook's Bart Large MNLI: denne model er fantastisk til klassificering af tekst uden skud i engelsk. Den arbejder med et potentielt stort antal kandidatkategorier, samtidig med at den er hurtig. og præcis.
Joe Davison's XLN Roberta Large XNLI: denne model er perfekt til ikke-engelske sprog. Den fungerer på mere end 100 sprog, og den er særlig præcis på engelsk, fransk og spansk, tysk, græsk, bulgarsk, russisk, tyrkisk, arabisk, vietnamesisk, thailandsk, kinesisk, hindi og swahili, urdu. Den har mere eller mindre den samme latenstid som Bart Large MNLI.

Selv om deres nøjagtighed er imponerende, og deres latenstid er ret god, er disse 2 modeller stadig beregningskrævende modeller, og latenstiden kan nemt stige, hvis den tekst, du vil analysere, bliver for stor eller antallet af kandidatkategorier er for højt. Hvis nøjagtighed ikke er din primære bekymring, og du foretrækker en hurtigere og mindre ressourcekrævende model, kan du sagtens vælge en anden model. Til eksempel findes der destillerede versioner af Bart, kaldet "DistilBart", og de er perfekte til dette formål.

Konklusion

Indlæring af nulskud og indlæring af fåskud, er moderne teknikker, der blev udviklet i forbindelse med oprettelsen af store modeller til behandling af naturlige sprog (se mere om læring med få skud her). De giver en stor fleksibilitet og gør Natural Language Processing mere og mere imponerende!

Du er velkommen til at prøve nulskudsklassificering og se, om du også kan lide det.

Julien Salinas
Teknisk direktør hos NLP Cloud

Indlæring af nulskud i naturlig sprogbehandling med henblik på tekstklassificering

August 12, 2021

Hvad er nulskudslæring?

Indlæring af nulskud og tekstklassificering

Bedste klassifikationsmodeller med nulskud

Konklusion