Učení s nulovým počtem snímků při zpracování přirozeného jazyka pro klasifikaci textu

Co je učení s nulovým počtem snímků

Díky nejnovějším modelům zpracování přirozeného jazyka založeným na transformátorech získalo učení s nulovým počtem snímků mnoho popularitu ve světě zpracování přirozeného jazyka. Podstata spočívá v tom, že model nyní dokáže rozpoznat některé třídy, i když je dosud nemá pro ně byl vycvičen.

Lidé to dělají přirozeně. Například pokud vaše dítě ví, co je to velbloud, stačí, když mu řeknete. že existuje ještě jedno zvíře, které se jmenuje dromedár a je velmi podobné velbloudovi, jen má jeden hrb. místo dvou! Až vaše dítě příště uvidí obrázek dromedára, bude vědět, co to je, zatímco... vidí poprvé!

Techniky nulového snímku spojují sledované a nesledované třídy prostřednictvím určité formy tzv. "pomocné" informace, která kóduje rozlišovací vlastnosti objektů. To bylo velmi populární technika v počítačovém vidění již dlouho, která se nyní stále více používá při zpracování přirozeného jazyka.

Učení s nulovým počtem snímků a klasifikace textu

Učení s nulovým počtem snímků funguje skvěle při klasifikaci textu. Klasifikace textu spočívá v použití jednoho nebo více kategorií na část textu (vesmír, obchod, sport atd.).

Až donedávna dokázaly modely klasifikace textu kategorizovat pouze části textu s předem definovaným počtem znaků. kandidátských kategorií. Tyto kategorie musely být předem nastaveny během tréninku. To bylo bolestivé protože to znamenalo, že pokaždé, když jste chtěli přidat kategorii, museli jste model znovu trénovat s více kategoriemi. příklady.

Od doby, kdy byly vytvořeny mnohem větší modely zpracování přirozeného jazyka (většinou založené na transformátorech), se stalo možné trénovat modely pouze na určitém seznamu kategorií a poté nechat uživatele vytvářet nové kategorie. kategorie za běhu, aniž by museli model znovu trénovat.

Řekněme například, že váš model pro klasifikaci textu s nulovým počtem snímků byl vycvičen k rozpoznávání pouze 3 snímků. kategorie: vesmír, příroda a sport. Přesto jej můžete použít pro kategorizaci textů dalších kategorií, jako je například obchod, jídlo nebo věda.

Jedná se o velmi účinnou techniku, která umožňuje velkou flexibilitu a zároveň poskytuje skvělé výsledky.

Nejlepší modely klasifikace s nulovým počtem snímků

Existují vynikající modely zpracování přirozeného jazyka s otevřeným zdrojovým kódem, které jsou založeny na transformátorech objímajících tváří a fungují. pro klasifikaci textů s nulovým počtem snímků.

Ve společnosti NLP Cloud jsme vybrali tyto 2 modely, které jsou podle našeho názoru nejlepšími nejmodernějšími modely pro. pro klasifikaci textů s nulovým počtem snímků:

Facebook's Bart Large MNLI: tento model je skvělý pro klasifikaci textu s nulovým počtem snímků. angličtině. Pracuje s potenciálně vysokým počtem kandidátních kategorií, přičemž zůstává rychlý. a přesný.
Joe Davison's XLN Roberta Large XNLI: tento model je ideální pro jiné než české jazyky. Je to funguje ve více než 100 jazycích a je obzvláště přesný v angličtině, francouzštině a španělštině, němčině, řečtině, bulharštině, ruštině, turečtině, arabštině, vietnamštině, thajštině, čínštině, hindštině a svahilštině, urdštině. Má víceméně stejnou latenci jako Bart Large MNLI.

I když je jejich přesnost působivá a latence poměrně dobrá, tyto 2 modely jsou stále náročné na výpočet a latence se může snadno zvýšit, pokud se text, který chcete analyzovat, příliš rozroste. velký nebo počet kandidátních kategorií je příliš vysoký. Pokud vám nejde v první řadě o přesnost a pokud chcete byste dali přednost rychlejšímu a na zdroje méně náročnému modelu, můžete snadno zvolit jiný model. Pro například existují destilované verze modelu Bart, nazývané "DistilBart", a ty jsou pro tento účel ideální.

Závěr

Učení s nulovým počtem snímků a učení s několika málo snímky, jsou moderní techniky, které se objevily při vytváření velkých modelů zpracování přirozeného jazyka. (více informací o výuce pomocí několika snímků zde). Poskytují velkou flexibilitu a Zpracování přirozeného jazyka je díky nim stále působivější!

Neváhejte a vyzkoušejte klasifikaci nulových snímků a uvidíte, zda se vám také zalíbí.

Julien Salinas
Technický ředitel společnosti NLP Cloud

Učení s nulovým počtem snímků při zpracování přirozeného jazyka pro klasifikaci textu

12. srpna 2021

Co je učení s nulovým počtem snímků

Učení s nulovým počtem snímků a klasifikace textu

Nejlepší modely klasifikace s nulovým počtem snímků

Závěr