Uczenie zerojedynkowe w przetwarzaniu języka naturalnego dla klasyfikacji tekstów

Co to jest uczenie się od zera

Dzięki najnowocześniejszym modelom przetwarzania języka naturalnego opartym na transformatach, uczenie bezstrzałowe zyskało dużą popularność w świecie przetwarzania języka naturalnego. popularność w świecie Natural Language Processing. Idea polega na tym, że model może teraz rozpoznawać pewne klasy, nawet jeśli nie był został do tego wytrenowany.

To jest to, co istoty ludzkie robią naturalnie. Na przykład, jeśli twoje dziecko wie, co to jest wielbłąd, musisz mu tylko powiedzieć mu, że istnieje inne zwierzę zwane dromader, bardzo podobne do wielbłąda, z wyjątkiem tego, że ma 1 garb na grzbiecie zamiast dwóch! Następnym razem, gdy twoje dziecko zobaczy zdjęcie dromadera, będzie wiedziało, co to jest, podczas gdy to jest pierwszy raz, kiedy widzi jeden!

Techniki zero-shot kojarzą klasy obserwowane i nieobserwowane poprzez pewną formę tzw. "pomocniczej" informacji, która koduje wyróżniające właściwości obiektów. Jest to od dawna bardzo popularna technika w wizji komputerowej od dawna, która obecnie jest coraz częściej wykorzystywana w Przetwarzaniu Języka Naturalnego.

Uczenie z zerowym ujęciem i klasyfikacja tekstu

Uczenie zerojedynkowe świetnie sprawdza się w klasyfikacji tekstów. Klasyfikacja tekstu polega na zastosowaniu jednej lub więcej kategorii do fragmentu tekstu (przestrzeń, biznes, sport, itp.).

Do niedawna, modele klasyfikacji tekstu mogły jedynie kategoryzować fragmenty tekstu za pomocą predefiniowanej liczby kandydujących kategorii. Kategorie te musiały być z góry ustalone podczas treningu. Było to bolesne ponieważ oznaczało to, że za każdym razem, gdy chciałeś dodać kategorię, musiałeś ponownie wytrenować swój model z większą liczbą przykładów.

Od czasu stworzenia znacznie większych modeli Przetwarzania Języka Naturalnego (w większości przypadków opartych na Transformerach), możliwe stało się możliwe było trenowanie modeli tylko na określonej liście kategorii, a następnie pozwalanie użytkownikom na tworzenie nowych kategorie w locie, bez konieczności ponownego trenowania modelu.

Na przykład, załóżmy, że Twój model klasyfikacji tekstu z zerowym ujęciem został wytrenowany do rozpoznawania tylko 3 kategorii: przestrzeń, natura i sport. Możesz nadal używać go do kategoryzowania tekstów dla innych kategorii, jak na przykład biznes, jedzenie czy nauka.

Jest to bardzo potężna technika, która pozwala na dużą elastyczność, a jednocześnie daje świetne rezultaty.

Najlepsze modele klasyfikacji zero-strzałowej

Istnieją doskonałe modele przetwarzania języka naturalnego, oparte na transformatorach twarzy, które działają naprawdę dobrze sprawdzają się w klasyfikacji tekstu bez zdjęć.

W NLP Cloud wybraliśmy te 2 modele, które są, naszym zdaniem, najlepszymi modelami state-of-the-art dla klasyfikacji tekstów bez ujęcia na chwilę obecną:

Facebook's Bart Large MNLI: model ten jest świetny do klasyfikacji tekstów w języku angielskim. Pracuje on z potencjalnie dużą liczbą kategorii kandydujących, pozostając jednocześnie szybkim i dokładny.
Joe Davison's XLN Roberta Large XNLI: ten model jest idealny dla języków innych niż angielski. To działa w ponad 100 językach, a szczególnie dokładny jest w języku angielskim, francuskim, hiszpańskim, niemiecki, grecki, bułgarski, rosyjski, turecki, arabski, wietnamski, tajski, chiński, hindi, suahili, Urdu. Ma mniej więcej takie samo opóźnienie jak Bart Large MNLI.

Nawet jeśli ich dokładność jest imponująca, a opóźnienie całkiem dobre, te 2 modele wciąż są obliczeniowo intensywne modele, a opóźnienie może łatwo wzrosnąć, jeśli tekst, który chcesz analizować staje się zbyt zbyt duży lub liczba kategorii kandydatów jest zbyt duża. Jeśli dokładność nie jest Twoim głównym zmartwieniem, a wolisz wolisz szybszy i mniej zasobochłonny model, możesz łatwo wybrać inny model. Na stronie na przykład, istnieją destylowane wersje Barta, zwane "DistilBart", i są one idealne do tego celu.

Wniosek

Uczenie zero-strzałowe, wraz z uczeniem kilku-strzałowym, są nowoczesnymi technikami, które pojawiły się wraz z tworzeniem dużych modeli przetwarzania języka naturalnego. (zobacz więcej o nauce kilku ujęć tutaj). Dają one dużą elastyczność i sprawiają, że przetwarzanie języka naturalnego staje się coraz bardziej imponujące!

Zachęcamy do wypróbowania klasyfikacji zero-strzałowej i sprawdzenia, czy Wam też się spodoba.

Julien Salinas
CTO w NLP Cloud

Uczenie zerojedynkowe w przetwarzaniu języka naturalnego dla klasyfikacji tekstów

12 sierpnia 2021 r.

Co to jest uczenie się od zera

Uczenie z zerowym ujęciem i klasyfikacja tekstu

Najlepsze modele klasyfikacji zero-strzałowej

Wniosek