Топ 10 Рамки за обработка на естествен език, услуги и участници през 2022 г.

Пазарът за обработка на естествен език е в подем и наскоро в екосистемата се появиха много нови инструменти. Ето кои са библиотеките, фреймуърковете, езиците, услугите и участниците, за които трябва да знаете, за да интегрирате разбирането на текст и генерирането на текст във вашия проект през 2022 г.

Топ 10 рамки, услуги и участници

1. Python | Най-добрият език за програмиране за NLP
2. Hugging Face | Централно хранилище за всички модели
3. OpenAI | Компанията, която стои зад GPT-3
4. NLP Cloud | API за обработка на естествен език в производството
5. Deepspeed | Паралелизирайте обучението и изводите си
6. Big Science | Изследователска група по изкуствен интелект на Hugging Face
7. spaCy | Бърза и готова за производство рамка за NLP
8. HF Transformers | Усъвършенствана рамка за NLP
9. HF Tokenizers | Разширен набор от токенизатори за NLP
10. NLTK | Изследователска и образователна рамка за NLP

1. Python

Python

От много години Python е де факто стандартният език в науката за данните. Ако работите по проект за обработка на естествен език, най-вероятно някъде ще има код в Python.

Python е много изразителен и прост език от високо ниво, което го прави напълно подходящ за приложения за машинно обучение. Но още по-важно е, че Python се ползва с цялостна екосистема от библиотеки и рамки, които улесняват живота на учените, занимаващи се с данни.

Независимо дали работите по изследователски или производствен проект, дали обучавате нови модели или ги използвате за изводи, най-вероятно ще ви се наложи да използвате Python. Ако непременно трябва да използвате друг език, може да намерите хубави библиотеки и на други езици, но само за основни случаи на употреба (за по-напреднали случаи на употреба решението ще бъде да приемете стратегия за микросървиси и да използвате REST API).

2. Hugging Face Hub

Hugging Face

Хъбът за прегръщане на лица е централно хранилище, в което се съхраняват повечето модели за обработка на естествен език с отворен код.

В Hugging Face е лесно да откривате нови модели с изкуствен интелект, но и да качвате и споделяте своите. Това е и чудесно място за разглеждане и намиране на набори от данни за следващия ви проект. Моделите и наборите от данни могат лесно да се изтеглят и използват чрез тяхната рамка Transformers (вж. по-долу).

Визията на Hugging Face е да "демократизира" обработката на естествен език и да се превърне в "Github на машинното обучение".

3. OpenAI

OpenAI

OpenAI е компанията, която стои зад GPT-3 - най-усъвършенствания модел на езиков изкуствен интелект, създаван някога.

Първите две версии на този модел (GPT и GPT-2) бяха с отворен код, но OpenAI реши, че GPT-3 вече няма да бъде с отворен код. Ако искате да използвате GPT-3, трябва да се абонирате за API на OpenAI. Само Microsoft има достъп до изходния код на GPT-3, тъй като е закупил изключителен лиценз.

Моделите GPT са модели за генериране на текст с изкуствен интелект, които са много добри в писането на текст като човек. Всъщност за човек е доста трудно да определи дали даден текст е написан от истински човек или от GPT-3...

Проектирането и обучението на този нов изкуствен интелект струва на OpenAI милиони долари. Ако искате да го използвате, ще трябва да преминете през труден процес на валидиране, тъй като OpenAI не позволява на всички видове приложения да използват техния модел.

Сега се пускат нови модели с отворен код, за да се догони OpenAI, като GPT-J и GPT-NeoX.

4. NLP Cloud

Това сме ние!

NLP Cloud е API, който ви позволява лесно да използвате най-усъвършенстваните AI модели за обработка на естествен език в производството.

Например можете да генерирате текст с GPT-J и GPT-NeoX, да обобщавате съдържание с Bart Large CNN на Facebook, да класифицирате част от текст с Roberta, да извличате същности със spaCy, да превеждате съдържание с Opus MT... и много други.

В облака NLP Cloud е възможно също така да обучавате и настройвате свой собствен изкуствен интелект или да внедрявате свои собствени модели. Например, ако искате да създадете свой собствен медицински чатбот, базиран на GPT-J, просто трябва да качите набор от данни, съставен от ваши собствени примери, идващи от вашия бранш, след което да започнете процеса на обучение и да използвате окончателния си модел в производството чрез API.

5. Deepspeed

Deepspeed

Deepspeed е рамка с отворен код на Microsoft, която се фокусира върху паралелизирането на модели.

Какво точно означава това?

Моделите с изкуствен интелект стават все по-големи (вижте GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B...). Тези огромни модели отварят врати за множество нови приложения, но също така са много трудни за изпълнение.

Обучението на тези модели и надеждното им пускане в производство за изводи може да се осъществи или чрез вертикално мащабиране (използване на огромни графични процесори като NVIDIA A100 или Google TPU), или чрез хоризонтално мащабиране (паралелно използване на няколко малки графични процесора).

Вторият подход е все по-популярен, тъй като е по-евтин и по-добре мащабируем. Въпреки това извършването на разпределено обучение и извод далеч не е лесно, затова Deepspeed наистина помага.

Първоначално Deepspeed беше насочена към задачи за обучение, но сега все повече се използва за изводи, тъй като е лесна за използване и се интегрира с Hugging Face Transformers (вж. по-долу).

6. Big Science

Big Science

Big Science е колектив от изследователи и компании, които работят върху големи езикови модели.

Първият им семинар създаде модел на изкуствен интелект, наречен T0, който се справя много добре с разбирането на човешки инструкции.

Сега те работят върху много по-големи модели: целта им е да създадат многоезични модели на изкуствен интелект с отворен код, които са по-големи и по-усъвършенствани от GPT-3.

7. SpaCy

spaCy

SpaCy е рамка за обработка на естествен език в Python, която е идеално пригодена за производство: тя е бърза и лесна за работа.

Това е рамка, поддържана от германска компания за изкуствен интелект, наречена Explosion AI.

SpaCy е много добър в разпознаването на назовани същности (известно също като извличане на същности) и на около 50 различни езика. Те предоставят предварително обучени модели и можете лесно да създавате свои собствени модели чрез анотирани примери.

8. HF Transformers

Рамката на "Трансформърс" беше издадена от Hugging Face преди няколко години. Повечето от усъвършенстваните модели за обработка на естествен език вече се основават на Transformers.

Това е модул на Python, базиран на PyTorch, Tensorflow и Jax, който може да се използва както за обучение, така и за изводи.

Трансформаторите на Hugging Face улесняват много изтеглянето и качването на модели в центъра за Hugging Face.

9. HF Tokenizers

Библиотеката за токенизатори от Hugging Face е набор от усъвършенствани токенизатори за обработка на естествен език, използвани от модели, базирани на трансформатори.

Токенизацията е разделяне на входния текст на малки думи и подсловове, които след това могат да бъдат кодирани и обработени от модела на изкуствения интелект.

Токенизацията може да звучи като подробност, но не е. Всъщност тя е критична част от обработката на естествен език и използването на правилния токенизатор е от огромно значение за качеството на резултатите и представянето.

10. NLTK

NLTK означава Natural Language Toolkit (комплект инструменти за естествен език). Това е рамка на Python, която съществува от много години и е чудесна за научни изследвания и образование.

NLTK не е производствено ориентирана рамка, но е идеална за учени, които се опитват да се справят с обработката на данни на естествен език.

Заключение

През 2021 г. областта на обработката на естествен език значително се разви. Днес все повече компании искат да използват модели на езиков изкуствен интелект в производството и е интересно да се види, че през 2022 г. екосистемата няма почти нищо общо с това, което беше преди 5 години.

Библиотеките и фреймуърците стават все по-усъвършенствани, а създаването на големи езикови модели като GPT-3 поражда нови интересни предизвикателства.

Нямам търпение да видя какво ще бъде през 2023 г.!

Julien Salinas
Технически директор в NLP Cloud