Что такое обучение с нулевым результатом и как его можно эффективно применить в обработке естественного языка для классификации текстов, благодаря трансформерам обнимающихся лиц?
Благодаря последним современным моделям обработки естественного языка на основе трансформаторов, нулевое обучение приобрело большую популярность. популярность в мире обработки естественного языка. Идея заключается в том, что модель теперь может распознавать некоторые классы, даже если она не была была обучена для этого.
Это то, что люди делают естественным образом. Например, если ваш ребенок знает, что такое верблюд, вам просто нужно рассказать ему, что есть еще одно животное под названием дромадер, очень похожее на верблюда, только у него на спине один горб, а не два! на спине один горб вместо двух! В следующий раз, когда ваш ребенок увидит изображение дромадера, он будет знать, что это такое, пока пока он видит его в первый раз!
Методы нулевой выборки связывают наблюдаемые и ненаблюдаемые классы посредством некоторой формы так называемой "вспомогательной" информации, которая кодирует отличительные свойства объектов. Это была очень популярная техника в компьютерном зрении в течение долгого времени, которая теперь все больше и больше используется в обработке естественного языка.
Обучение с нулевым результатом отлично подходит для классификации текстов. Классификация текста - это применение одной или нескольких категорий к фрагменту текста (космос, бизнес, спорт и т.д.).
До недавнего времени модели классификации текста могли только классифицировать фрагменты текста с помощью заранее определенного числа категорий-кандидатов. Эти категории должны были быть заданы заранее во время обучения. Это было мучительно потому что это означало, что каждый раз, когда вы хотели добавить категорию, вы должны были заново обучать свою модель на большем количестве примерами.
С момента создания гораздо более крупных моделей обработки естественного языка (в большинстве случаев основанных на трансформаторах), стало возможным можно было обучать модели только на определенном списке категорий, а затем позволить пользователям создавать новые категории "на лету" без необходимости повторного обучения модели.
Например, предположим, что ваша модель классификации текста с нулевым снимком была обучена распознавать только 3 категорий: космос, природа и спорт. Вы все равно можете использовать ее для классификации текстов по другим категориям, например, бизнес, еда или наука.
Это очень мощная техника, которая обеспечивает большую гибкость и при этом дает отличные результаты.
Существуют отличные модели обработки естественного языка с открытым исходным кодом, основанные на трансформаторах обнимающихся лиц, которые работают очень хорошо подходят для классификации текста с нулевым снимком.
В NLP Cloud мы выбрали эти 2 модели, которые, по нашему мнению, являются лучшими современными моделями для классификации текстов с нулевым снимком на данный момент:
Даже если их точность впечатляет, а задержка довольно хорошая, эти 2 модели все еще являются модели, требующие больших вычислений, и время ожидания может легко увеличиться, если текст, который вы хотите проанализировать, станет слишком или количество категорий-кандидатов слишком велико. Если точность не является вашей главной задачей, и вы предпочитаете более быструю и менее ресурсоемкую модель, вы можете выбрать другую модель. Для Например, существуют дистиллированные версии Bart, называемые "DistilBart", и они идеально подходят для этого.
Обучение с нулевым результатом, наряду с обучением с несколькими результатами, это современные методы, которые появились с созданием больших моделей обработки естественного языка (подробнее об обучении несколькими выстрелами здесь). Они обеспечивают большую гибкость и делают обработку естественного языка все более впечатляющей!
Не стесняйтесь попробовать классификацию с нулевым результатом и посмотрите, понравится ли она вам тоже.
Julien Salinas
Технический директор NLP Cloud