История языкового ИИ

Transcript

Здравствуйте, это Джулиен Салинас из NLP Cloud, передовой платформы ИИ для вашего следующего проекта в области ИИ.

Для практиков ИИ интересно понять историю развития ИИ и увидеть, какие важные этапы привели к появлению передовых генеративных моделей, которые мы используем сегодня.

В этом курсе я быстро пройдусь по истории языковых моделей с XX века до наших дней.

ИИ не является чем-то новым.

Инженеры и лингвисты начали работать над созданием искусственного интеллекта для понимания текста примерно в 1950 году.

Это была эпоха символьной обработки естественного языка до 90-х годов прошлого века.

В то время основной мотивацией был машинный перевод, а искусственный интеллект основывался на наборе правил.

Совершенствование алгоритма искусственного интеллекта сводилось в основном к добавлению в программу дополнительных правил.

Исследователи были весьма воодушевлены первыми результатами и считали, что машинный перевод станет проблемой, решенной за пару лет.

Впрочем, и сегодня эта проблема до конца не решена.

На основе этих систем, основанных на правилах, был создан и первый, очень простой чат-бот под названием Elisa.

С 1990 года мы вступили в эру статистического НЛП.

Использование ИИ со статистикой вместо предопределенных правил означает, что мы можем начать строить гораздо более мощные системы без необходимости заранее продумывать все сценарии.

Это стало возможным не только благодаря прогрессу в математических исследованиях, но и благодаря увеличению вычислительной мощности новых процессоров.

Системы будут обучаться на основе обратной связи с человеком, что также известно как контролируемое обучение, а впоследствии даже без какого-либо вмешательства человека, что также известно как неконтролируемое обучение.

Таким образом, стало возможным обучать интересные модели на основе огромного объема неструктурированных данных, поступающих из Интернета.

В то время новые предприятия уже использовали машинное обучение в производстве, и наиболее популярным примером было распознавание именованных сущностей, также известное как извлечение сущностей.

Нейронные сети - не новинка.

В середине XX века у некоторых исследователей уже была интуиция создать систему искусственного интеллекта из нейронов, которая бы имитировала человеческий мозг.

Но нейронные сети начали давать интересные результаты только в 2010 году.

Благодаря графическим процессорам стало возможным обучать гораздо более крупные нейронные сети.

Так началась так называемая эра глубокого обучения.

Первые впечатляющие результаты были получены в области компьютерного зрения благодаря конволюционным нейронным сетям, которые позволили проводить продвинутую классификацию изображений.

Язык по-настоящему выиграл от глубокого обучения лишь немного позже.

До 2010 года и появления глубокого обучения языковой ИИ был, по сути, исследовательской областью, и лишь немногие компании использовали обработку естественного языка в своих продуктах.

Теперь давайте посмотрим, какой из недавних прорывов привел к созданию технологии генеративного ИИ, которую мы знаем сегодня.

Настоящий прорыв в области языковых моделей произошел в 2017 году, когда несколько исследователей Google выпустили работу под названием Attention is All You Need ("Внимание - это все, что вам нужно").

В данной работе описана архитектура нейронной сети нового типа, называемая трансформатором, основанная на новом принципе, называемом самовнушением.

Трансформаторная архитектура лежит в основе всех впечатляющих языковых моделей, которые мы видели с 2017 года.

Очень быстро после этого первая модель была обучена компанией Google в соответствии с архитектурой transformer.

Эта модель получила название BERT.

BERT была первой языковой моделью производственного уровня, которую можно было использовать для самых разных задач: обобщения, извлечения сущностей, ответов на вопросы, перевода и т.д.

BERT был действительно интересен тем, что впервые была создана модель, хорошо справляющаяся с трансферным обучением.

По сути, модель была предварительно обучена на большом наборе неаннотированных данных, после чего она смогла быстро обучиться различным вариантам использования благодаря быстрой тонкой настройке, требующей очень мало дополнительных данных.

Изначально OpenAI был некоммерческим ИИ-стартапом, который выпустил новый вид архитектуры GPT, основанный на трансформаторе.

Когда в 2019 году был выпущен GPT-2, все были поражены возможностями этой модели текстового поколения.

GPT-2 была первой генеративной моделью производственного уровня.

Особенно хорошо это проявилось при заполнении текста.

Например, он был использован компанией Microsoft для автозаполнения в Microsoft Office.

Она была обучена на 8 млн. веб-страниц и 7 тыс. книг и содержала 1,5 млрд. параметров, что, конечно, не так много по сравнению с теми моделями, которые мы имеем сегодня.

В 2020 году OpenAI совершил вторую революцию.

Они стали коммерческой компанией и выпустили мощную генеративную модель GPT-3.

GPT-3 по-прежнему базировался на архитектуре GPT, но в нем было заложено большее количество контента.

Она содержала 175 млрд. параметров и требовала тысячи графических процессоров для обучения в течение нескольких месяцев.

Пусть не официально, но исследователи считают, что предтренировочный комплекс GPT-3 стоит около 5 млн. долл.

Это была первая универсальная генеративная модель, способная решать самые разные задачи.

Для того чтобы максимально использовать возможности этой модели, тонкая настройка уже не требовалась.

В большинстве случаев достаточно было нескольких выстрелов, а в режиме обучения без выстрелов он вообще работал очень хорошо.

Затем, в том же духе, появились ChatGPT и GPT-4.

Вскоре после этого OpenAI выпустила другие виды разрушительных моделей.

Благодаря DALI стало возможным генерировать красивые изображения из текста.

А благодаря Whisper они значительно подняли планку в области преобразования речи в текст.

Вы, наверное, заметили, что в этом курсе много различных терминов.

Машинное обучение, глубокое обучение, нейронные сети, обработка естественного языка, ИИ, генеративный ИИ.

Некоторые из них являются специальными техническими терминами, другие - просто модными словечками.

Я лично считаю, что обработка естественного языка - это правильный термин для технологии языкового ИИ, которую мы используем сегодня.

Но это не очень важно.

Теперь вы имеете базовое представление о том, откуда берутся наши модели искусственного интеллекта.

История языкового ИИ

Summary

Transcript