У цьому курсі NLP Cloud ми висвітлюємо важливі віхи в історії мовного ШІ (також відомого як обробка природної мови).
Ось структура курсу:
Привіт, це Джуліан Салінас з NLP Cloud, передової платформи штучного інтелекту для вашого наступного ШІ-проекту.
Практикам ШІ цікаво зрозуміти історію розвитку ШІ і побачити, які важливі віхи призвели до створення передових генеративних моделей, якими ми всі користуємося сьогодні.
У цьому курсі я швидко пройдуся по історії мовних моделей від 20-го століття до сьогодні.
Штучний інтелект - річ не нова.
Інженери та лінгвісти почали працювати над штучним інтелектом для розуміння тексту приблизно в 1950 році.
Це була епоха символьної обробки природної мови до 90-х років.
На той час основною мотивацією був машинний переклад, а ШІ базувався на наборі правил.
Покращення алгоритму ШІ полягало переважно в додаванні нових правил до програми.
Дослідники були дуже захоплені своїми першими результатами і вважали, що машинний переклад буде вирішеною проблемою вже через пару років.
Що ж, це питання не вирішене остаточно і сьогодні.
Ці системи, засновані на правилах, також призвели до появи першого, дуже простого, чат-бота під назвою Еліза.
Починаючи з 1990 року, ми вступили в еру статистичного НЛП.
Використання ШІ зі статистикою замість заздалегідь визначених правил означало, що ми могли почати створювати набагато потужніші системи без необхідності продумувати всі сценарії заздалегідь.
Це стало можливим завдяки прогресу математичних досліджень, а також завдяки збільшенню обчислювальної потужності нових процесорів.
Системи навчатимуться на основі зворотного зв'язку з людиною, так зване контрольоване навчання, а згодом навіть без будь-якого втручання людини, так зване неконтрольоване навчання.
Таким чином, з'явилася можливість тренувати цікаві моделі на основі величезного обсягу неструктурованих даних, що надходять з інтернету.
У той час нові компанії фактично використовували машинне навчання у виробництві, і найпопулярнішим варіантом використання було розпізнавання об'єктів, також відоме як вилучення об'єктів.
Нейронні мережі не є чимось новим.
У середині 20-го століття деякі дослідники вже мали інтуїцію створити систему штучного інтелекту з нейронів, яка б імітувала людський мозок.
Але нейронні мережі почали давати цікаві результати лише близько 2010 року.
Завдяки графічним процесорам з'явилася можливість навчати значно більші нейронні мережі.
Це був початок так званої ери глибокого навчання.
Перші вражаючі результати показав комп'ютерний зір завдяки згортковим нейронним мережам, які дозволили вдосконалити класифікацію зображень.
Поглиблене вивчення мови справді пішло на користь лише трохи пізніше.
До 2010 року, коли з'явилося глибоке навчання, мовний ШІ був, по суті, дослідницькою сферою, і лише деякі компанії використовували обробку природної мови у своїх продуктах.
Тепер давайте подивимося, який нещодавній прорив призвів до генеративної технології ШІ, яку ми всі знаємо сьогодні.
Справжній прорив для мовних моделей стався у 2017 році, коли деякі дослідники Google опублікували статтю під назвою "Увага - це все, що вам потрібно".
У цій статті описано новий тип архітектури нейронної мережі, який називається трансформатор, що базується на новому принципі, який називається самоуважність.
Трансформаторна архітектура лежить в основі всіх вражаючих мовних моделей, які ми бачили з 2017 року.
Дуже швидко після цього перша модель була навчена Google за архітектурою трансформатора.
Ця модель отримала назву BERT.
BERT була першою мовною моделлю виробничого класу, яку можна було використовувати для всіх видів використання, узагальнення, вилучення сутностей, відповідей на запитання, перекладу тощо.
BERT був дійсно цікавим, тому що вперше була створена модель, яка добре підходила для трансферного навчання.
По суті, модель була попередньо навчена на великому наборі неанотованих даних, після чого вона змогла швидко навчитися багатьом різновидам використання завдяки швидким точним налаштуванням, що вимагають дуже мало додаткових даних.
Спочатку OpenAI був некомерційним стартапом у сфері ШІ, який випустив новий тип архітектури GPT, заснований на трансформаторі.
Коли вони випустили GPT-2 у 2019 році, всі були вражені можливостями цієї моделі генерації тексту.
GPT-2 була першою генераторною моделлю серійного виробництва.
Особливо добре це було для завершення тексту.
Наприклад, Microsoft використовувала його для автозавершення в Microsoft Office.
Він був навчений на 8 мільйонах веб-сторінок і 7000 книг і містив 1,5 мільярда параметрів, що, звичайно, не так багато в порівнянні з моделями, які ми маємо сьогодні.
У 2020 році OpenAI здійснив другу революцію.
Вони стали комерційною компанією і випустили потужну генераторну модель під назвою GPT-3.
GPT-3 все ще базувався на архітектурі GPT, але навчався на більшій кількості контенту.
Вона містила 175 мільярдів параметрів і потребувала тисяч графічних процесорів для навчання протягом декількох місяців.
Навіть за неофіційними даними, дослідники вважають, що підготовка GPT-3 коштувала близько 5 мільйонів доларів.
Це була перша універсальна генеративна модель, яка була здатна вирішувати всілякі випадки використання.
Для того, щоб отримати максимальну віддачу від цієї моделі, точне налаштування вже навіть не було потрібне.
Здебільшого достатньо було навчання з кількох пострілів, і воно навіть працювало дуже добре в режимі навчання з нульовим пострілом.
Потім, у тому ж дусі, з'явилися ChatGPT і GPT-4.
Незабаром після цього OpenAI випустила інші види підривних моделей.
Завдяки DALI стало можливим створювати красиві зображення з тексту.
І завдяки Whisper вони різко підняли планку в індустрії перетворення мови в текст.
Можливо, ви помітили багато різних термінів у цьому курсі.
Машинне навчання, глибоке навчання, нейронні мережі, обробка природної мови, ШІ, генеративний ШІ.
Деякі з них є специфічними технічними термінами, а інші - просто модними словами.
Особисто я вважаю, що обробка природної мови - це правильний термін для технології штучного інтелекту, яку ми використовуємо сьогодні.
Але це не дуже важливо.
Тепер ви маєте базове розуміння того, звідки беруться наші моделі штучного інтелекту.