В този курс по NLP Cloud ще обърнем внимание на важните етапи в историята на езиковия изкуствен интелект (известен също като обработка на естествен език).
Ето каква е структурата на курса:
Здравейте, това е Жулиен Салинас от NLP Cloud - усъвършенствана платформа за изкуствен интелект за следващия ви проект в областта на изкуствения интелект.
За специалистите по изкуствен интелект е интересно да разберат историята на изкуствения интелект и да видят кои важни етапи са довели до най-съвременните генеративни модели, които всички използваме днес.
В този курс ще разгледам набързо историята на езиковите модели от 20-и век до днес.
ИИ не е нещо ново.
Около 1950 г. инженери и лингвисти започват да работят върху изкуствения интелект за разбиране на текстове.
Това беше ерата на символичната обработка на естествен език до 90-те години на миналия век.
По онова време основната мотивация беше машинният превод, а ИИ се основаваше на набор от правила.
Усъвършенстването на алгоритъма на изкуствения интелект се състои главно в добавянето на повече правила към програмата.
Изследователите бяха доста ентусиазирани от първите си резултати и смятаха, че машинният превод ще бъде проблем, решен до няколко години.
Е, тя все още не е напълно решена.
Тези системи, базирани на правила, доведоха и до създаването на първия, много прост чатбот, наречен Elisa.
От 1990 г. навлизаме в ерата на статистическия НЛП.
Използването на изкуствен интелект със статистически данни вместо с предварително определени правила означаваше, че можем да започнем да изграждаме много по-мощни системи, без да се налага да обмисляме всички сценарии предварително.
Това стана възможно благодарение на напредъка в математическите изследвания, но също и на увеличената изчислителна мощ, осигурена от новите процесори.
Системите ще се учат въз основа на обратна връзка от човека, известно още като обучение под наблюдение, а по-късно дори без никаква човешка намеса, известно още като обучение без наблюдение.
Така беше възможно да се обучат интересни модели въз основа на огромния обем неструктурирани данни, идващи от интернет.
По онова време нови фирми действително използваха машинно обучение в производството, а най-популярният случай на употреба беше разпознаването на именувани същности, известно още като извличане на същности.
Невронните мрежи не са нещо ново.
В средата на 20-ти век някои изследователи вече са имали интуицията да създадат система за изкуствен интелект, изградена от неврони, която да имитира човешкия мозък.
Но невронните мрежи започват да дават интересни резултати едва около 2010 г.
Благодарение на графичните процесори тогава беше възможно да се обучават много по-големи невронни мрежи.
Това беше началото на така наречената ера на дълбокото обучение.
Първите впечатляващи резултати бяха постигнати в областта на компютърното зрение благодарение на конволюционните невронни мрежи, които позволиха усъвършенствана класификация на изображения.
Езикът наистина се възползва от дълбокото обучение едва малко по-късно.
До 2010 г. и появата на дълбокото обучение изкуственият интелект на езика беше основно изследователска област и малко фирми използваха обработка на естествен език в своите продукти.
Нека видим кой скорошен пробив доведе до технологията за генеративен ИИ, която всички познаваме днес.
Истинският пробив за езиковите модели е през 2017 г., когато някои изследователи от Google публикуват статия, наречена Attention is All You Need (Вниманието е всичко, от което се нуждаете).
В тази статия е описан нов вид архитектура на невронна мрежа, наречена трансформатор, базирана на нов принцип, наречен самовнимание.
Архитектурата на трансформатора е в основата на всички впечатляващи езикови модели, които видяхме от 2017 г. насам.
Много бързо след това първият модел беше обучен от Google по архитектурата на трансформатора.
Този модел се нарича BERT.
BERT беше първият езиков модел от производствен клас, който можеше да се използва за всякакви случаи на употреба - обобщаване, извличане на същности, отговаряне на въпроси, превод и др.
BERT беше наистина интересен, защото за първи път беше създаден модел, който беше добър в трансферното обучение.
По принцип моделът е предварително обучен върху голям набор от неанотирани данни и след това е в състояние бързо да се научи на много видове случаи на употреба благодарение на бързи фини настройки, изискващи много малко допълнителни данни.
Първоначално OpenAI беше стартъп с нестопанска цел за изкуствен интелект, който пусна нов вид архитектура, GPT, базирана на трансформатора.
Когато пуснаха GPT-2 през 2019 г., всички бяха впечатлени от възможностите на този модел от текстово поколение.
GPT-2 е първият генеративен модел за производство.
Той е особено добър за попълване на текст.
Например, той е използван от Microsoft за автоматично попълване в Microsoft Office.
Той беше обучен на 8 милиона уебстраници и 7000 книги и съдържаше 1,5 милиарда параметри, което, разбира се, не е много в сравнение с моделите, с които разполагаме днес.
През 2020 г. OpenAI направи втора революция.
Те стават компания с идеална цел и пускат на пазара мощен генеративен модел, наречен GPT-3.
GPT-3 все още се основаваше на архитектурата на GPT, но се обучаваше на повече съдържание.
Тя съдържаше 175 милиарда параметъра и изискваше обучение на хиляди графични процесори в продължение на няколко месеца.
Дори и да не е официално, изследователите смятат, че предварителното обучение на GPT-3 струва около 5 милиона долара.
Това беше първият универсален генеративен модел, който можеше да се използва във всякакви случаи.
За да се възползвате максимално от този модел, вече не е необходима фина настройка.
През повечето време обучението с няколко изстрела беше достатъчно и всъщност дори работеше много добре в режим на обучение с нулеви изстрели.
След това, в същия дух, се появиха ChatGPT и GPT-4.
Скоро след това OpenAI пусна други видове разрушителни модели.
Благодарение на DALI е възможно да се генерират красиви изображения от текст.
Благодарение на Whisper те значително вдигнаха летвата в индустрията за преобразуване на реч в текст.
Може би сте забелязали много различни термини в този курс.
Машинно обучение, дълбоко обучение, невронни мрежи, обработка на естествен език, ИИ, генеративен ИИ.
Някои от тях са специфични технически термини, а други са просто модерни думи.
Аз лично смятам, че обработката на естествен език е правилният термин за технологията за изкуствен интелект, която използваме днес.
Но това не е много важно.
Вече имате основна представа откъде идват нашите модели с изкуствен интелект.