ChatGPT е усъвършенстван двигател за чатботове, базиран на моделите GPT-3.5 и GPT-4 на OpenAI. Това е мощен модел, но може да е интересно да се разгледат алтернативи с отворен код.
Проучването на алтернативи с отворен код на ChatGPT дава възможност за персонализиране и адаптиране към конкретни нужди или проекти, като потенциално предлага по-голям контрол върху технологията при запазване на поверителността на данните. Моделите с отворен код осигуряват прозрачност и позволяват на потребителите да разберат основните механизми на модела с изкуствен интелект.
Днес има много добри алтернативи на ChatGPT с отворен код, като LLaMA 3, Mixtral 8x7B, Yi 34B и DBRX. Нека да проучим тези алтернативи.

ChatGPT произлиза от GPT-3.5 и GPT-4 - съвременни генеративни модели на изкуствен интелект, базирани на архитектурата Transformer. Архитектурата Transformer е специфичен тип невронна мрежа, изобретена от Google през 2017 г. Вижте повече тук.
Генериращите модели на изкуствения интелект по принцип са добри в генерирането на определен текст въз основа на конкретни входни данни. В зависимост от входните данни можете да кажете на модела с изкуствен интелект да направи различни неща за вас. Например можете да поискате от модела си да категоризира част от текста, да извлече конкретни същности от част от текста, да обобщи голямо съдържание, да перифразира някакво съдържание, да отговаря на въпроси... и, разбира се, да действа като чатбот.
Всички модели, представени по-долу, са "базови" модели, което означава, че те са необработени модели, които обикновено изискват обучение с няколко изстрела или фина настройка, за да следват правилно инструкциите ви. Това също така означава, че тези модели не въвеждат никакви ограничения по подразбиране.
За да разберете по-задълбочено как да използвате тези генеративни модели на изкуствен интелект, ви препоръчваме да прочетете нашето ръководство за това как да използвате генеративни модели с обучение с няколко снимки: прочетете го тук.
ChatGPT е генеративен модел, който е специално инструктиран да се държи като чатбот. В останалата част на тази статия ще разгледаме алтернативи с отворен код на ChatGPT. За да ги използвате в режим на разговор, ще трябва или да използвате обучение с няколко изстрела за разговорния ИИ, или да направите фина настройка. Научете повече за обучението с няколко снимки за разговорния ИИ тук. Научете повече за фината настройка тук.
Meta пусна на пазара серията LLaMA 3 от големи езикови модели (LLM), която представлява набор от предварително обучени и прецизно настроени генеративни текстови модели, вариращи по размер от 7 до 70 милиарда параметри. Версиите на тези модели, специално настроени за разговор, известни като Llama-2-Chat, са предназначени за приложения за диалог. В сравнение със свободно достъпните модели за разговори моделите на Llama-2-Chat демонстрират по-добра производителност в повечето оценени еталони и въз основа на нашите оценки за полезност и безопасност те се равняват на производителността на някои добре познати собствени модели като ChatGPT и PaLM.
LLaMA 3 включва авторегресивен езиков модел, изграден на базата на подобрена трансформаторна рамка. Подобрените му версии се подлагат на контролирана фина настройка (SFT) и обучение с подсилване и обратна връзка от човека (RLHF), за да се съобразят по-добре с човешките очаквания по отношение на полезността и безопасността.
Разработването на LLaMA 3 продължи от януари до юли 2023 г., като в предварителната фаза на обучението бяха използвани над 2 трилиона токена от публично достъпни данни. Фазата на фино настройване използваше публично достъпни набори от данни за инструкции и включваше повече от милион нови примери, анотирани от хора. Нито една от данните, използвани във фазите на предварително обучение или фина настройка, не идва от потребителските данни на Meta. Докато данните за предварителното обучение са събрани до септември 2022 г., някои от данните за фината настройка са по-нови, като продължават до юли 2023 г.
LLaMA 3 е предназначен за търговски и изследователски приложения предимно на английски език. Прецизно настроените модели са пригодени за създаване на чат приложения, подобни на цифрови асистенти, докато предварително обучените модели са достатъчно гъвкави, за да бъдат адаптирани за различни приложения за генериране на естествен език.
Можете лесно да използвате LLaMA 3 в NLP Cloud: опитайте тук.
Mixtral превъзхожда LLaMA 3 70B в повечето оценки и осигурява шест пъти по-висока скорост на изводите. Той се откроява като най-мощния модел със свободен достъп и най-добрият избор при отчитане на икономическата ефективност. По-конкретно, той се равнява или надхвърля производителността на GPT3.5 в повечето признати тестове.
Възможностите на Mixtral включват безпроблемно управление на до 32 хил. лексеми, поддръжка на множество езици, като английски, френски, италиански, немски и испански, изключителни възможности за генериране на код и възможност за фина настройка за следване на инструкции, като в MT-Bench постига резултат 8,3.
В същността си Mixtral е рядка мрежа за смесване на експерти, функционираща като модел само за декодиране. Нейната структура позволява избор на 8 различни групи параметри в рамките на блока за захранване. Специална маршрутизираща мрежа на всеки слой избира две от тези групи, или "експерти", за обработка на всеки символ, като комбинира резултатите им по адитивен начин.
Този метод дава възможност за разширяване на параметрите на модела, като същевременно ефективно управлява разходите и латентността чрез използване само на част от наличните параметри за всеки токен. По-конкретно, Mixtral притежава общо 46,7B параметри, но прилага само 12,9B параметри за токън, като по този начин постига скорост на обработка и разходи, еквивалентни на 12,9B модел.
Mixtral е разработен, като се използват данни от публичния интернет, а обучението на експерти и маршрутизатори се извършва едновременно.
Можете лесно да изпробвате Mixtral 8x7B в NLP Cloud: опитайте тук.
Моделите от серията Yi представляват най-новия напредък в областта на големите езикови модели с отворен код, разработени от 01.AI. Тези модели, предназначени за двуезична употреба, са обучени върху огромен 3-терабайтов многоезичен набор от данни, което ги позиционира сред най-мощните големи езикови модели в световен мащаб със силни възможности за разбиране на езика, разсъждения и четене с разбиране.
Моделът Yi-34B-Chat зае втората позиция, непосредствено след GPT-4 Turbo, и изпревари други големи езикови модели като GPT-4, Mixtral и Claude в класацията на AlpacaEval, като тази класация се основава на данни до януари 2024 г. Що се отнася до моделите с отворен код, Yi-34B претендира за първото място както за задачите на английски, така и за задачите на китайски език в няколко бенчмарка, изпреварвайки модели като Falcon-180B, Llama-70B и Claude, според класирането в Hugging Face Open LLM Leaderboard (предварително обучен) и C-Eval, като данните се разглеждат до ноември 2023 г.
Структурирана подобно на архитектурата на модела Llama, серията Yi позволява на потребителите да получат достъп и да използват съществуващата екосистема от инструменти, библиотеки и ресурси, предназначени за Llama. Тази съвместимост опростява процеса за разработчиците, като елиминира необходимостта от разработване на нови инструменти и повишава производителността на процесите на разработка.
Можете лесно да изпробвате Yi 34B в NLP Cloud: опитайте тук.
DBRX е голям езиков модел, изграден на базата на трансформаторна архитектура, който се фокусира единствено върху декодирането и използва за обучението си метод, известен като предсказване на следващи символи. Той се отличава с подробна структура на смес от експерти (MoE), като разполага с общо 132 милиарда параметъра, от които 36 милиарда се използват за всеки даден вход. Моделът е подложен на предварително обучение върху огромен корпус от 12 трилиона лексеми, включващ както текст, така и код, до прекъсването му през декември 2023 г. Тази смес от данни за обучение включва примери от естествения език, както и кодове, като значителна част от тях са на английски език.
DBRX се отличава със своя прецизен подход при използването на експерти, като работи с 16 експерти и избира 4 за всяка задача, за разлика от други модели на MoE като Mixtral-8x7B и Grok-1, които имат 8 експерти, но избират само 2. Този подход дава 65 пъти повече потенциални комбинации от експерти, което води до забележимо повишаване на ефективността на модела. DBRX включва усъвършенствани функции, като кодиране на ротационни позиции (RoPE), затворени линейни единици (GLU) и групирано внимание на заявките (GQA) за своите операции.
За предварителното обучение на DBRX бяха предоставени 12 трилиона токена от щателно съставен набор от данни, като обхватът на контекста достигаше до 32 000 токена. Екипът, който стои зад него, Databricks, вярва, че този набор от данни предлага два пъти по-високо качество на един жетон в сравнение с данните, използвани за семейството модели MPT.
Наборът от данни е създаден с помощта на цялостния набор от инструменти на Databricks, който включва Apache Spark™ и Databricks notebooks за обработка на данните, както и Unity Catalog за управление и администриране на данните. Databricks приложи подход за обучение по учебна програма по време на фазата на предварително обучение, като коригира комбинацията от данни по начин, който значително повиши качеството на модела.
DBRX е програмиран да обработва само текстови входове и може да обработва входове с дължина до 32 768 лексеми.
ChatGPT е невероятен чатбот, който може да отговаря на много сложни въпроси. Този двигател с изкуствен интелект всъщност е дори по-подходящ от повечето хора в много области.
ChatGPT обаче може да породи проблеми с поверителността на данните и е ограничена за много случаи на използване. Интересно е да се сравни ChatGPT с най-усъвършенстваните алтернативи с отворен код: LLaMA 3, Mixtral 8x7B, Yi 34B и DBRX. И няма съмнение, че скоро ще бъдат пуснати още по-усъвършенствани модели на ИИ с отворен код.
Ако искате да използвате LLaMA 3, Yi 34B и Mixtral 8x7B в производството, не се колебайте да опитате с NLP Cloud API. (опитайте тук)!
Juliette
Мениджър маркетинг в NLP Cloud