ChatGPT는 OpenAI의 GPT-3.5 및 GPT-4 모델을 기반으로 하는 고급 챗봇 엔진입니다. 강력한 모델이지만 오픈 소스 대안을 고려하는 것도 흥미로울 수 있습니다.
ChatGPT의 오픈소스 대안을 살펴보면 특정 요구사항이나 프로젝트에 맞게 사용자 정의하고 조정할 수 있어 데이터 프라이버시를 보호하면서 기술을 더 잘 제어할 수 있습니다. 오픈 소스 모델은 투명성을 보장하고 사용자가 AI 모델의 기본 메커니즘을 이해할 수 있게 해줍니다.
현재 LLaMA 3, Mixtral 8x7B, Yi 34B, DBRX 등 매우 훌륭한 오픈소스 ChatGPT 대안이 있습니다. 이러한 대안을 살펴보겠습니다.

ChatGPT는 트랜스포머 아키텍처에 기반한 최신 생성형 AI 모델인 GPT-3.5 및 GPT-4에서 파생되었습니다. 트랜스포머 아키텍처는 2017년에 Google에서 개발한 특정 유형의 신경망입니다. 자세한 내용은 여기를 참조하세요.
생성형 AI 모델은 기본적으로 특정 입력을 기반으로 일부 텍스트를 생성하는 데 능숙합니다. 입력에 따라 AI 모델에 다양한 작업을 지시할 수 있습니다. 예를 들어 모델에 텍스트 분류, 텍스트에서 특정 개체 추출, 큰 내용 요약, 일부 내용 의역, 질문에 대한 답변 등을 요청할 수 있으며, 물론 챗봇처럼 작동할 수도 있습니다.
아래에 소개된 모든 모델은 "기본" 모델로, 일반적으로 지침을 제대로 따르기 위해 몇 번의 학습이나 미세 조정이 필요한 원시 모델입니다. 또한 이러한 모델은 기본적으로 어떤 종류의 제한도 구현하지 않는다는 의미이기도 합니다.
이러한 제너레이티브 AI 모델을 더 깊이 있게 활용하려면 소수점 학습으로 제너레이티브 모델을 사용하는 방법에 대한 가이드를 읽어보시기 바랍니다: 여기에서 읽어보세요.
ChatGPT는 챗봇처럼 작동하도록 특별히 지시된 생성 모델입니다. 이 글의 나머지 부분에서는 ChatGPT를 대체할 수 있는 오픈 소스 대안을 살펴보겠습니다. 대화 모드에서 사용하려면 대화형 AI를 위한 소량 학습을 사용하거나 미세 조정을 해야 합니다. 여기에서 대화형 AI를 위한 소수점 학습에 대해 자세히 알아보세요. 여기에서 미세 조정에 대해 자세히 알아보세요.
Meta는 70억 개에서 700억 개의 파라미터로 구성된 사전 학습 및 미세 조정을 거친 생성 텍스트 모델 모음인 LLaMA 3 시리즈 대규모 언어 모델(LLM)을 출시했습니다. 대화용으로 특별히 미세 조정된 이 모델의 버전은 대화 애플리케이션용으로 설계된 Llama-2-Chat으로 알려져 있습니다. 무료로 제공되는 채팅 모델과 비교했을 때 Llama-2-Chat 모델은 대부분의 평가 벤치마크에서 우수한 성능을 보여주며, 유용성 및 안전성에 대한 평가에 따르면 ChatGPT 및 PaLM과 같은 잘 알려진 독점 모델의 성능과도 일치합니다.
LLaMA 3에는 향상된 트랜스포머 프레임워크에 구축된 자동 회귀 언어 모델이 통합되어 있습니다. 개선된 버전은 유용성과 안전성에 대한 인간의 기대에 더 잘 부합하기 위해 감독 미세 조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)을 거칩니다.
LLaMA 3의 개발은 2023년 1월부터 7월까지 진행되었으며, 사전 훈련 단계에서는 대중에게 공개된 데이터에서 2조 개가 넘는 토큰을 활용했습니다. 미세 조정 단계에서는 공개적으로 사용 가능한 명령어 데이터세트를 활용하고 사람이 주석을 단 백만 개 이상의 새로운 예제를 포함했습니다. 사전 학습이나 미세 조정 단계에 사용된 데이터는 모두 메타의 사용자 데이터에서 나온 것이 아닙니다. 사전 훈련 데이터는 2022년 9월까지 수집되었지만, 미세 조정을 위한 일부 데이터는 2023년 7월까지 수집된 최신 데이터입니다.
LLaMA 3는 주로 영어로 된 상업용 및 연구용 애플리케이션을 위해 설계되었습니다. 미세 조정된 모델은 디지털 비서와 유사한 채팅 애플리케이션을 만드는 데 적합하며, 사전 학습된 모델은 다양한 자연어 생성 용도에 맞게 조정할 수 있을 만큼 다재다능합니다.
NLP Cloud에서 LLaMA 3를 쉽게 사용할 수 있습니다: 여기에서 사용해 보세요..
Mixtral은 대부분의 평가에서 LLaMA 3 70B를 능가하며 6배 빠른 추론 속도를 제공합니다. 오픈 액세스를 지원하는 가장 강력한 모델이며 비용 효율성을 고려할 때 최고의 선택입니다. 특히, 대부분의 공인 테스트에서 GPT3.5의 성능과 같거나 능가합니다.
믹스트랄은 최대 32,000개의 토큰을 원활하게 관리하고, 영어, 프랑스어, 이탈리아어, 독일어, 스페인어 등 다양한 언어를 지원하며, 뛰어난 코드 생성 능력과 지침에 따라 세밀하게 조정할 수 있는 기능으로 MT-Bench에서 8.3점을 획득했습니다.
믹스트랄의 핵심은 희소 전문가 혼합 네트워크이며, 디코더 전용 모델로 작동합니다. 이 구조는 피드포워드 블록 내에서 8개의 서로 다른 파라미터 그룹을 선택할 수 있습니다. 각 계층의 전용 라우터 네트워크는 이러한 그룹 중 두 그룹, 즉 '전문가'를 선택해 각 토큰을 처리하고 그 결과를 합산 방식으로 결합합니다.
이 방식은 각 토큰마다 사용 가능한 파라미터의 일부만 활용함으로써 비용과 지연 시간을 효율적으로 관리하면서 모델의 파라미터를 확장할 수 있습니다. 구체적으로 Mixtral은 총 467억 개의 파라미터를 보유하고 있지만 토큰당 129억 개의 파라미터만 적용하여 129억 개의 모델과 동등한 처리 속도와 비용을 달성했습니다.
믹스트랄은 공용 인터넷의 데이터를 사용하여 개발되었으며, 전문가와 라우터의 교육이 동시에 진행되었습니다.
NLP 클라우드에서 Mixtral 8x7B를 쉽게 사용해 볼 수 있습니다: 여기에서 사용해 보세요..
Yi 시리즈 모델은 01.AI가 처음부터 개발한 오픈 소스 대규모 언어 모델의 최신 발전된 버전입니다. 이중 언어 사용을 목표로 하는 이 모델은 3테라바이트의 방대한 다국어 데이터 세트를 학습하여 언어 이해, 추론, 독해 능력에 있어 전 세계에서 가장 강력한 대규모 언어 모델 중 하나로 자리매김하고 있습니다.
2024년 1월까지의 데이터를 기반으로 한 이 순위는 알파카에벌 리더보드에서 Yi-34B-Chat 모델이 GPT-4 Turbo에 이어 2위를 차지했으며 GPT-4, Mixtral, Claude와 같은 다른 대형 언어 모델을 제치고 2위를 차지했습니다. 오픈 소스 모델의 경우, Yi-34B는 여러 벤치마크에서 영어와 중국어 작업 모두에서 1위를 차지했으며, 2023년 11월까지의 데이터를 기준으로 한 허깅 페이스 오픈 LLM 리더보드(사전 훈련) 및 C-Eval 순위에서 Falcon-180B, Llama-70B, Claude 등의 모델을 앞질렀습니다.
Llama 모델 아키텍처와 유사한 구조로 구성된 Yi 시리즈는 사용자가 기존의 도구, 라이브러리 및 리소스 에코시스템에 액세스하고 이를 활용할 수 있도록 합니다. 이러한 호환성은 개발자의 프로세스를 간소화하여 새로운 도구를 개발할 필요성을 없애고 개발 프로세스의 생산성을 향상시킵니다.
NLP Cloud에서 Yi 34B를 쉽게 사용해 볼 수 있습니다: 여기에서 사용해 보세요..
DBRX는 디코딩에만 초점을 맞춘 트랜스포머 아키텍처를 기반으로 구축된 대규모 언어 모델이며, 다음 토큰 예측이라는 방법을 학습에 사용합니다. 총 1,320억 개의 파라미터를 자랑하는 세부적인 전문가 혼합(MoE) 구조가 특징이며, 이 중 360억 개가 주어진 입력에 활용됩니다. 이 모델은 텍스트와 코드를 모두 포함하는 12조 개의 방대한 토큰 코퍼스에 대한 사전 학습을 2023년 12월에 종료될 때까지 진행했습니다. 이 훈련 데이터에는 자연어와 코딩 예제가 눈에 띄게 포함되어 있으며, 상당 부분이 영어로 되어 있습니다.
전문가를 16명으로 구성하고 각 작업에 대해 4명의 전문가를 선택하는 등 세분화된 전문가 활용 방식이 돋보이는 DBRX는 8명의 전문가를 두고 2명의 전문가만 선택하는 Mixtral-8x7B나 Grok-1과 같은 다른 MoE 모델과 달리, 전문가를 세분화하여 활용하는 것이 특징입니다. 이 접근 방식은 65배 더 많은 잠재적 전문가 조합을 생성하여 모델의 성능을 현저하게 향상시킵니다. DBRX는 로터리 위치 인코딩(RoPE), 게이트 선형 단위(GLU), 그룹화된 쿼리 주의(GQA)와 같은 고급 기능을 작업에 통합합니다.
사전 학습을 위해 DBRX는 꼼꼼하게 컴파일된 데이터 세트에서 12조 개의 토큰을 제공받았으며, 컨텍스트 범위는 최대 32,000개의 토큰까지 확장되었습니다. 이 데이터 세트의 개발사인 데이터브릭스는 이 데이터 세트가 MPT 모델 제품군에 사용되는 데이터에 비해 토큰당 2배의 품질을 제공한다고 믿습니다.
데이터 세트는 데이터 처리를 위한 Apache Spark™와 데이터 브릭스 노트북, 데이터 관리 및 제어를 위한 Unity 카탈로그가 포함된 데이터 브릭스의 포괄적인 툴킷을 사용하여 제작되었습니다. 데이터브릭스는 사전 교육 단계에서 커리큘럼 학습 방식을 구현하여 모델의 품질을 크게 향상시키는 방식으로 데이터 믹스를 조정했습니다.
DBRX는 텍스트 기반 입력만 처리하도록 프로그래밍되어 있으며 최대 32,768개의 토큰 길이까지 입력을 처리할 수 있습니다.
ChatGPT는 매우 고급 질문에 답할 수 있는 놀라운 챗봇 엔진입니다. 이 AI 엔진은 실제로 많은 분야에서 대부분의 인간보다 훨씬 더 관련성이 높습니다.
그러나 ChatGPT는 데이터 프라이버시 문제를 일으킬 수 있으며 많은 사용 사례에 제한이 있습니다. ChatGPT를 가장 진보된 오픈소스 대안과 비교하는 것은 흥미로운 일입니다: LLaMA 3, Mixtral 8x7B, Yi 34B, DBRX 등이 있습니다. 그리고 더 발전된 오픈소스 AI 모델이 곧 출시될 것이라는 점은 의심할 여지가 없습니다.
프로덕션 환경에서 LLaMA 3, Yi 34B, Mixtral 8x7B를 사용하려면 주저하지 말고 NLP 클라우드 API를 사용해 보세요. (여기에서 사용해 보세요.)!
Juliette
NLP 클라우드의 마케팅 관리자