언어 AI의 역사

Transcript

안녕하세요, 다음 AI 프로젝트를 위한 고급 AI 플랫폼인 NLP Cloud의 줄리엔 살리나스입니다.

AI 실무자는 AI의 역사를 이해하고 오늘날 우리 모두가 사용하고 있는 최첨단 생성 모델을 이끌어낸 중요한 이정표를 살펴보는 것이 흥미롭습니다.

이 강좌에서는 20세기부터 오늘날까지 언어 모델의 역사를 빠르게 살펴볼 것입니다.

AI는 새로운 것이 아닙니다.

엔지니어와 언어학자들은 1950년경부터 텍스트 이해를 위한 인공 지능을 연구하기 시작했습니다.

90년대까지는 기호적 자연어 처리의 시대였습니다.

당시에는 기계 번역이 주된 동기가었고 AI는 일련의 규칙에 기반했습니다.

AI 알고리즘을 개선하는 것은 주로 프로그램에 더 많은 규칙을 추가하는 것이었습니다.

연구원들은 첫 번째 결과에 매우 열광했고, 기계 번역은 몇 년 안에 해결될 문제라고 생각했습니다.

이 문제는 오늘날에도 완전히 해결되지 않았습니다.

이러한 규칙 기반 시스템을 통해 Elisa라는 최초의 매우 간단한 챗봇도 탄생했습니다.

1990년, 우리는 통계적 자연어 처리의 시대에 접어들었습니다.

미리 정의된 규칙 대신 통계와 함께 AI를 사용하면 모든 시나리오를 미리 고려할 필요 없이 훨씬 더 강력한 시스템을 구축할 수 있습니다.

이는 수학 연구의 발전뿐만 아니라 새로운 CPU가 제공하는 향상된 연산 능력 덕분에 가능했습니다.

시스템은 사람의 피드백을 기반으로 학습하게 되는데, 이를 지도 학습이라고도 하며, 나중에는 사람의 개입이 전혀 없이도 학습하게 되는데, 이를 비지도 학습이라고도 합니다.

따라서 인터넷에서 유입되는 방대한 양의 비정형 데이터를 기반으로 흥미로운 모델을 학습할 수 있었습니다.

당시 새로운 기업들은 실제로 생산 과정에서 머신 러닝을 사용하고 있었으며, 가장 인기 있는 사용 사례는 엔티티 추출이라고도 하는 엔티티 인식이었습니다.

신경망은 새로운 것이 아닙니다.

20세기 중반, 일부 연구자들은 이미 인간의 뇌를 모방한 뉴런으로 구성된 AI 시스템을 만들 수 있다는 직관을 가지고 있었습니다.

하지만 신경망은 2010년경에야 흥미로운 결과를 내기 시작했습니다.

GPU 덕분에 훨씬 더 큰 규모의 신경망을 훈련할 수 있게 되었습니다.

이것이 이른바 딥 러닝 시대의 시작이었습니다.

컴퓨터 비전은 컨볼루션 신경망 덕분에 고급 이미지 분류를 가능하게 하는 인상적인 첫 번째 결과를 얻었습니다.

언어가 딥 러닝의 혜택을 받기 시작한 것은 조금 후에였습니다.

2010년 딥러닝이 등장하기 전까지만 해도 언어 AI는 연구 영역에 머물러 있었으며, 자연어 처리를 제품에 사용하는 기업은 거의 없었습니다.

이제 오늘날 우리가 모두 알고 있는 제너레이티브 AI 기술이 어떤 최근의 혁신으로 이어졌는지 살펴봅시다.

언어 모델에 대한 진정한 돌파구는 2017년에 일부 Google 연구원들이 주의력만 있으면 된다는 논문을 발표했을 때였습니다.

이 논문에서는 자기 주의라는 새로운 원리에 기반한 트랜스포머라는 새로운 종류의 신경망 아키텍처에 대해 설명했습니다.

트랜스포머 아키텍처는 2017년 이후 우리가 보아온 모든 인상적인 언어 모델의 핵심입니다.

그 후 얼마 지나지 않아 구글은 트랜스포머 아키텍처에 따라 첫 번째 모델을 학습시켰습니다.

이 모델은 BERT라고 불렀습니다.

BERT는 모든 종류의 사용 사례, 요약, 엔티티 추출, 질문 답변, 번역 등에 사용할 수 있는 최초의 프로덕션급 언어 모델입니다.

BERT는 처음으로 이전 학습에 능숙한 모델이 만들어졌다는 점에서 정말 흥미로웠습니다.

기본적으로 이 모델은 주석이 달리지 않은 대규모 데이터 세트로 사전 학습된 후 추가 데이터가 거의 필요하지 않은 빠른 미세 조정 덕분에 다양한 종류의 사용 사례를 빠르게 학습할 수 있었습니다.

OpenAI는 처음에는 트랜스포머를 기반으로 한 새로운 종류의 아키텍처인 GPT를 출시한 비영리 AI 스타트업이었습니다.

2019년에 GPT-2를 출시했을 때 모두가 이 텍스트 생성 모델의 기능에 깊은 인상을 받았습니다.

GPT-2는 최초의 프로덕션급 제너레이티브 모델입니다.

특히 텍스트 완성에 유용했습니다.

예를 들어, Microsoft Office에서 자동 완성 기능에 사용되었습니다.

이 모델은 800만 개의 웹 페이지와 7,000권의 책에 대해 학습했으며 15억 개의 매개변수를 포함했는데, 물론 오늘날의 모델과 비교하면 그다지 많은 양은 아닙니다.

2020년, OpenAI는 두 번째 혁명을 일으켰습니다.

그들은 영리 회사가 되어 GPT-3라는 강력한 발전 모델을 출시했습니다.

GPT-3는 여전히 GPT 아키텍처를 기반으로 하지만 더 많은 콘텐츠에 대한 학습이 이루어졌습니다.

1,750억 개의 파라미터가 포함되어 있고 몇 달 동안 학습하는 데 수천 대의 GPU가 필요했습니다.

공식적인 것은 아니지만 연구원들은 사전 훈련 GPT-3에 약 500만 달러의 비용이 든다고 생각합니다.

모든 종류의 사용 사례를 처리할 수 있는 최초의 다목적 제너레이티브 모델이었습니다.

이 모델을 최대한 활용하기 위해 더 이상 미세 조정이 필요하지 않았습니다.

대부분의 경우 몇 번의 샷 학습으로 충분했으며 실제로 제로 샷 학습 모드에서도 매우 잘 작동했습니다.

그리고 같은 정신으로 ChatGPT와 GPT-4가 탄생했습니다.

그 후 얼마 지나지 않아 OpenAI는 다른 종류의 파괴적인 모델을 출시했습니다.

DALI 덕분에 텍스트에서 아름다운 이미지를 생성할 수 있었습니다.

그리고 Whisper 덕분에 음성-텍스트 변환 업계의 기준을 획기적으로 높였습니다.

이 강좌에서 다양한 용어를 보셨을 것입니다.

머신 러닝, 딥 러닝, 신경망, 자연어 처리, AI, 제너레이티브 AI.

어떤 용어는 특정 기술 용어이고 어떤 용어는 단순히 유행하는 유행어입니다.

저는 개인적으로 자연어 처리라는 용어가 오늘날 우리가 사용하고 있는 언어 AI 기술에 적합한 용어라고 생각합니다.

그러나 이것은 그다지 중요하지 않습니다.

이제 AI 모델의 출처에 대해 기본적으로 이해하셨을 것입니다.

언어 AI의 역사

Summary

Transcript