このNLPクラウドコースでは、言語AI(自然言語処理とも呼ばれる)の歴史における重要なマイルストーンに焦点を当てます。
コースの構成はこうだ:
こんにちは、あなたの次のAIプロジェクトのための先進的なAIプラットフォーム、NLPクラウドのジュリアン・サリナスです。
AIの実務家にとって、AIの歴史を理解し、どの重要なマイルストーンが今日の最先端の生成モデルにつながったかを知ることは興味深い。
このコースでは、20世紀から今日までの言語モデルの歴史をざっと見ていく。
AIは新しいものではない。
エンジニアや言語学者がテキスト理解のための人工知能に取り組み始めたのは1950年頃。
これが90年代までの記号的自然言語処理の時代である。
当時の主な動機は機械翻訳であり、AIは一連のルールに基づいていた。
AIアルゴリズムの改善は、主にプログラムにルールを追加することだった。
研究者たちは最初の結果にかなり熱中し、機械翻訳は2、3年で解決する問題だと考えていた。
まあ、今日でもまだ完全には解決していない。
このようなルールベースのシステムは、エリサと呼ばれる最初の、非常にシンプルなチャットボットにもつながった。
1990年、私たちは統計的NLPの時代に入った。
事前に定義されたルールの代わりに統計を使ってAIを使うことで、事前にすべてのシナリオを考えることなく、より強力なシステムを構築できるようになった。
これを可能にしたのは、数学的研究の進歩だけでなく、新しいCPUが提供する計算能力の向上でもあった。
システムは人間のフィードバックに基づいて学習するようになり、これは教師あり学習とも呼ばれる。
そのため、インターネットから送られてくる膨大な量の非構造化データに基づいて、興味深いモデルを訓練することが可能になった。
当時、機械学習を実際に生産現場で使用していたのは新しいビジネスで、最も人気のあるユースケースは、名前付きエンティティ認識、別名エンティティ抽出だった。
ニューラルネットワークは新しいものではない。
20世紀半ば、すでに何人かの研究者は、人間の脳を模倣するニューロンでできたAIシステムを作る直感を持っていた。
しかし、ニューラルネットワークが興味深い結果を出し始めたのは2010年頃からだ。
GPUのおかげで、より大規模なニューラルネットワークの訓練が可能になった。
これがいわゆるディープラーニングの時代の始まりだった。
最初の印象的な成果は、高度な画像分類を可能にした畳み込みニューラルネットワークのおかげで、コンピュータービジョンからもたらされた。
言語がディープラーニングの恩恵を本当に受けたのは、もう少し後のことだ。
2010年にディープラーニングが台頭するまで、言語AIは基本的に研究分野であり、自社製品に自然言語処理を使用する企業はほとんどなかった。
それでは、今日のジェネレーティブAI技術につながった最近のブレークスルーを見てみよう。
言語モデルの真のブレークスルーは2017年、グーグルの研究者たちが「Attention is All You Need(注意力がすべて)」という論文を発表したときだった。
本稿では、自己注意と呼ばれる新しい原理に基づく、トランスフォーマーと呼ばれる新しい種類のニューラルネットワーク・アーキテクチャについて述べた。
トランスフォーマー・アーキテクチャーは、2017年以降に我々が目にした印象的なすべての言語モデルの中核をなしている。
その後すぐに、最初のモデルがトランスフォーマー・アーキテクチャに従ってグーグルによってトレーニングされた。
このモデルはBERTと呼ばれた。
BERTは、要約、固有表現抽出、質問応答、翻訳など、あらゆる種類のユースケースに使用できる最初のプロダクショングレードの言語モデルであった。
BERTが本当に面白かったのは、初めて転移学習が得意なモデルができたからだ。
基本的に、モデルは注釈のない大規模なデータセットで事前に訓練され、追加データをほとんど必要としない迅速な微調整のおかげで、多くの種類のユースケースを迅速に学習することができた。
オープンAIは当初、非営利のAIスタートアップで、トランスフォーマーをベースにした新種のアーキテクチャ「GPT」を発表した。
2019年にGPT-2をリリースしたとき、誰もがこのテキスト世代モデルの能力に感銘を受けた。
GPT-2は最初の量産型生成モデルである。
特にテキストを完成させるのに適していた。
例えば、マイクロソフト社では、マイクロソフト・オフィスのオートコンプリートに使われている。
800万のウェブページと7000冊の書籍で学習され、15億のパラメータを含んでいた。
2020年、OpenAIは第2の革命を起こした。
彼らは営利企業となり、GPT-3という強力なジェネレーティブ・モデルをリリースした。
GPT-3は依然としてGPTアーキテクチャをベースにしているが、より多くのコンテンツをトレーニングしている。
1,750億のパラメータを含み、数ヶ月のトレーニングに数千のGPUを必要とした。
正式なものでなくても、研究者たちはGPT-3の事前トレーニングには500万円ほどかかると考えている。
あらゆるユースケースに対応できる最初の汎用的な生成モデルだった。
このモデルを最大限に活用するためには、微調整はもはや必要ない。
ほとんどの場合、数ショットの学習で十分であり、実際、ゼロショット学習モードでも非常にうまく機能した。
そして、同じ精神でChatGPTとGPT-4が登場した。
その後すぐに、オープンAIは他の種類の破壊的モデルを発表した。
DALIのおかげで、テキストから美しい画像を生成することが可能になった。
そして、Whisperのおかげで音声テキスト化業界の水準を劇的に引き上げた。
このコースではさまざまな用語が登場する。
機械学習、ディープラーニング、ニューラルネットワーク、自然言語処理、AI、ジェネレーティブAI。
具体的な専門用語もあれば、単なる流行の流行語もある。
私自身は、自然言語処理という言葉が、現在私たちが使っている言語AI技術にふさわしいと思っている。
しかし、これはあまり重要ではない。
これで、我々のAIモデルがどこから来ているのか、基本的な理解ができただろう。