AI技術の急速な発展により、日常生活やビジネスに大きな変化を体験した人も多いだろう。特に近年では生成AIや、その中心となるLLM(Large Language Models:大規模言語モデル)の発展が目覚ましい。マイナビニュース TECH+でも、多くの活用事例や最新技術を紹介している。だがしかし、その仕組みや専門用語を理解するのは、意外と難しい。

そこで本連載では、生成AIやLLMに関連する用語について解説する。日々のビジネスや資格取得に向けた勉強、弊誌をはじめニュース記事を読む際の補足として活用してほしい。用語解説は、ソフトバンク子会社で日本語に特化したLLMの開発を進めるSB Intuitionsのエンジニアリングチーム。

学習率

学習率とは、一般にニューラルネットワークモデルの学習に用いられる勾配法において、パラメータの更新度合いを表す指標。勾配法の一種である勾配降下法の場合、時刻tにおけるパラメータをθ(t)として、θ(t+1) = θ(t) - α × ∇Lと更新される(αが学習率)。

∇Lは勾配と呼ばれるその時点までのパラメータによる予測結果と正解との差を表す損失(ロス)の偏微分であり、それに掛かる学習率αは、重要なハイパーパラメータの一つ。学習を通して定数とする場合や、学習ステップとともに変化していく値として設定する場合もある。たとえばSB intuitionsが開発するLLM「Sarashina2」における学習率は2.5e-4 (2.5×10^-4)を最大とし、次第に下げていくように設定している[1]。(黒澤)

参考

[1] 大規模な日本語の事前学習言語モデルSarashina1・2の公開
https://www.sbintuitions.co.jp/blog/entry/2024/06/26/115641

事前学習

事前学習とは、ニューラルネットワークモデルに汎用的な知識を持たせるため、大量のデータを用いて行なう教師なし学習(厳密には自己教師あり学習)のこと。GPT[1]の事前学習タスクとして使用されている、LLMの事前学習におけるタスクは、ある入力のトークン列をもとに、その次のトークンを予測すること (Next Token Prediction) がある。

この事前学習タスクを行うことで、個別のタスクを解くための大規模な学習を行なうことなく数個の例をプロンプトに含めること(Few-Shot)のみでそのタスクの傾向を読み、解けるようになる。「Sarashina2」の構築に用いた事前学習データは約2.1兆トークンあり、そのうち日本語は約1兆トークン含まれている[2]。(黒澤)

参考

[1] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving Language Understanding by Generative Pre-Training.
https://openai.com/index/language-unsupervised/
[2] 大規模な日本語の事前学習言語モデルSarashina1・2の公開
https://www.sbintuitions.co.jp/blog/entry/2024/06/26/115641

クリーニング

LLM構築の文脈では、クリーニングは学習データ(コーパス)をモデルの学習前に処理しておくことを指す。コーパスの主なデータ源はインターネットから広く収集されたテキストであるが、ここには学習の際にノイズとなるテキストも大量に含んでいる。

クリーニングの目的はこのノイズを取り除くことにある。ノイズとなるテキストの例として、広告由来のテキストで商品に関連する名詞が繰り返されているもの、メニューやタグに由来する文字列、テンプレートを基に単語を差し替えて機械的に生成されているような文などが挙げられる。(新里)

ファインチューニング

ファインチューニングとは、事前学習済みモデルを別のデータセットを使って再トレーニングすることでモデルのパラメータを調整し、各タスクの性能を強化することを指す。LLMでは対話など特定のタスクに適応させるための手法として使われる。

LLMは汎用的な言語理解能力を獲得しているが、そのままでは特定のタスクで高い性能を発揮することが難しい。ファインチューニングでは、LLMを基にタスク固有の高品質なデータを用いて追加学習を行う。

この際、モデルのアーキテクチャは変更せず、パラメータのみを更新する。ファインチューニングによりLLMの汎用的な知識を生かしつつ、タスクに特化した応答性質や知識を獲得することができる。(新里)

インストラクションチューニング

インストラクション(=指示)チューニング(Instruction Tuning)は、LLMが人間の指示に従った文章を生成するようにファインチューニングを行う手法である。事前学習後のLLMは入力テキストに基づいて次のトークンを予測し続ける (Next Token Prediction) ことでテキストを生成するが、そのままだと人間の指示に従う能力が限定的である。

そこで、モデルに対し「指示」と「理想的な応答」のペアを大量に与えてファインチューニングを行うことで、ユーザーが指示を入力した際にその指示に沿った応答を生成する能力を向上させる。これにより、LLMがユーザーのニーズに応じた情報提供やタスク支援を効率的に行えるようにする。

事前学習が自己教師あり学習なのに対し、インストラクションチューニングは「指示と応答」を利用する教師あり学習である。(泉)

参考

[1]山田育矢・鈴木正敏・西川荘介・藤井一喜・山田康輔・李凌寒.『大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価』. 技術評論社, 2024.
[2] Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. 2022. Finetuned Language Models are Zero-Shot Learners. In International Conference on Learning Representations.

プレファレンスチューニング

プレファレンス(=選好)チューニング(Preference Tuning)は、LLMが生成する出力を人間の好みに基づいてファインチューニングする手法である。ある入力に対するモデルの応答候補のペアに対して、ユーザーやアノテーターが好ましい方を選択することで、好ましい応答と好ましくない応答のペアを作成する。

そして、Proxy Policy Optimization(PPO)や、Direct Policy Optimization(DPO)などの学習アルゴリズムを用いて、好ましい応答の生成確率を高め、好ましくない応答の生成確率は下げるように学習することで、特にモデルが生成する応答の安全性や信頼性を向上させ、不適切な内容や誤解を招くような出力を抑制する。これにより、モデルがユーザーの期待や好みにより沿った、安全で信頼性の高い応答を生成できるようにする。(泉)

参考

[1]山田育矢・鈴木正敏・西川荘介・藤井一喜・山田康輔・李凌寒.『大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価』. 技術評論社, 2024.
[2] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. 2022. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35, 27730-27744.
[3] Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning and Chelsea Finn. 2024. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36.

泉 健太
SB Intuitions R&D本部 Foundation dev部 LLMコア構築チーム / LLMチューニングチーム

2022年3月東北大学工学部電気情報物理工学科卒業、2024年4月奈良先端科学技術大学院大学先端科学技術研究科情報科学領域修士課程修了。ソフトバンクに新卒入社した後、SB Intuitionsへ出向。現在はLLMに長文入力を行う手法や、既存の学習済みモデルをより大きなモデルの学習に使い回す手法の試行、マルチモーダル対話システムの開発などに従事。

新里 顕大
SB Intuitions Foundation dev部 LLMコア構築チーム

2022年京都大学工学部情報学科卒業、2024年京都大学情報学研究科修士課程修了。LINEヤフーに新卒入社した後、SB Intuitionsに転籍入社。専門は理論神経科学。社内では大規模言語モデルの構築を行うチームに所属し、学習データの構築基盤の開発などを担当。

黒澤 友哉
SB Intuitions R&D本部 Responsible AIチーム

2022年東京大学理学部情報科学科卒業、2024年東京大学大学院情報理工学系研究科修士課程修了。LINEヤフーに新卒入社した後、SB Intuitionsに転籍入社。専門は自然言語処理。社内では大規模モデルの安全性に関する研究を行うチームに所属しており、現在は自社製言語モデルの安全性を高めるプロジェクトを担当。