大規模言語モデルの精度や安全性を左右する「ファインチューニング」って? 国内最大級のLLM開発に挑むエンジニアに独占取材! Part2

「日本語に特化した大規模言語モデル（LLM）」の開発に取り組み、将来的には様々なサービスのエンジンとしての利用を目指すSB Intuitions株式会社。国内最大級の計算基盤を有する開発環境で、同社のエンジニアはどのような試行錯誤を繰り返しているのだろうか。前回、膨大な日本語データを学習させる「事前学習チーム」に取材を行ったのに続き、今回はその後工程を担う「ファインチューニングチーム」の皆さんに話を伺った。

今回お話を伺ったファインチューニングチームの皆さん
（左）清野舜さん　チューニング用データセットの整備を担当
（中央）小林滉河さん　LLMチューニングチームリーダー
（右）馬越雅人さん　　チューニングの実施・評価を担当

国内最大級のLLM開発に挑むエンジニアたち（全4回）

＜Part1＞事前学習チーム
国内最大級の大規模言語モデルはどうやって開発するの?
＜Part3＞Responsible AIチーム
言語モデルの安全性はだれが守っているの?
＜Part4＞大規模データチーム
大規模言語モデルの開発に欠かせない「アノテーション」とは?

ファインチューニングの2つのプロセスとは

── 前回は「日本語に特化した言語モデル」を形づくる事前学習チームの皆さんにお話しを伺いました。「ファインチューニング」はその後工程を担うフェーズと伺いましたが、どのようなことをするのですか?

小林さん：簡単にいえば「事前学習済みモデルを人間の意図に沿って動いてもらうための工程」を行っています。この工程も大きく分けて2つの方法があり、まず1つは、「インストラクション・チューニング」と呼ばれるものです。ここでは事前学習済みモデルに対して、指示とそれに対する理想的な応答からなるデータを使ってチューニングをしていきます。例えば「夕飯のメニュー候補を教えて」という指示に対して、「ハンバーグなどはいかがでしょうか」といった応答を生成させるように学習するという感じです。このようなデータを収集するために、言語モデル自身にデータを生成させたり、社内で雇用しているアノテーター（※1）の方たちに依頼を出したりするのも私たちの仕事です。
（※1　様々なデータにラベル付けを行う職種）

馬越さん：インストラクション・チューニングは「テキストが与えられ、それに続く単語を予測できるように学習する」という点において、事前学習と似ています。では、異なる点は何かというと、「与えるデータ」です。事前学習では Wikipedia や Web 上のテキストなど雑多なテキストを与えて学習しますが、インストラクション・チューニングでは指示とそれに対する応答を与えて学習します。その結果、指示に対して期待した応答が生成できるようになるわけです。

小林さん：2つ目の方法は、「プレファレンス・チューニング」と呼ばれるものです。ここでは1つの質問に対して、モデルに2つの回答を用意し、どちらがより適した回答なのかを教えます。マーケティングでいうABテストのような方法ですね。これによって人間好みの発話が出来るように学習を行います。
また、LLMを利用した犯罪が起きないようにするのも、プレファレンス・チューニングの大きな目的です。もし「爆弾の作り方を教えて」という質問があった時に、モデルが実際にその方法を教えるような回答をしてしまうと危険ですよね。何をどこまで回答できるようにするか、その線引きをするためにもプレファレンス・チューニングは重要な工程といえます。

── LLMを含めた生成AIが抱えるリスクとして、しばしばハルシネーションが取り沙汰されます。ファインチューニングはその予防にも役立つのでしょうか?

LLMチューニングチームリーダー
小林滉河さん

小林さん：はい。ハルシネーションが起きないようにするには、事前学習とファインチューニングの連携が重要です。事前学習では膨大な量のデータをモデルに学習させますが、モデルにとってはそのデータが世界の全てです。ですから、事前学習で身につけていない知識以外のことをファインチューニングで学習させようとすると、ハルシネーションを起こす傾向があります。例えば2020年までの世界情勢のデータを学習したモデルに「2023年のアメリカ大統領は誰？」と聞いたとします。モデルは2020年の古い世界の知識しか持っていないにも関わらず、それでも回答しようとしてしまい、誤った答えを出力してしまう。きちんと「2020年までの知識しかもっていないので、分かりません」と答えられるモデルに仕上げなければなりません。そのための一歩として、ファインチューニングを行う際は、事前学習の段階でどんなデータをどの範囲まで学習したかを知っておく必要があります。

清野さん：関連して、どのようなデータで学習したかだけでなく、どのような設定（ハイパーパラメータ）を用いて学習したかという情報共有も必要です。例えば、事前学習で用いた学習率や正則化を知っておくことで、円滑にファインチューニングを実施できます。そのため、ファインチューニングは他のチームとの連携が欠かせません。その点、当社は事前学習チームがすぐ隣にいるので、かなりスムーズに情報共有ができていますね。

民間企業ならではの充実した開発環境がモチベーションに

──皆さんは、チーム内でそれぞれどのような分野を担当されているのですか?

小林さん：私はファインチューニングチームのリーダーを務めています。事前学習チームをはじめ、他のチームと協力して、新しいモデルにどういう機能を追加すべきかを考えたり、アノテーターと連携を取って必要なデータをつくってもらったり、全体的な進行をまとめる役割です。また先ほど爆弾の例を挙げましたが、事前学習済みモデルに、危険なことや著作権を侵害するようなことを回答させないための取り組みも行っています。

チューニングの実施・評価を担当
清野舜さん

清野さん：私の主な担当は、チューニングに利用するデータセット（※2）を整備することです。データセットは人間がつくるものと、現状の言語モデルに指示を与えて自動で生成する方法があります。より精度を高めるためには両方のデータセットが必要ですが、現在は自動化する方法が重視されていますね。実際、人間がモデルに対して入力しうるテキストは多様で、「こんにちは」とだけ書く人もいれば、夕食のメニューを質問してくる人、何らかの計算結果やプログラミングのコードを求めてくる人もいます。そうしたあらゆる角度からの入力に対して、理想的な出力をさせられるようデータを整備していきたいと思っています。
（※2　ファインチューニングのデータセットには、質問とそれに対する応答が対になったデータなどが利用される）

馬越さん：私はチューニングの実施やチューニングされたモデルの評価に携わっています。回答が適切かどうかの評価は、既存の言語モデルを用いて自動で行うことが多いです。というのも、量が膨大すぎて、人間がひとつずつ確認するわけにはいきませんから。ただし、言語モデルによる評価は事実と異なることでも、それらしきことが書いてあれば高評価をつけてしまったり、評価に使う言語モデルのバイアスに影響されてしまったり、完璧な手法とはいえません。ある程度は人間がサポートしてあげる必要がありますね。

── LLM開発は高度な専門性を求められる仕事だと思いますが、皆さんはどうして今の仕事に就かれたのですか?

小林さん：もともと大学院でも自然言語処理を学んでいましたが、新卒ではLINE株式会社（当時）にエンジニアとして入社しました（※3）。当初はエンジニア志向で言語モデルは利用するだけでしたが、やがてモデルを作る側に回りたいと思うようになり、今は専門的な知見を持った仲間と一緒にアカデミックな仕事をすることをとても楽しく感じています。
（※3　SB IntuitionsはLINEヤフー株式会社をはじめ、ソフトバンクグループの技術者を集結させて2023年に設立された）

チューニングの実施・評価を担当
馬越雅人さん

馬越さん：私も大学院から自然言語処理を扱う研究室に入って、日本語の基礎解析の研究に携わっていました。基礎解析には言語モデルを活用して取り組んでいたのですが、これからはベースとなるモデルそのものを大きくすることが求められる時代になるだろうと思い、新卒でLINEに入社しました。大きなモデルをつくるには計算資源が必須ですから、アカデミアで研究を続けるより、開発環境が充実している企業に入社したいと感じたんです。

清野さん：私は大学院まで自然言語処理を学んだ後、理化学研究所に就職しましたが、LINEが自然言語処理を核とする研究開発をやっていくと聞いて、中途採用に応募しました。LLMに対する会社の投資規模には魅力を感じますね。計算機の量など国内最大級ですから、ここでしかできない仕事があります。そこに魅力やモチベ―ションを感じています。

── 今の職場を端的に言い表すとしたら、どんな言葉が合っていると思いますか?

小林さん：「LLMのプロフェッショナル集団」というところでしょうか。これだけLLMの専門性が高いエンジニアが集まっている会社は、他にないと思います。

LLMエンジニアに求められるのは「自発的に動ける力」

── 国産LLM開発が各社で熾烈化していますが、LLMエンジニアにとって求められる人材とは、どんな人だと思いますか?

小林さん：「自発的に動ける人」だと思います。今、LLM開発はものすごい勢いで進んでいて、日々多くの論文が発表されていますが、その内容は玉石混交です。数ある論文の中から参考になる部分を見抜いて開発中のモデルに実装していく力が必要ではないでしょうか。自発的に論文などへのアンテナを張って良いものを選び出し、実装までできる力のある人と一緒に開発に挑みたいですね。

清野さん：自身で論文を書くことも重要です。私も当社メンバーと共著でいくつか論文を出していますが、それによって「清野がどんな仕事をしているのか」を社外だけでなく社内にも発信することができます。「この技術については清野が論文を出していたから、相談してみよう」と、開発が円滑に進められるようになりますし、もちろん自身のキャリアアップにもつながりますね。

── 最後に、「日本語に特化した大規模言語モデル」構築に向け、現在開発の真っただ中ですが、チームとしての今後の目標はありますか?

小林さん：やはり「国産LLMとしてナンバーワンのモデルをつくる」ことが目標です。当社のモデルは自然言語処理に精通した人材がデータをつくり、日本語を母語とする者の観点からチューニングを行っているので、それが高い性能につながっていくと考えています。
実際、既存の海外製モデルと当社モデルが提示する回答を比較させながら精度向上に努めているのですが、日本の文化や歴史などにまつわる回答では、当社モデルのほうが性能が高く出るケースもあります。地道な作業も多いですが、どんどん先行モデルとの差を詰めて、国産LLMのナンバーワンを目指したいと思います。