「今こそ『日本語に特化した大規模言語モデル』が必要」国内最大級の生成AI開発に挑むSB Intuitionsが描く青写真

ビジネスシーンにおける生成AIの実装が進む中、国産の大規模言語モデル（LLM）開発が注目を集めている。ソフトバンクグループの一員であるSB Intuitions株式会社は2023年、「日本語に特化したLLM」を掲げ、国内最大級の1兆パラメーター構築を目標とした研究開発に着手した。なぜ日本語に特化したLLMが必要なのか、今後どのようなビジネスモデルを見据えているのか。同社の代表取締役社長兼 CEO の丹波廣寅氏に開発の意義を伺った。

SB Intuitions株式会社代表取締役社長兼 CEO　丹波廣寅氏

利益や文化を守るためには「日本語でつくられたLLM」が必要

──SB IntuitionsはLLMの開発研究に特化した企業として設立されました。その経緯を教えてください。

これまでソフトバンクでは携帯電話のサービスプラットフォームの開発に取り組んできました。その後、データを収集するIoT実装と、分析に用いるAI（当時は学習済みのデータを処理するもの）の開発を行っていました。その過程で「これからは生成AIソリューションがサービスの核になる」と感じ、グループ内の価値ある知見を活かしたLLMの研究開発をスタートさせたことが当社の始まりです。

今ではビジネスにおける生成AIサービスの活用が普及していますが、多くのサービスで採用されている海外製のモデルを使い続けることに、私は強い危機感を覚えています。なぜなら、自分たちの経済活動で得たデータが、海外製のモデルでつくられたプラットフォームの上を行き来するということは、あらゆる危険性を内包しているからです。似たような話としては、パブリッククラウドを活用する際のリスクがイメージしやすいでしょう。

──それで国産、つまり「日本語でつくられたLLM」の開発に取り組まれたのですね。

それ以外に「日本語文化の存続を守る」という観点でも国産のLLMが必要です。

海外製のモデルは日本語で入力してもLLMが主に英語で訓練されているため、翻訳機のようなどこか違和感が残る表現になってしまいます。たとえば「長く使われていない銀行口座のことを何といいますか」と聞くと、「眠っている口座」「お休みしている口座」という答えが返ってくる。正しくは「休眠口座」ですが、もし銀行のチャットボットでこのような回答が返ってきたら企業の信用を損ねかねません。

他にも法律関連の文書作成など、オフィシャルな場面で生成AIを活用するときこそ、正しい日本語表現が重要になってくるのです。

生成AIを教育に導入する動きも活発化していますが、日本語の豊かさを残していくためにも日本語に特化したLLMは必要です。

英語では日よけを「ブラインド」と呼びますが、日本語では「すだれ」「よしず」と言い分けるし、タマネギを炒めた色を単なる「ブラウン」ではなく「飴色」という透明感の持った言葉で表現します。このような日本語の豊かさを持つLLMがあれば、日本の商習慣を損なわず、あらゆる日本の産業にAIソリューションとして活用できるでしょう。

海外製のモデルが急速に社会へ溶けこみつつある今こそ、日本語に特化したLLM開発に挑まなければならない。そんな使命感と挑戦心のもと、SB Intuitionsは設立されました。

パラメーター数を拡大することで〝創発性〟が生まれる

──国産LLMの開発は熾烈化しています。各社の動向をどのように見ますか？

国産LLMはそれぞれ２軸に分かれると考えます。１つは英語ベースでつくられたLLMか、日本語ベースでつくられたLLMかどうか。多くの企業は英語ベースのオープンモデルに日本語を追加学習したLLMを開発しているのが現状です。低コストかつ短期間で構築できますが、学習の大部分は英語で行われているため、翻訳機に近い言葉が出てくるのが特徴です。

もう１つはLLM自体が小規模か、大規模か。サイズの小さいLLMは知識量も限られるため、専門的な分野でしか活用できないのです。

例えば、商談を行うコールセンターなどでは、「近ごろは蒸すねぇ」という雑談から「今年は雨が多いようですから、旅行先はここがオススメですよ」といった提案が可能になりますが、このレベルの対応をAIに代替するとなると、広範なデータ量と大規模なパラメーターが必要になります。

国内で使用される国産大規模言語モデル（LLM）の現状

我々は2024年度内に3900億パラメーター構築完了を目指していますが、将来的には約１兆パラメーター構築を目標にしています。なぜこれだけの大規模を目指すかというと、さまざまな条件が絡み合うことで予想外の結果を生み出す「創発性」を求めているからです。

そもそも、LLMは創発性が期待できます。新たな発見は既存の知識と知識を掛け合わせて起こるものですから、パラメーター数が大きければ大きいほど高度な結果が期待できます。だからこそ、我々は日本語ベースでつくられた大規模なモデル構築を進めているのです。一度大規模なLLMを構築できれば、蒸留して必要なサイズへ小型化することもできます。スマホ用の1GBモデルに縮小してビジネス展開することも可能です。

──現在、GPT-4 のパラメーター数はすでに1兆を超えているといわれています（※2024年6月時点）。性能で追いつくことは難しいのではないですか。

パラメーターとは文脈の関係性を捉える能力に相関します。簡単にいうと、文章内のより離れた単語同士の関係を理解するために必要なパラメーター数は離れた分だけ増える、ということです。

処理が行われる際、文章は単語ではなく「トークン」という単位で区切られます。海外製のLLMは英語特有の区切られ方をしているため、日本語に適用すると、単語同士の距離が離れてしまい、その分多くのパラメーターを必要とします。つまり、たとえパラメーター数が１兆でも、処理に必要なトークン数が例えば３倍かかると、日本語の性能は大きく下がってしまいます。

日本語を主とする適正なデータセットを用いた、日本語特有のトークナイザー使用の国産LLMと、海外製のLLMを並べて日本語での能力を競う際、パラメーター数だけでは性能の単純比較はできないのです。

言語処理専門の研究者がいたからこそ実現できた開発環境

──パラメーター数について誤解していました。それだけ大規模な開発をなぜSB Intuitionsはできるのでしょうか？

国内最大級のAI計算基盤を運用していることもそうですが、一番の理由は、日本語の言語処理を専門とする研究者がソフトバンクグループにいたことです。

今でこそ国内のLLM開発が勢いを増していますが、約５年前は細々とした分野で、言語処理の専門性を発揮できる環境は限られていました。幸い、Yahoo! JAPANが検索サービスを提供していたため、与えられた日本語をどのように理解してどう表示すべきか、研究開発の土台が残っていたのです。実際の開発現場ではモデルの精度を高めるため、権利処理したデータセットの中から無意味なデータを消していく作業が必要です。そのフィルタリングなど、さまざまな場面でこれまで培ってきた知見が活かされています。

とはいえ、日本において自然言語処理の研究者の数は少ないため、既存の人脈を活かして開発協力を呼び掛けているのが現状です。また、LLM開発は言語処理だけでなく、エンジニアリングも重要です。さらなるパラメーター数拡大を目指し、優秀なソフトウェアエンジニアやクラウドエンジニアの採用にも力を入れています。

──最後に、今後どのようなビジネス展開を見据えているか、お聞かせください。

2024年度内に3900億パラメーターを構築後、早い段階で商用のプロダクト化も行いたいです。その際、ただLLMを提供するのではなく、企業のソリューションとインテグレーションしやすい独自のサービスプラットフォームを提供する予定です。

SB Intuitionsが見据える事業構想

AIサービスというとチャットボットやDXが主流ですが、プロダクト化するには創発性を生み出す我々のLLMでしか成せないビジネスモデルに挑戦していきたいですね。たとえば、製薬事業における創薬の分野では、研究者が知識を出し合い、検証を重ねるのに途方もない時間がかかります。我々の生成AIが〝直感的〟にソリューションを生み出すことができれば、開発期間の短縮に貢献できるかもしれません。

〝直感〟、つまり〝Intuition〟は、膨大な経験や知識をもとに結論に到達できる能力のことを指します。単なるデータベースを超えた、創発的なLLMの開発に引き続きチャレンジしていきます。

SB Intuitionsが挑むLLM開発の詳細はこちら