日本語精度トップクラスのLLM「Sarashina」を開発するSB Intuitions株式会社。2024年11月には国内最大級となる4,600億パラメータを持つモデルを開発し、国産LLMの可能性を切り開く存在だ。AIエージェントなど、各社でさまざまなAIサービスが発表される今、Sarashinaはどのようなビジネス活用を構想しているのか。プロダクト化に挑む技術本部 事業戦略部 プロダクトチームの西山 莉紗さんに話を伺った。
-
SB Intuitions株式会社 技術本部 事業戦略部 プロダクトチーム リーダー 西山 莉紗さん
学習データは「秘伝のたれ」 国産LLMだから実現できる安全性
―― SB Intuitionsでは国内最大級のLLM開発を進めていますが、西山さんが率いる技術本部 事業戦略部 プロダクトチームは、どのような役割を担っているのでしょうか。
日本語精度の高いモデル開発に向けてリサーチャーが技術検討を行うR&D本部に対し、当社のLLM「Sarashina」の本格的なプロダクト化に取り組むのが技術本部です。
その中でも事業戦略部 プロダクトチームは、Sarashinaをどのようにお客様に使っていただけるか、どんな仕様にすると使いやすいかを考え、開発部門と連携しながら実際のプロダクトに落とし込む業務を進めています。来年度からのサービス開始を目指しており、 現在はプロダクト化に向けた計画策定に注力しています。
――「ユーザーにどう使ってもらうか」を検討するためには、さまざまな企業からのヒアリングが必要になりそうですね。
はい。当社ではSarashinaを有効活用していただける主力業界として、製薬、金融、医療、製造、教育を想定しており、各業界でのパートナー締結を目指しています。2025年1月には、日本の5大製薬企業の1つである中外製薬と、生成AI活用で新薬開発のスピードアップを目指す共同研究に向けた基本合意を締結しました。お客様の業務の中でどのようにSarashinaを活用いただけそうかヒアリングを行いながらプロトタイプ開発を進めています。
こうしたPoCを進めるほか、さまざまな日本企業が業務で使いやすい、汎用的なプロダクト提供に向けた開発プロジェクトも進めています。
―― 海外製モデルをベースとしたAIサービスを提供する企業も増えています。そんな中、SB Intuitions独自のLLMでプロダクト化に挑む理由はなんですか。
海外製モデルの利用には、万が一のリスクが伴います。例えば「利用価格が上がる」「サービスプロバイダの都合で利用に制限がかかる」といった理由で、サービスそのものが成立しなくなる恐れがあります。サービスの根幹となるLLMはもちろん、モデルの「秘伝のたれ」ともいえる学習データも自社で管理したい、というのが大きな理由です。
また、日本の著作権法や生成AI利活用のガイドラインを遵守できないLLMを国内のビジネスで利用することには懸念が残ります。そういう点でも、私たちが学習データまでガバナンスを効かせて開発したモデルで、国内企業が安心・安全に生成AIを活用できるようにしたいという思いが、モチベーションに繋がっています。
大量のデータを学習することで、業界・業務の専門知識も得られる
―― 御社が掲げる「日本語に特化したLLM」は、ビジネスにおいてどんなメリットがあるのでしょう?
海外製モデルの日本語精度もかなり高くなってきてはいますが、業界・業務の専門知識が必要となる依頼や質問に対しては、誤った解釈の回答が出てくることも少なくありません。
LLMのビジネス活用においては、言葉の意味を正確に理解し、正確な意味で用いることができるモデルが求められます。例えば、「プロパー」という言葉でも、製造業と人材企業では全く異なる意味を持ちますよね。こうした専門用語への対応力こそ、LLMの伸びしろといえるでしょう。
LLMは大量の文書を読んでいくうちに、自然と文脈に応じた用語の意味を理解していきます。専門用語への対応力を高めるためには、従来のAIシステムのように業界ごとに用語集をつくって学ばせるのではなく、各業界・業務で用いられる大量の文書を与えて学ばせることが重要なのです。
-
SB Intuitions株式会社 技術本部 事業戦略部 プロダクトチーム リーダー 西山 莉紗さん
―― 国産LLMの商用化が進んでいますが、御社のモデルの優位点はどこにあるとお考えですか。
商用化をこれから控えているので、実業務における効果の観点では仮説に留まりますが、日本語の認識・生成精度が他社LLMと比べてトップクラスであることは、自信を持って強みだといえます。
こうした強みを発揮できるのは、国内最大級のパラメータを持つLLMを開発できたからです。2024年11月には当初計画していた3,900億パラメータを超える、4,600億パラメータを持つLLMを開発し、研究用に公開しました。 ソフトバンクグループが国内最大級の計算基盤を有していることもそうですが、当社に在籍する国内有数の優秀なリサーチャーによる技術検討の賜物だと思います。
現在は文書以外の画像や動画、音声も扱えるマルチモーダルモデルと、1兆パラメータ規模のLLM開発に向け、学習データを拡張しています。 しかし、「インターネット上で取得可能なあらゆるデータが既にLLMの学習に使われていて、新たな学習データを追加してパラメータ規模をさらに増やしていくことは難しい」という見解も学術界にあり、中長期的なLLM開発の観点では次の戦略も求められている状況です。
次の戦略として、「LLMがすでに学習した知識から、いかに新しい知見を引き出すか」という「推論」と呼ばれる技術の工夫や、より人間の好みにあった回答を出力する工夫に取り組む必要があります。挑戦しなければならないことがますます増えている状況です。
複雑な業務をこなすAIエージェントで重要となる、日本語特化LLM
―― 昨今、「AIエージェント」が注目されていますが、御社はどのように構想していますか。
「AIエージェント」という言葉はさまざまなAIシステムを指し、その中の仕組みも自動化の度合いもシステムによって異なりますが、私たちが構想するAIエージェントは、タスクの理解や実行にLLMを活用することで、人間が実行手順を細かく指示しなくても、複雑なタスクを自動実行できるようにするものです。
例えば、「契約書を作成して」とAIエージェントに指示を出したとしましょう。窓口となるLLMが自身または他のLLMを呼び出し、タスクの詳細化や、社外の検索エンジンや社内のデータベース等を用いた関連情報の収集、得られた情報の取捨選択、そして契約書そのものの作成を行っていきます。LLMをさまざまな用途で用いて、ユーザーの要求に応えていくというわけです。
契約書の作成までを自動化するだけでなく、例えばLLMがオンラインの電子契約サービスを呼び出して契約締結も一部自動化するなど、AIエージェントによってLLM単体よりも自動化の範囲を広げることが可能です。もちろん契約締結の結果起こり得るトラブルの責任まで生成AIが負えるわけではないので、人間のチェックや承認は必要不可欠です。
このように、人間からの指示を正確に把握し、日本の業界や業務の前提知識を反映して指示内容を実行するためには、LLMの日本語認識・生成能力や、日本の法律や商習慣等の学習済知識が重要になると考えます。日本国内のビジネスで活用できるAIエージェントをつくるためにも、まずは日本語や日本の知識に強いLLMを開発しなければならないのです。
「LLMのビジネス化に挑戦できる時が来た」
―― 西山さんは長年、AIの開発研究に携わっていらっしゃったとのことですが、なぜLLMのプロダクト化に関心を持たれたのでしょう。
もともと外資系コンピュータ企業の研究所で、日本語や英語で書かれた文章をAIに理解させる、「自然言語処理」と呼ばれる技術の研究開発に携わっていました。LLMも自然言語処理技術の一つではありますが、当時はまだLLMがここまで当たり前に使われる状況ではなく、その前身となるAI技術を扱っていました。アカデミックではなく企業に所属していたので、AIを研究開発するだけでなく、その技術をお客様にどう使っていただくかという、いわゆるビジネス化まで考えるのが仕事だったのです。自然言語処理は人間同士が普段やり取りしている文章を扱うAIで、業務活用シナリオがイメージしやすいということもあり、当時からお客様の興味関心は高かったのですが、大きなビジネスにしようとすると、費用対効果に関するお客様との期待値調整が難しい側面もありました。
それでも自然言語処理技術のビジネス化に取り組みたくて、製造業でグループ会社内のDX推進の一環として自然言語処理の活用に取り組んだり、AI翻訳エンジンの研究開発チームのマネージャーや、その成果物をプロダクトに導入するプロダクトマネージャーを務めたりしてきました。
そうしている間にGPT-4が登場してLLMが社会的に注目されるようになり、「これは世界が変わるな」と衝撃を受けたんです。これまでは翻訳なら翻訳、要約なら要約というように、機能ごとに学習データを集めてモデルを構築していたのが、一つのモデルで対応できるようになったのですから。自然言語処理のビジネス化に取り組んできた自分としては、LLMのビジネス化に是非とも挑戦したく、SB Intuitionsの門を叩きました。
そもそも、LLMでビジネスを築くことは、多額の投資を必要とする上に、まだ世の中にLLMという新技術の活用ノウハウも十分にないため、難しいです。しかし海外の生成AIサービスが台頭することで起こる「デジタル赤字」を防いで国内企業の利益を守り、 社会的により良い生成AI活用を目指して国産LLMの研究開発に投資できるのは、当社しかいないと思います。
―― 最後に、プロダクト化に向けた今後の目標をお聞かせください。
Sarashinaの活用を広げることで、日本企業における生成AIの業務利用率を上げることが目標です。
総務省の「2024年版情報通信白書」によると、生成AIを利用している日本企業はわずか5割弱で、アメリカや中国に比べ低い水準にあるそうです。 企業での利用が進まない原因は、生成AIの安全性や使いやすさに懸念が残るからではないでしょうか。
国内最大級のパラメータを持ち、独自の学習データを用いて開発されたSarashinaなら、安全性はもちろん、日本の業界・業務に適した精度の高い回答が期待できます。私たちのモデルを業務で取り入れていただくためにも、まずはAIエージェントを含めたプロダクト開発に注力していきたいです。
撮影場所:WeWork