パナソニックHD、国内最大級の日本語LLMを開発‐パラメータ数は1000億

パナソニックホールディングス(パナソニックHD)は7月2日、記者発表会を開き、AI開発のストックマークと、パナソニックグループ専用の大規模言語モデル(LLM)の開発で協業すると発表した。性能の指標となるパラメータ数で1000億のモデルを今秋までに構築し、グループ企業内のみで活用する。多くの企業が利用する汎用型モデルや、70～130億パラメータの小型モデルとの差別化を図る。今後は、現在開発を進めているマルチモーダル基盤モデルへ統合することを目指す。

パナソニックHDは国内最大級の日本語LLMを開発する

同日の記者発表会に登壇したパナソニックHD テクノロジー本部デジタル・AI技術センター所長の九津見洋氏は、「昨今、LLMは目覚ましい発展をしているが、それぞれの事業領域における知識の深さや、AIが誤った回答をする『ハルシネーション』の抑制が、今後ますます重要になっている。トップレベルの技術を保有するストックマークとの連携により日本語LLMの開発と活用を加速させていく」と述べた。

ストックマークが独自に開発するLLM「Stockmark-LLM-100b」に、パナソニックグループの社内データを追加事前学習させた「Panasonic-LLM-100b」を構築する。ストックマークが開発したLLMは、独自に収集したビジネスドメインの日本語データを中心に事前学習を行っており、日本語・ビジネス領域に特化している点が特徴だ。同社は今回、この非公開版のLLMを国内外で初めて提供するという。

「当社が開発するLLMは、ビジネス領域において『GPT-4』よりも回答精度が高く、ビジネスで十分に活用できるレベルだ。ハルシネーションも大幅に抑止しており、高度な質問にも豊富な知識で対応できる」と、ストックマーク代表取締役CEOの林達氏は説明した。

独自の日本語LLM「Panasonic-LLM-100b」概要

両社が構築するLLMは、企業が開発する自社専用のLLMとしては国内最大規模になる見込みだという。セキュリティ面にも配慮し、企業の秘匿データを安全性高く学習する仕組みも構築する予定だ。

現在多くの企業で利用している汎用型モデルにはいくつかの課題があるとパナソニックHDは指摘する。最初に上げられることは、利用コストが肥大化していることだ。利用量に応じて課金され、使えば使うほど利用コストが肥大化することから、あらゆる業務に組み込むことは難しいケースもある。

また、ビジネス領域における知識不足も挙げられる。汎用型モデルはAIを活用したビジネスや事業領域における知識、いわゆるドメイン知識(特定の専門分野に特化した知識や知見)が不足していることが多く、そのまま業務に使ってしまうと、高頻度でハルシネーションが生じてしまう。

これらの課題に対し、自社固有のデータを学習させた自社LLMの開発に取り組む企業も増えている。また、日本語に特化したLLMを開発する企業も少なくない。サイバーエージェントは2023年5月に最大68億パラメータの日本語LLMを一般公開した。ソフトバンクもLLMの開発を進めており、24年度内に3900億パラメータのモデルが完成する見通し。日本語特化型でパラメータ数が1兆にのぼる高性能モデルの開発も視野に入れている。

ソフトバンクの生成AI計算基盤の設備

パナソニックHDは、今後の展開として、「Panasonic-LLM-100b」の性能を劣化させずに小型化・高速化して、適用範囲を拡大していくことも目指す。「機器リソースが潤沢ではないエッジやオンプレミス領域にも生成AIの活用を拡大させ、幅広い事業のプロがAIを使いこなせるようにする」(久津見氏)という。

また、テキストだけでなく画像や動画、音声なども処理できるマルチモーダル化を進めることで、テキスト以外のセンサーを活用する領域への展開も進める。「Panasonic-LLM-100b」のモーダル拡張でさまざまなセンサーに対応できるようにすることで、パナソニックHDおよび各事業会社におけるAI開発・社会実装を加速していく考えだ。