SB Intuitionsは11月8日、4000億クラスのパラメータを持つ日本語LLM(Large Language Model:大規模言語モデル)「Sarashina2-8x70B」を公開したことを発表した。
今回公開したSarashina2-8x70Bは、 Sarashina2-70Bの開発で得られた知見を元にMoE(Mixture of Experts)により大規模化している。MoEとは複数のエキスパートモデルを組み合わせて、より高い推論精度を実現する枠組み。
今回はSarashina2-70Bのモデルを元にUpcyclingと言われる手法を用い、トランスフォーマーのフィードフォワードネットワーク部において8個のエキスパートモデルを用いて訓練した。これらを組み合わせて、高精度な推論を実現しているという。
同モデルはSB Intuitionsでベンチマークしている複数の日本語の性能テストにおいて、最高性能を実現したとのことだ。同社によると、比較的小さなサイズのMoEモデルが公開されている中で、この規模のMoEモデルの学習成功例は珍しいものだという。
なお、今回公開したモデルは指示チューニングを施していない事前学習モデル。人間の意図に沿った出力を行うようにチューニングを行ったものではないため、そのまま実用的なサービスには使えない。商用利用ができないライセンスとして公開する。