rinnaは2月13日、Qwen2.5とDeepSeek R1を利用して日本語テキストの生成能力を持った「Qwen2.5 Bakeneko 32B」シリーズを開発し、Apache-2.0 Licenseで公開したことを発表した。

rinnaのモデル公開

同社はこれまで、日本語のタスクに適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する基盤モデルを公開してきた。2021年4月よりHugging Faceに公開しているrinnaのモデルは累計920万ダウンロード、1200Likesを記録しているという。

同社は今回、アリババのLLMであるQwen2.5 32Bに対し日本語継続事前学習した「Qwen2.5 Bakeneko 32B」、対話形式で指示を遂行するように学習した「Qwen2.5 Bakeneko 32B Instruct」、DeepSeek R1の出力を用いて蒸留学習した「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」を開発し、公開した。

Qwen2.5 Bakeneko 32Bシリーズの特徴

Qwen2.5シリーズでは、0.5Bから72Bまでの複数のモデルサイズ、コーディング・数学特化、マルチモーダル対応などさまざまなモデルを公開している。特にQwen2.5の32Bモデルサイズは性能とモデルサイズのバランスが良く、派生モデルも開発されている。そこでより使いやすく高性能な日本語LLMを目指し、Qwen2.5 32Bに対し日本語と英語の学習データを使用して継続事前学習した「Qwen2.5 Bakeneko 32B」を開発したという。

「Bakeneko」というモデル名は妖怪の「化け猫」に由来。Qwen2.5 Bakeneko 32Bをベースに、他の派生モデルとモデルマージなどで組み合わせることにより、高い日本語性能を示す応用モデルの作成も期待されるという。「Qwen2.5 Bakeneko 32B Instruct」は、Qwen2.5 Bakeneko 32Bをベースにモデルマージと指示学習を行なったモデルであり、対話形式での利用に適するとのことだ。

  • Qwen2.5 Bakeneko 32B Instructのテキスト生成例

    Qwen2.5 Bakeneko 32B Instructのテキスト生成例

DeepSeekが公開したDeepSeek R1は高性能な一方でモデルサイズが大きく扱いにくいため、より小さなモデルへの知識蒸留がよく用いられる。Qwen2.5 32Bの派生モデルとして、DeepSeek R1から蒸留学習を行なったDeepSeek R1 Distill Qwen 32Bが公開されている。しかしこのモデルは英語と中国語がメインであり、日本語の性能は劣るという。

そこで同社は、Qwen2.5 Bakeneko 32BをベースにモデルマージとDeepSeek R1から生成した思考過程を含む1200件のテキストデータを利用して蒸留学習を行なった「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」を開発。蒸留学習のために生成したデータはわずか1200件ながら、効率的に高い日本語思考能力を備えたモデルの学習に成功したとしている。

  • DeepSeek R1 Distill Qwen2.5 Bakeneko 32Bのテキスト生成例

    DeepSeek R1 Distill Qwen2.5 Bakeneko 32Bのテキスト生成例

日本語の対話性能を評価するJapanese MT-Benchの結果では、DeepSeek R1 Distill Qwen2.5 Bakeneko 32B はDeepSeek R1 Distill Qwen 32Bからスコアの改善が見られた。

  • Japanese MT-Benchのスコア

    Japanese MT-Benchのスコア