言語生成AIの社会実装を進めるAIスタートアップのELYZAは11月15日、Metaが開発したコード生成専用のLLM(Large Language Models:大規模言語モデル)である「Code Llama」に対し日本語による追加事前学習を行ない、コードの生成と補完に特化した70億パラメータの日本語LLM「ELYZA-japanese-CodeLlama-7b」を開発し一般公開したことを発表した。同モデルは研究および商業目的の利用も可能だという。

同社は2023年8月に、「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開している。今回のモデルは、以前の開発で同社が用いた日本語の追加事前学習の一連のメソッドが、「Llama 2」以外のモデルでも汎用的に適用可能であるかを確認する取り組みの一環で開発したとのことだ。

  • 「ELYZA-japanese-CodeLlama-7b」の出力サンプル

    「ELYZA-japanese-CodeLlama-7b」の出力サンプル

Metaが公開しているCode Llamaは、Llama 2をベースとしながらコード生成およびコード補完に関する能力を持つように追加で訓練された言語モデル。リポジトリレベルでの推論に対応するため、扱える系列長がLlama 2と比較して4096から10万へと大幅に拡張されている点や、IDEなどでコードを補完する用途のために専用のチューニングが行われるなど、コードを扱うための工夫が盛り込まれている。

ちなみに、Code Llamaをベースとしてファインチューニングしたモデルが、さまざまなコードを生成するタスクでGPT-3.5 TurboやGPT-4に匹敵する性能を発揮することも報告されているようだ。