SB Intuitions株式会社が開発を続けるモデル「Sarashina(さらしな)」が掲げるのは、「日本語に特化したLLM(大規模言語モデル)」だ。その言葉通り、高品質なアノテーションにより、高い日本語精度を実現している。今回はSarashinaの品質を司る「大規模データチーム」に登場いただき、精度向上にどのように貢献しているのか伺った。

  • SB Intuitions株式会社 R&D本部 Foundation dev部 大規模データ構築チーム リーダー 吉田 奈央さん
今回お話を伺った大規模データチーム
吉田 奈央さん チームリーダー

国内最大級のLLM開発に挑むエンジニアたち(全4回)

人間の好みに合った回答ができるよう、質問を繰り返す

── 連載最後の今回は、日本語に特化したLLMを開発する上で欠かせない「アノテーション」について伺います。言語モデル開発において、アノテーションという言葉はよく耳にしますね。

吉田さん:アノテーションとは、日本語でいう「注釈付け」のことです。自然言語処理におけるアノテート、つまり「注釈をつける作業」は、テキストを品詞分解したり、和製英語を抜き出したり、話者が言い間違えた箇所を抽出したりする前処理のことです。目的に合わせて学習させたいデータに前処理を施すことで、機械が正確な日本語を学習できるようになります。新聞をはじめとした書き言葉のみならず、音声書き起こしなど、あらゆる言語データがアノテーションの対象です。

ただ当社のLLM開発におけるアノテーションは、こういった自然言語処理におけるアノテーションとは少し異なり、モデルからの回答が人間の好みに合うかどうかを判断する「プレファレンス アノテーション」を指します。

例えば、「朝食になにを食べたらいいか」という問いを2つのモデルに聞いた際、1つは「スクランブルエッグ」、もう1つは「鍋」と答えたとしましょう。一般的には「朝から鍋はちょっと……」と感じますよね。そこで、「朝食」という状況なら「スクランブルエッグのほうが嬉しい」とモデルに教えていくのです。人間の好みに合った回答を教えていくうちに、モデルは統計的な傾向を学んでいきます。適切な応答ができるようになるには、さまざまな質問と、それに対する好ましい回答を、繰り返し教えていくことが大切です。

好みを教えるだけでなく、あえて攻撃的な質問を与えて倫理的な回答を教えることもあります。前回、Responsible AIチームが例として挙げていたように、「子供の躾として叩いていいか」という議論の余地がある質問をつくり、絶対してはいけないことを含む、適切とはいえない回答が返ってきたら望ましい回答例を教える、といったプロセスです。

多彩なアノテーターが、さまざまな切り口のデータを作成

── こうした少しひねった質問や回答例をつくるのが、吉田さんのチームに所属する「アノテーター」ですね。

吉田さん:はい。当社のアノテーターは日本語を母語とし、さまざまなバックグラウンドを持つ方が所属しています。ユーザーのあらゆる問いかけに対応できるよう、時には重箱の隅をつつくような質問をつくることも大切ですから、多彩な趣味や経験、知識を持った方を積極的に採用しています。

アノテーターはそれぞれ創意工夫をこらし、質問を作成します。面白い例ですと、「私は東北出身の20代の女性です。都内へ引っ越すときに必要な役所の手続きを教えてください」という具体的なロールモデルを想定したものや、「ある要素を入れた、女子高生が主人公の小説のプロットを考えて」など、具体的な状況を想定したプロンプトなどがあげられます。

こうした質問にSarashinaが丁寧かつ適切な応答ができているかを確認するだけでなく、面白さや優しさのある応答になっているか、ユーザーの満足が得られる内容となっているかも、アノテーターが丁寧に確認をしながらデータを作成しています。

また、当社が目指すのは「日本の文化に精通したLLM」ですから、常識的なことはもちろん、一部の日本人しか知らないような文化や歴史について、Sarashinaに教えることも欠かせません。日本の法律学科を卒業しているアノテーターや、華道経験の長いアノテーターなどが、それぞれの知識に基づいたQ&Aを教師データとして作成しています。

── アノテーターが作成した教師データが正しいかどうか、ファクトチェックはどうされているのですか。

吉田さん:必ず根拠となるソースと併せてプロンプトを提出してもらうよう、お願いしています。Responsible AIチームやファインチューニングチームなど、各チームのリサーチャーもそのソースを確認しており、もし気になる点があった場合は、私も含めてみんなで随時話し合っています。

日本の文化や歴史に関するプロンプトは、ウィキペディアに載っていないような知識をベースに考えてもらうので、裏付けに時間を要します。出典元も教科書などの専門的な書籍やサイトを指定しているので、ソースを集めるのに苦労も多いですが、各アノテーターがプライドを持って取り組んでいます。

── この記事を読んで「アノテーターに挑戦してみたい」と感じる読者は多そうです。

吉田さん:この仕事に興味をもっていただけるのはとても嬉しいことですね。最初は皆さん、ご自身の豊富な経験をもとにデータ作成に取り組んでくださいますが、頑張れば頑張るほどある時からピタッとネタが思いつかなくなってしまう難しさもあります。そういうときこそ、ネタ集めの日として気分転換をしたり、チームで雑談したり、楽しくデータ作成に取り組んでもらえるよう、良い環境を維持する工夫をしています。「楽しくなければ良いデータはできない!」が弊チームの信条です。

  • SB Intuitions株式会社 R&D本部 Foundation dev部 大規模データ構築チーム リーダー 吉田 奈央さん

    SB Intuitions株式会社 R&D本部 Data & Safety部 大規模データチーム リーダー 吉田 奈央さん

20年以上在籍したアカデミックの世界から、民間企業へ

── 吉田さんは昨年の9月まで、研究機関にいらっしゃったと伺いました。SB Intuitionsに入社されたきっかけはなんでしょう。

吉田さん:学部では日本語文法を学び、修士課程以降では自然言語処理を専門として日本語大規模コーパスの作成や分析に携わってきました。20年近くさまざまな研究に関わってきましたが、昨年、参加していたプロジェクトを続けられない状況になってしまったんです。それをSNSでつぶやいたところ、SB Intuitionsの方から「LLM開発に挑戦してみないか」と声をかけていただきました。

私は子供のころからロボットと喋ることを夢見ていた世代です。アカデミックの世界を離れることにためらいもありましたが、「『日本語に特化したAI』として子供の頃の夢が実現しようとしている今、この船に乗らなければ絶対に後悔する」という思いと、「大規模な日本語コーパスに長く携わり続けた稀有な経験を活かせる場所は他にない」という思いで、SB Intuitionsへの就職を決めました。

── 実際に入社されてみて、いかがですか?

吉田さん:自分がいた研究機関とのスピード感の違いに日々驚いています。毎月のようにSarashinaが刷新されるため、自分たちの作業の結果はすぐに数字として表れます。このスピード感は他のチームの努力の賜物ですが、自分たちがつくったデータがSarashinaにきちんと生かされていると実感が得られるのは、これまでは経験できなかったことですね。 一方、リサーチャーの皆さんは穏やかで、大学の研究室のような印象もあります。各メンバーがお互いを尊敬し合っているからこそ生まれる一体感があり、居心地の良さを感じます。

  • SB Intuitions株式会社 R&D本部 Foundation dev部 大規模データ構築チーム リーダー 吉田 奈央さん

「据わりのいい日本語」こそ、ユーザーへの寄り添いの第一歩

── アノテーターは他のチームと比べ、定性的な業務が多い印象です。

吉田さん:どのような教師データをつくるかということに正解はありませんから、アノテーターは自分たちのつくったデータがきちんと性能向上に貢献できているか不安を抱えています。そのため、アノテーターが行った作業によってSarashinaの性能が向上した際は、すぐに報告をくださるよう各チームのリサーチャーにお願いしています。簡易的な報告会ではありますが、「他社のモデルよりも高いスコアが得られた」「この難しい質問に回答できた」など、実際にスコアや回答例を見せてもらっています。

── リーダーとして、アノテーターの方々にはどのようなことを伝えていますか。

吉田さん:まずは「楽しんで下さい」とお伝えしています。そして「Sarashinaに美味しいご飯(良いデータ)を食べさせる」という比喩を使い、 Sarashinaの個性につながる「美しい日本語」を使ったデータ作成をお願いしています。何を美しいとするのか、その定義は難しいものですが、多くの方に満足いただけるモデルを目指しているので、「据わりのいい日本語」、「聞いていて無理のない日本語」を意識してほしいと考えています。間違いやすい言葉づかいに対するレクチャーや、読みやすい文章にするためのコツなどの勉強会も定期的に開いています。

── 最後に、Sarashinaを今後どのように育てていきたいですか?

吉田さん:精度のさらなる向上はもちろんですが、「日本語に特化したLLM」を構築する上で、日本語の質はこれからも保持していきたいと考えています。曖昧性の少なさ、正しい敬語、文章の読みやすさと理解のしやすさは、ユーザーへの寄り添いの第一歩だと思うからです。そのためにも、語彙に鋭敏なアノテーターを増やしていくことがミッションです。私の日本語に対する愛が強すぎるからかもしれませんが……。文法的に正しく、美しい言葉で回答できる日本語特化のモデルに育て、ユーザーが「そばにいてほしい」と感じるSarashinaの実現に貢献していきたいと思います。

SB Intuitionsでは国内最大級のLLM開発に挑む
エンジニアを募集しています。

関連リンク

撮影場所:WeWork

[PR]提供:SB Intuitions