大阪大学(阪大)は10月3日、音声対話システムがユーザとの対話を通じ、効率的に新しい知識を獲得するための仕組みを開発したと発表した。
同成果は、阪大 産業科学研究所(産研)の駒谷和範教授、同・武田龍准教授、同・脇一晟大学院生(研究当時)らの研究チームによるもの。詳細は、ACLとISCAが共同運用する対話と談話に関する国際会議「SIGDIAL 2025」にて口頭発表された後、Webでも公開された。
未知語を効率よく学ぶ“親しみやすい”LLM実現へ
現在の一般的な対話システムは、システムの語彙に含まれない未知語や新語が現れると、正しく理解して応答することができない。近年、ChatGPTなどの大規模言語モデル(LLM)の普及により、Web上に出現する一般語への対応は可能になった。しかし、特定のグループ内でしか通じない呼称やニックネーム、新しく生まれた言葉には、必ずしも対応できているわけではない。
たとえば近所の公園に関する話をする際、その公園で遊ぶような小さな子どもがいる家庭内や、その公園を利用する子どもたちの間では、通称が使われるケースが多い。公園には正式名称があるが、意外にも大人でも知らないことが多く、また正式名称が長い場合もある。そのため大概は、その公園ならではの特徴的な遊具や、その近隣のよく知られた施設などに因んだ通称がつけられる。
大規模言語モデルは、公園などの正式名称であれば、その公園を管理する行政の公式情報などから所在地を含めて調べられるケースが多いので、多くの場合は理解できる。しかし、通称だとなかなか通じない。これは、行政の公式情報には通称までは載っていないからだ。たとえWeb上で見つかるとしても、信用度の低い個人のブログなどしかない場合が多い。にもかかわらず、公園などのように、日常会話においては正式名称よりも通称が使われるケースが多いものもある。故に、身近で親しみやすい対話システムを実現するには、そうした通称の理解は不可欠となる。
従来、このような未知語を対話中に学習させる際、システムはユーザに頻繁に質問を繰り返す傾向があり、円滑な対話を妨げるという課題があった。裏を返せば、効率的に知識を獲得するためには、ユーザ体験を損なわず、必要な時に適切に質問をする仕組みが望まれている。そこで研究チームは今回、対話中に現れる未知語を理解するための基盤として、通常の音声認識では扱えない未知語に対応できる方法を検討したという。
従来の音声認識は単語単位で行われるため、未知語や新語は学習データに含まれず、正しく認識されない。そのため今回の研究では、音声を音節単位で認識し、その並びである音節列から正しい単語の切れ目を推定する課題が対象とされた。
この課題は「ストリーム型能動学習」として定式化され、逐次的に現れるユーザ発話の音節列に対し、「ユーザに質問するか/しないか」を選択する問題とされた。そもそも能動学習とは、正解の付いていないデータの中から「どれを選んで人に正解を尋ねれば効率的に性能が上がるか」を検討する方法だ。そしてストリーム型能動学習は、データは自由に選べるのではなく1つずつ順番に出現するという設定のもと、その都度“人に正解を尋ねるべきかどうか”を判断する点が特徴である。
次に、この質問の選択について、試行錯誤を繰り返しながら「よりよい判断」を学んでいく強化学習により最適化した。その際に行われた拡張は2つ。1つは、システムの推定結果をそのまま学習に利用する「自己学習(擬似ラベルの利用)」である。もう1つは、残り質問回数を強化学習の状態に組み込むことで、学習の進捗に応じて柔軟に戦略を変えられるようにした点だ。シミュレーション実験の結果、これらの拡張により、少ない質問回数でも効率的に、未知語を含む音節列から単語の切れ目を学習できることが確認された。
今回の研究成果は、少ない質問で効率的に未知語など、対話を通じて新しく得るべき内容を学習できる対話システムの実現につながるとする。特に、どれくらい少ないデータで効果的に学習できたかを示す「サンプル効率」の向上は、対話を用いながらもユーザに負担をかけずに知識を獲得できるかを意味する(今回の実験では、性能の向上幅を、それにかかった質問回数で割ることで評価された)。これにより、将来的には各家庭などに導入される対話システムが、会話を通じてその家庭ならではの呼び方やニックネームを学習し、より身近で親しみやすい存在となることが期待されるとしている。

