NECが熟練者の意図を学習して意思決定を模倣するAI技術を開発

NECは7月17日、熟練者の過去の行動履歴データから、その卓越した認知・判断に基づく意図を意思決定モデルとして学習し、高度なスキルが要求される業務を大幅に効率化するAI技術を開発したと発表した。同技術を、属人的な業務の意思決定プロセスに適用することにより、業務負荷を軽減することができ、業務スピードの向上が可能になるという。

新技術は、逆強化学習(報酬を基に最適行動を導きだす強化学習に対して、最適行動から報酬を推定するための学習)のフレームワークを同社のアルゴリズムで拡張し、従来は技術者が行っていた意思決定モデルの構築を自動化するとしている。

従来の逆強化学習では熟練者の一連の行動を単一の意思決定モデルとして学習するため、状況に応じた複雑なモデルを構築することは困難だったが、同社のAI技術群「NEC the WISE」の1つである異種混合学習(ビッグデータに混在するデータ同士の関連性から多数の規則性を自動で発見し、分析するデータに応じて参照する規則を自動で切り替える技術)を拡張して、行動履歴データから複数の意思決定モデルとそれらの切り替えルールを学習するという。

これにより、熟練者が時と場合より柔軟に使い分ける判断基準を非熟練者でも理解しやすいロジックで説明し、熟練者と同等レベルの意思決定を行うことができ、例えば営業販売に適用した場合、成約率の高い営業の行動履歴を学習し、顧客(見込み客、常連客など)ごとに異なる最適な対処を学習し、経験の浅い営業に活動指針を出すことを可能としている。

また、熟練者と同等レベルの意思決定をするためには、大きなリスクを避け、効果を最大化にする施策を選択する必要があるが、熟練者の過去の行動履歴から意思決定モデルだけでなく制約も同時に学習するという。

熟練者が選択しない行動はリスクがあるため避ける制約、常に行っている行動は守るべき制約とみなし、熟練者が考慮し最適化しているモデルと組み合わせて同時に学習する。意思決定モデルと制約を同時に学習することで、熟練者が無意識に行っている安全で信頼性の高い判断と同等の意思決定ができるという。

さらに、逆強化学習を実行するためは、行動履歴データ、行動により最適化対象の状態がどう変化するかを模擬する状態遷移モデル、学習した結果の正誤を確認するための実験機やシミュレータが必要になるものの、現実世界を精巧に模擬できる状態遷移モデルの作成は困難だという。

そのため新技術では、熟練者・非熟練者の行動履歴データからのサンプリングにより意思決定モデルを評価できるモデルフリー方式(環境のダイナミクス(状態遷移モデル)が既知でない場合でも強化学習・逆強化学習が適用できる方式)を新たに開発。

同方式を採用することで、コストのかかる精緻な状態遷移モデルの準備が不要となり、学習環境を簡略化することを可能としているほか、学習途中の意思決定モデル評価をシミュレータなどで実行する必要もないため、学習が既存逆強化学習の100倍の効率で実現できるという。

主にRPA(Robotic Process Automation)を適用できない複雑な意思決定を必要とする業務領域(例:営業活動やプラント運転など)や人の判断・動作を物理的に再現する領域(例:自動運転やロボット制御など)に対して適用を可能としている。

また、新技術をTV放送局の広告スケジューリング業務(広告スケジューリング業務:広告宣伝の効果やスポンサーの好みを考慮しながら、複数のTVコマーシャルを限られた番組時間枠に最適に割当をする業務)に適用し、実データを使った性能評価を実施した。

TV放送局の広告スケジューリング業務での適用内容

同業務は、各CMにおける要件・制限事項と、放送枠の活用方法など放送局側の要件の両方を考慮しなければならず、高度なスキルやノウハウが要求され、新技術を活用した結果、経験豊富な熟練者と同等レベルの意思決定を10倍以上のスピードで実現できることを確認。今後、熟練者への負荷が高い様々な業務への適用を進め、人のパートナーとなりうるAIの開発に取り組む考えだ。