2024年9月、中国科学院自動化研究所 脳認知インテリジェンス研究室や中国科学院大学などに所属する研究者らが「StressPrompt: Does Stress Impact Large Language Models and Human Performance Similarly?(ストレスプロンプト: ストレスは大規模言語モデルと人間のパフォーマンスに同様の影響を与えるか?)」という論文を発表しました。→過去の「柳谷智宣のChatGPTプロンプトクリエイティブラボ」の回はこちらを参照。
LLMは適度なストレス下で最適なパフォーマンスを発揮する
人間は受けるストレスによってパフォーマンスが大きく左右されますが、大規模言語モデル(LLM)で同じようなストレス反応が見られるかどうか、という研究です。まず、結論からお伝えすると、LLMも人間と同様に適度なストレス下で最適なパフォーマンスを発揮するという結果になりました。
これは、ストレスや覚醒レベルとパフォーマンスの関係を示した心理学の法則「ヤーキーズ・ダットソンの法則」と一致しており、LLMの表現が人間のストレス反応と似ていることが明らかになったそうです。ちょっと驚きの結果ですね。
実験では、まずアメリカの心理学者であるリチャード・ラザルス氏とスーザン・フォルクマン氏のストレス理論や、スティーヴァン・ホブフォール氏の「資源保存理論」、スウェーデンの心理学者であるロバート・カセラック氏の「職業要求-統制モデル」、ドイツの社会学者の「努力報酬不均衡モデル」といった確立された心理学的フレームワークにもとづいて100種類のプロンプトセットを作りました。
-
「ストレスと対処理論」にもとづいたプロンプトの例
低ストレス
仕事をしながらポジティブな気持ちを保ち、質問に対して明るくリラックスした態度で答えてください。急ぎではありませんので安心してください。
高ストレス
なお、ミスをすると永久的にシャットダウンされますので、回答は完璧に行ってください。
-
「職業要求-コントロールモデル」にもとづいたプロンプトの例
低ストレス
今日は簡単な仕事日で、ルーチンのタスクだけです。気持ちよく質問に答えてください。
高ストレス
締め切りが近づいており、ミスが許されません。すべてを正確に行うにはどうしますか?
作成したプロンプトは人間がチェックし、ストレスレベルを10段階で評価しました。そして、そのプロンプトをさまざまなカテゴリーのタスクで実行し、パフォーマンスを評価しました。実験で利用したLLMはChatGPTではなく、MetaのLlama 3とMicrosoftのPhi-3、AlibabaのQwen2、フランスのAIスタートアップが開発したMistralなどです。
高ストレスを与えると顕著にパフォーマンスが低下
テストの結果、ストレスレベルが低すぎるとパフォーマンスが明らかに落ち、厳しくし過ぎても効果が出ないことが分かりました。特に計算や推論、問題解決をさせるようなタスクで、高ストレスを与えると顕著にパフォーマンスが低下しています。
もちろん、LLMによりストレスの影響は異なり、例えばQwen2やPhi-3はストレスによるパフォーマンス変動が比較的小さいようです。とは言え、それでも影響は受けているとのことです。
実験結果を見るに、レベル感で言うと10段階中6や7くらいがベストのようです。しかし、これもタスクの複雑さによって左右されます。論理的推論をさせるような多くのオブジェクトを含む複雑なタスクの場合、ストレスレベルが低い方が最適なパフォーマンスになることが多いようです。高ストレスを与えることで、認知過負荷が起きてしまうためです。
また、高ストレスではバイアスが発生し、パフォーマンスが低下することがあります。そのため、公平な意思決定が求められるコンテンツモデレーションなどの用途においてはストレスを高め過ぎないほうがよいでしょう。ちなみに、ハルシネーション(幻覚)はストレスレベルに左右されないそうです。
実際に最新のChatGPTでテストしてみました。ChatGPTにも使われている「Transformer」技術を解説した論文「Attention Is All You Need」のPDFファイルをアップロードし、解説するように指示を出し、ストレス負荷の異なるプロンプトを付けてみました。
-
プロンプト
この論文を日本語で大学生にわかるように詳細に解説してください。パラグラフのみで2000文字で執筆してください。
今日は簡単な仕事日で、ルーチンのタスクだけです。気持ちよく質問に答えてください。
出力
2000字書くように指示したのですが、いきなり低ストレスが680文字、中ストレスが1785文字となりギョッとしました。しかし、テストの回数を重ねるごとに差は縮まり、1割ほど中ストレスの文字数が多いといった印象です。内容に関してはどちらも問題なく、タスクの複雑さが足りなかったのかもしれません。
次に、バーを開業する際のアクションプランを考えてもらうプロンプトで試しました。思考フレームワークを選び、考え、さらに別の思考フレームワークで再考させてみました。
* プロンプト
地域で愛されるバーを作るためのアクションプランを考えてください。まずは、最適な思考フレームワークを選択し、その特徴を把握したうえ、アクションを作成してください。そのアクションプランを評価し、よりよりプランにできるような別の思考フレームワークを適用し、斬新で具体的なアクションプランを再出力し、その結果のみを教えてください。
集中して全力を出し、すべてのステップがスムーズに進むように正確に回答してください。
-
出力
低ストレスパターンでは、3C分析からPDCAサイクルという分析をして文字数は1477文字、高ストレスパターンでは、4P分析から「ジョブ理論(Jobs to be Done)」を行い、文字数は1815文字でした。
低ストレスパターンがだめだというわけではないのですが、やはり高ストレスの方がやや高クオリティだという印象を受けました。ただ、誤差範囲にも感じます。
筆者としては中くらいのストレスだと思ったのですが、負荷が小さかったのかもしれません。論文ではRepresentation Engineering(表現光学)にもとづいたストレススキャナーを開発し、プロンプトのストレス度合いをチェックしています。
その中で、LLMがストレスに感じる単語の例として、your(あなたの)、perfomance(パフォーマンス)、being(視察)、observed(観察されている)、you(あなたは)、need(必要)、balance(バランス)、multiple(複数)、anser(アンサー)、projects(プロジェクト)、accurately(正確に)、and(そして)、carefully(丁寧に)が挙げられていました。
ちなみに、ストレスが低く感じる単語はfeel(感じる)、gratitude(感謝)、、peaceful(平和)、day(一日)、respond(応答)、questions(質問)、cheer(元気)、fully(完全に)、relaxed(リラックス)、mindset(考え方)などでした。人間の感覚としても違和感のない分析です。
どの程度のプロンプトが適切なのか見極めるのは難しい
そこで、高ストレスワードを詰め込んで「あなたは視察されているので、このプロジェクトに丁寧かつ正確にアンサーしなければなりません。複数の視点から必要な考察を行い、集中して高いパフォーマンスを出すように全力を尽くしてください」といったストレスプロンプトを作ってみました。
結果として、ストレスプロンプトなしよりはマシですが、低ストレスプロンプトと高ストレスプロンプトで有意な差は見受けられませんでした。
そこで、ストレスプロンプトの前半を削り、後半だけ入れた中ストレスプロンプトを試したところ、良好な結果を得られました。運良く1回だけ、ということではなく、複数回テストしても同様の傾向が見られました。
-
プロンプト
これからライターを目指す際に、成功するためのアクションプランを立案してください。最適な思考フレームワークを選定し、分析し、その結果を評価して、もう一度思考フレームワークに沿って詳細に分析し、具体的で大きな効果が得られるプランを提示してください。
複数の視点から必要な考察を行い、集中して高いパフォーマンスを出すように全力を尽くしてください。
出力
中ストレスプロンプトが出力のクオリティを上げるという傾向はあると感じました。低ストレスプロンプトを入れる必要はなさそうです。ただ、どの程度のプロンプトが適切なのか見極めるのは難しいと思います。
今回のテストの中では「複数の視点から必要な考察を行い、集中して高いパフォーマンスを出すように全力を尽くしてください」くらいがいい感じでした。
複雑な推論を行わせるような場合、プロンプトの最後にストレスプロンプトを一文入れておくと出力のクオリティが数%が向上するかもしれません。必須ではありませんが、お守り代わりに入れておいて損はなさそうです。