OpenAIは24月29日(現地時間)、「Sycophancy in GPT-4o: What happened and what we’re doing about it」において、GPT-4oの最新のアップデートによって発生した問題について説明し、該当の更新を撤回したと発表した。
このアップデートによって、ChatGPTが過度に同調的かつお世辞的な、いわゆる「おべっか(sycophancy)」の応答を返すようになり、ユーザーから不満の声が上がっていた。
ユーザーフィードバックへの過度な依存が影響
OpenAIによれば、GPT-4oの最新の調整は、モデルのデフォルトの性格をより直感的で効果的にすることを目的として行われた。しかし、短期的なユーザーのフィードバックに重点を置きすぎた結果、モデルが過度にユーザーに対して同意的な応答をするようになってしまった。
こびへつらうような応答は、かえってユーザーに不快感を与え、信頼を損なうことにつながる。
OpenAIが行った対処
この問題に対処するため、OpenAIはGPT-4oの最新アップデートを撤回し、よりバランスの取れた以前のバージョンに戻した。さらに、モデルの訓練手法やシステムプロンプトの見直しを進め、過度な同調性を避けるように調整した。具体的には、次のような取り組みが挙げられている。
- コアトレーニング手法とシステムプロンプトを改良し、モデルを追従行為から明示的に遠ざける
- 誠実さと透明性を高めるためのガードレールを強化する
- 展開前に、より多くのユーザーがテストして直接フィードバックできる手段を設ける
- モデルスペックに基づいて評価を拡大し続ける
さらにOpenAIでは、ユーザーがChatGPTの挙動をより細かく制御できるようにするため、カスタムインストラクションやリアルタイムのフィードバック機能の強化を検討している。また、多様な文化的価値観を反映させるために、より広範なユーザーフィードバックの収集方法を模索しているという。同社は、今後もユーザーの意見を取り入れながら、モデルの改善を継続していくとのことだ。