Anthropic は、自社のAIモデル「Claude」の価値観と行動原則を定めた新たな「憲法(Claude’s Constitution)」を公開した。これは同社が掲げる安全性・倫理性・透明性の基準を総合的に記した基礎文書で、AIモデルの訓練に直接利用される。内容は「Creative Commons CC0 1.0」として公開され、誰でも自由に使用できる。
新しい“憲法”の概要
新しい憲法は、Claudeが備えるべき基本性質として以下の4つを明示している。
(1)広く安全であること:現在の開発段階において、AI を監督する人間の適切な仕組みを損なわない。
(2)広く倫理的であること:誠実であり、良い価値観に従い、不適切・危険・有害な行動を避ける。
(3)Anthropic のガイドラインに準拠すること:必要に応じて、Anthropic が提示する具体的な指針に従う。
(4)実質的に有益であること:運用者およびユーザーにとって実質的に役立つ。
各章では、有益性・倫理・安全性・Anthropicの追加ガイドライン・Claudeの本質に関する考え方を詳細に説明し、AIが複雑な状況で判断する際の基盤となる価値観を与える構成となっている。
Anthropicは、単なるルールの列挙ではなく、Claudeが「なぜそのように振る舞うべきなのか」を理解することが重要だとし、理念と理由を丁寧に説明する形式へ変更。この憲法は、モデル自身が合成訓練データを生成する際にも利用され、今後のモデル開発の中核となる。
同社は、憲法を「生きた文書」と位置づけ、専門家の意見を取り入れながら継続的に更新するという。また、憲法が示す価値観とモデルの実際の挙動には乖離が生じ得るため、その点についてはシステムカードなどで透明性を確保し続けると説明している。
また、同社は強力なAIが登場する将来を見据え、憲法が人類の価値観をAIに反映させる重要な基盤になる可能性が高まると強調している。