ログイン
無料トライアル開始
メニュー
RLHFで訓練されたAIシステムは、人間の平均的な嗜好で高得点となる出力を生成することで体系的に報酬を得ており、これは数学的に創造的な凡庸さへと向かわせる。本論文はB+トラップを定義し、その構造的メカニズムとしてRLHFを特定するとともに、新規性探索、敵対的発散エージェント、メタ認知的フィードバックに基づくRebel AIフレームワークを提案する。