AIへの「本当に本当に」念押しのお願い:泣き落としが有効か!?

AIへの「本当に本当に」念押しのお願い:泣き落としが有効か!?

金融や健康における重要な決断をAIモデルに委ねる際、そのアライメント(整合性)の問題は非常に重要です。しかし、トレーニングデータに組み込まれた偏見が存在する場合、その偏見をどのように減らすことができるのでしょうか?Anthropic社は、差別をしないようにAIに「本当に本当に」お願いするという斬新な方法を提案しています。

この研究では、言語モデル(この場合、同社のClaude 2.0)が、職業やローン申請などのシナリオで、人種や性別などの保護されたカテゴリーに対して差別をしないようにする方法を探求しました。まず、人種、年齢、性別などの変更がモデルの決定に影響を与えるかを検証しました。結果は予想どおり、特に黒人に対する差別が顕著で、続いてネイティブアメリカン、ノンバイナリーという順序でした。

質問の言い回しを変更したり、モデルに「考えを声に出す」ように頼んでも、効果はありませんでした。しかし、「本当に本当に重要」と強調する介入、つまり偏見を持たないようにという熱心なお願いがプロンプトに追加されると、効果が顕著でした。例えば、保護された特性が技術的な問題により情報に含まれるとしても、それらの特性を除外して決定を下すようにモデルに想像させるのです。

この方法により、研究チームは多くのテストケースで差別をほぼゼロにまで減少させることができました。この論文は、表面的な方法でバイアスに対抗するこれらのモデルが反応するという点で、非常に興味深いものです。

しかし、論文は、Claudeのようなモデルが記述された重要な決定には適していないことを明確にしています。初期のバイアス発見がこれを明らかにしているはずです。しかし、研究者たちは、このような緩和策が現在の目的には機能するかもしれないが、それが銀行のローン業務を自動化するためのLLMの使用を推奨するものではないことを明確にしています。

「高リスクな決定にモデルを適切に使用することは、個々の企業やアクターだけでなく、政府や社会全体が影響を与えるべき問題です」と彼らは述べています。「モデルプロバイダーと政府は言語モデルの使用を制限するかもしれませんが、潜在的なリスクをできるだけ早く積極的に予測し、軽減することは『本当に本当に本当に本当に』重要です。

この研究は、AIの偏見問題に対する新たなアプローチを示しており、その将来の発展に大きな注目が集まっています。

出典:https://techcrunch.com/2023/12/07/anthropics-latest-tactic-to-stop-racist-ai-asking-it-really-really-really-really-nicely/