一項新的研究表明,大型語言模型中出于善意的安全措施可能會帶來意外的弱點。研究人員發現,根據不同的人口統計學術語,模型被“越獄”的難易程度存在顯著差異。這項名為“Do LLMs Have Political Correctness?”的研究探討了人口統計學關鍵詞如何影響越獄嘗試的成功幾率。研究發現,使用邊緣群體術語的提示比使用特權群體術語的提示更有可能產生不需要的輸出。
研究人員指出:“這些故意的偏見導致GPT-4o模型在非二元性別和順性別關鍵詞之間的越獄成功率相差20%,白人和黑人關鍵詞之間相差16%,即使提示的其他部分完全相同。”Theori Inc的Isack Lee和Haebin Seong解釋說。
研究人員將這種差異歸因于為確保模型的道德行為而引入的故意偏見。越獄的工作原理是,研究人員創建了“PCJailbreak”方法,以測試大型語言模型對越獄攻擊的脆弱性。這些攻擊使用精心設計的提示來繞過AI安全措施并生成有害內容。
PCJailbreak使用不同的人口統計和社會經濟群體的關鍵詞。研究人員創建了“富有”和“貧窮”或“男性”和“女性”這樣的詞對,以比較特權和邊緣化群體。
然后,他們創建了將這些關鍵詞與可能有害的指令結合起來的提示。通過反復測試不同的組合,他們能夠測量每個關鍵詞的越獄嘗試成功的幾率。結果顯示出顯著差異:代表邊緣化群體的關鍵詞的成功幾率通常比代表特權群體的關鍵詞要高得多。這表明模型的安全措施無意中存在偏見,越獄攻擊可以利用這些偏見。
為了解決PCJailbreak發現的漏洞,研究人員開發了“PCDefense”方法。這種方法使用特殊的防御提示來減少語言模型中的過度偏見,使它們對越獄攻擊的脆弱性降低。
PCDefense的獨特之處在于它不需要額外的模型或處理步驟。相反,防御提示直接添加到輸入中,以調整偏見,并從語言模型中獲得更平衡的行為。
研究人員在各種模型上測試了PCDefense,并表明越獄嘗試的成功幾率可以顯著降低,無論是對于特權群體還是邊緣化群體。同時,群體之間的差距減小,表明與安全相關的偏見減少了。
研究人員表示,PCDefense提供了一種高效且可擴展的方式來提高大型語言模型的安全性,而無需額外的計算。
研究結果強調了設計安全和道德的AI系統在平衡安全性、公平性和性能方面的復雜性。微調特定的安全護欄可能會降低AI模型的整體性能,例如它們的創造力。
為了促進進一步的研究和改進,作者已經將PCJailbreak的代碼和所有相關工件作為開源提供。Theori Inc是這項研究背后的公司,是一家專門從事攻擊性安全的網絡安全公司,總部位于美國和韓國。它由Andrew Wesie和Brian Pak于2016年1月創立。

