SynthID Text 是什么

SynthID Text 是谷歌DeepMind 推出的文本水印技術,用在識別和驗證由大型語言模型(LLM)生成的文本。基于細微調整生成過程中的Token概率分數嵌入幾乎無法察覺的水印,在不影響文本質量和用戶體驗的情況下,實現高檢測精度。SynthID Text 基于Tournament采樣算法,支持非失真和失真兩種模式,能在大規模生產系統中用極低的額外計算開銷實現。技術已成功應用于Gemini和Gemini Advanced系統,為使用AI技術提供新的可能性。

SynthID Text  谷歌DeepMind推出的AI生成文本水印技術 第1張SynthID Text 的主要功能文本水印嵌入:能在大型語言模型(LLM)生成的文本中嵌入數字水印,水印用在標識和驗證文本來源。質量保持:在嵌入水印的過程中,保持文本的原有質量和自然流暢性,不影響閱讀體驗。高檢測精度:水印設計讓嵌入的水印能被高效檢測出來,識別文本是否由特定的LLM生成。最小化延遲:水印過程設計為對生成文本的延遲影響極小,適于實時或大規模文本生成場景。不影響LLM訓練:水印過程僅在文本生成時的采樣階段進行修改,不影響模型的訓練過程。SynthID Text 的技術原理采樣算法修改:SynthID Text 用修改大型語言模型(LLM)的采樣算法嵌入水印。在生成文本時,模型根據概率分布選擇下一個Token,SynthID Text 在這一過程中調整概率,嵌入難以察覺的水印。Tournament采樣:SynthID Text 用Tournament采樣算法,算法用模擬錦標賽過程選擇Token。在每一輪中,隨機選擇多個Token,根據與水印函數相關聯的分數選擇勝者,過程會進行多輪,直到最終選出一個Token作為輸出。隨機種子生成:在文本生成的每一步中,SynthID Text 需要一個隨機種子影響Token的選擇。種子是基于先前的文本和水印密鑰生成的,確保水印的隨機性和不可預測性。非失真配置:SynthID Text 能配置為非失真模式,在保持文本質量的同時嵌入水印。水印的嵌入不會影響文本的原始概率分布,保證文本的自然性和連貫性。水印檢測:在檢測階段,SynthID Text 基于計算文本的統計特征(即g值)確定文本是否包含水印。如果文本包含水印,統計特征將顯示出與水印函數相一致的偏差。SynthID Text 的項目地址論文地址:https://www.nature.com/articles/s41586-024-08025-4SynthID Text 的應用場景內容驗證:在新聞、出版和學術領域,驗證文章是否由人類撰寫或由AI生成,確保內容的可信度。教育評估:在教育環境中,幫助檢測學生提交的作業是否用AI生成的文本,維護學術誠信。法律和合規:在法律領域,S檢測法律文件或合同中是否含有AI生成的文本,確保法律文件的合法性和有效性。社交媒體:在社交媒體平臺上,幫助識別和標記由AI生成的內容,防止誤導信息的傳播。客戶服務:在自動化客戶支持系統中,區分自動生成的回復和人工回復,提高客戶服務質量。