最近,谷歌宣布將其文本水印工具 SynthID 開源,旨在幫助開發(fā)者更好地識別 AI 生成的文本。這一工具現(xiàn)已通過谷歌的 “負(fù)責(zé)任生成 AI 工具包” 向公眾開放使用。

谷歌 DeepMind 的研究副總裁 Pushmeet Kohli 表示,這項技術(shù)將使其他生成式 AI 開發(fā)者能夠檢測文本輸出是否來自他們自己的大型語言模型(LLM),這將有助于他們以更負(fù)責(zé)任的方式構(gòu)建 AI 應(yīng)用。

在當(dāng)今這個信息傳播迅速的時代,水印技術(shù)顯得尤為重要。隨著大型語言模型被用來傳播政治虛假信息、生成不當(dāng)內(nèi)容等,水印工具的需求也在不斷上升。比如,加利福尼亞州正考慮將 AI 水印作為強制性要求,而中國早在去年就已開始要求使用水印。盡管如此,相關(guān)技術(shù)仍在不斷完善之中。

谷歌的 SynthID 技術(shù)首次在去年8月被公布。它通過在生成的文本、圖像、音頻和視頻中添加不可見的水印,使得 AI 生成的輸出更易于識別。

具體來說,SynthID 會在文本輸出中微調(diào)每個生成詞的概率,使得這些修改在軟件中可被識別但不被人類察覺。例如,當(dāng)模型生成 “我最喜歡的熱帶水果是__?!?時,可能會選擇 “芒果”、“荔枝”、“木瓜” 或 “榴蓮” 等詞。每個詞都有一個概率分?jǐn)?shù),SynthID 會在不影響文本質(zhì)量、準(zhǔn)確性和創(chuàng)造性的前提下,調(diào)整這些分?jǐn)?shù)。

這種調(diào)整會在整個生成的文本中持續(xù)進(jìn)行,所以一段文本可能會有十個以上的調(diào)整分?jǐn)?shù),而整頁內(nèi)容可能會包含數(shù)百個。最終,這些調(diào)整后的概率分?jǐn)?shù)模式將構(gòu)成水印。谷歌表示,該系統(tǒng)已集成到其 Gemini 聊天機(jī)器人中,且不會影響生成文本的質(zhì)量和速度。然而,它在短文本、已重寫或翻譯的內(nèi)容以及針對事實問題的回應(yīng)上仍面臨一些挑戰(zhàn)。

谷歌在一篇博客中指出:“SynthID 并不是識別 AI 生成內(nèi)容的萬能鑰匙,但它是開發(fā)更可靠 AI 識別工具的重要基石,可以幫助數(shù)百萬用戶做出更明智的決策。”

項目入口:https://ai.google.dev/responsible/docs/safeguards/synthid?hl=zh-cn

劃重點:

?? SynthID 開源,幫助開發(fā)者識別 AI 生成的文本。

??? 水印技術(shù)在應(yīng)對虛假信息和不當(dāng)內(nèi)容中變得愈發(fā)重要。

?? 谷歌的 SynthID 能夠微調(diào)文本生成的概率分?jǐn)?shù),形成水印。