在人工智能迅速發(fā)展的今天,AI “幻覺” 現(xiàn)象愈加頻繁,給許多企業(yè)帶來了不小的困擾。客戶服務(wù)聊天機器人自信地描述不存在的產(chǎn)品,金融 AI 編造市場數(shù)據(jù),醫(yī)療機器人則提供危險的醫(yī)療建議。這些問題不再是單純的趣事,而是正在影響公司聲譽與盈利的重大隱患。

為了應(yīng)對這一挑戰(zhàn),位于舊金山的初創(chuàng)公司 Patronus AI 宣布推出全球首個自助服務(wù)平臺,旨在實時檢測和防止 AI 系統(tǒng)出現(xiàn)故障。這個平臺就像是 AI 系統(tǒng)的 “拼寫檢查器”,可以在問題發(fā)生前將其捕捉到。

Patronus AI 的首席執(zhí)行官 Anand Kannappan 在接受采訪時表示,許多公司在生產(chǎn)環(huán)境中面臨 AI 故障,問題包括幻覺、安全漏洞和不可預(yù)測的行為。根據(jù)公司的研究,領(lǐng)先的 AI 模型如 GPT-4在提示時44% 的幾率會重復(fù)受版權(quán)保護的內(nèi)容,而即使是先進的模型,在基本安全測試中也有超過20% 的概率生成不安全的響應(yīng)。

為了幫助企業(yè)提高 AI 系統(tǒng)的安全性,Patronus AI 提供了一系列創(chuàng)新功能。其中,最顯著的 “評估者” 功能允許企業(yè)用簡單的英語編寫定制化的評估規(guī)則。這種靈活性讓各行各業(yè)的公司能夠根據(jù)自身需求進行調(diào)整,如金融服務(wù)公司可以關(guān)注合規(guī)性,而醫(yī)療機構(gòu)則可以關(guān)注患者隱私和醫(yī)療準(zhǔn)確性。

平臺的核心是名為 Lynx 的突破性幻覺檢測模型,其在識別醫(yī)療不準(zhǔn)確性方面比 GPT-4高出8.3% 的準(zhǔn)確率。此外,該平臺有兩種運作模式:一種用于實時監(jiān)控,另一種用于深入分析。除了傳統(tǒng)的錯誤檢查,該公司還開發(fā)了如 CopyrightCatcher(版權(quán)檢測工具)和 FinanceBench(金融性能評估基準(zhǔn))等專用工具,為企業(yè)提供全面的 AI 故障防護。

為了讓更多企業(yè)能負(fù)擔(dān)得起這些安全工具,Patronus AI 采用了按需付費的定價模型,起價為每1000次 API 調(diào)用10美元。早期采用者已經(jīng)包括 HP、AngelList 和 Pearson 等大型企業(yè),顯示出對 AI 安全投資的重視。

在 AI 發(fā)展迅速的今天,工具如 Patronus AI 的平臺不僅可以幫助企業(yè)降低風(fēng)險,還有助于符合即將到來的法律法規(guī)。隨著 AI 系統(tǒng)的不斷進化,如何準(zhǔn)確捕捉并修正這些 “幻覺” 將是企業(yè)面臨的重要挑戰(zhàn)。

產(chǎn)品入口:https://www.patronus.ai/

劃重點:

?? Patronus AI 推出全球首個自助 API,旨在實時檢測和預(yù)防 AI 幻覺現(xiàn)象。

??? 該平臺允許企業(yè)用簡單英語創(chuàng)建定制評估規(guī)則,提供靈活的解決方案。

?? 采用按需付費模式,使更多企業(yè)能夠負(fù)擔(dān)得起 AI 安全工具。