今天,OpenAI 宣布對(duì)其實(shí)時(shí) API 進(jìn)行更新,目前該 API 仍處于測(cè)試階段。這次更新的亮點(diǎn)在于推出了五種新的語(yǔ)音選項(xiàng),專(zhuān)為語(yǔ)音到語(yǔ)音應(yīng)用而設(shè)計(jì),同時(shí)還降低了相關(guān)的緩存費(fèi)用,讓開(kāi)發(fā)者在使用時(shí)更加經(jīng)濟(jì)實(shí)惠。

在新推出的五種語(yǔ)音中,OpenAI 在 X 上的一篇文章中展示了其中三種新聲音,Ash、Verse 和聽(tīng)起來(lái)像英國(guó)的 Ballad。這些聲音不僅更加生動(dòng)和可調(diào)節(jié),還能夠提供更自然的交流體驗(yàn)。OpenAI 在其 API 文檔中提到,這項(xiàng)原生的語(yǔ)音到語(yǔ)音功能省去了中間的文本格式處理,從而實(shí)現(xiàn)了低延遲和更具細(xì)膩度的輸出。

不過(guò),OpenAI 也提醒用戶(hù),由于實(shí)時(shí) API 目前仍在測(cè)試階段,因此暫時(shí)無(wú)法提供客戶(hù)端的身份驗(yàn)證。此外,實(shí)時(shí)音頻處理可能會(huì)受到網(wǎng)絡(luò)條件的影響,這也給大規(guī)模傳輸音頻帶來(lái)了挑戰(zhàn)。OpenAI 指出,當(dāng)網(wǎng)絡(luò)條件不穩(wěn)定時(shí),確保音頻可靠傳輸?shù)拇_是一項(xiàng)艱巨的任務(wù)。

OpenAI 在語(yǔ)音技術(shù)上的發(fā)展歷程也頗具爭(zhēng)議。今年三月,他們推出了 “Voice Engine” 這一語(yǔ)音克隆平臺(tái),試圖與 ElevenLabs 競(jìng)爭(zhēng),但僅對(duì)少數(shù)研究者開(kāi)放。隨著 GPT-4o 和語(yǔ)音模式的演示,OpenAI 在五月暫停了名為 “Sky” 的語(yǔ)音使用,因?yàn)楹萌R塢女星斯嘉麗?約翰遜對(duì)此表達(dá)了不滿(mǎn),認(rèn)為其與她的聲音過(guò)于相似。

在九月份,OpenAI 為其付費(fèi)訂閱用戶(hù)推出了 ChatGPT 高級(jí)語(yǔ)音模式,包括 ChatGPT Plus、Enterprise、Teams 和 Edu 等用戶(hù)都可以使用。通過(guò)這種語(yǔ)音到語(yǔ)音的技術(shù),企業(yè)可以更快速地生成實(shí)時(shí)響應(yīng),極大提升客戶(hù)服務(wù)的效率。

降低成本,超50%

關(guān)于實(shí)時(shí) API 的定價(jià)問(wèn)題,OpenAI 在之前的發(fā)布中定價(jià)為分鐘音頻輸入0.06美元,音頻輸出0.24美元,這樣的費(fèi)用對(duì)于開(kāi)發(fā)者來(lái)說(shuō)相對(duì)較高。不過(guò),這次更新后,使用緩存的文本輸入費(fèi)用將降低50%,而緩存的音頻輸入費(fèi)用則高達(dá)80% 的折扣。

OpenAI 在開(kāi)發(fā)者日中宣布了 “Prompt Caching” 這一新功能,能夠?qū)㈩l繁請(qǐng)求的上下文提示保存在模型的記憶中,從而減少生成響應(yīng)時(shí)所需的 token 數(shù)量。通過(guò)降低輸入價(jià)格,OpenAI 希望吸引更多的開(kāi)發(fā)者使用其 API。

此外,其他公司如 Anthropic 也推出了類(lèi)似的緩存功能,以提高其語(yǔ)音技術(shù)的吸引力。

劃重點(diǎn):

?? 新增五種自然語(yǔ)音,提升語(yǔ)音應(yīng)用體驗(yàn)

?? 實(shí)時(shí) API 通過(guò)緩存降低輸入費(fèi)用,開(kāi)發(fā)者更劃算

? 實(shí)時(shí)音頻處理受網(wǎng)絡(luò)條件影響,可靠性需關(guān)注