近日,人工智能公司 Anthropic 宣布,在其 Claude 3.5 Sonnet 模型中增加了 PDF 文件處理的功能,目前該功能已進(jìn)入公共測(cè)試階段。用戶現(xiàn)在可以使用該模型分析 PDF 文檔中的文本和視覺元素,包括圖像、圖表和表格等,適用于金融報(bào)告、法律文件以及文檔翻譯等多種場(chǎng)景。

Claude 3.5 Sonnet 的 PDF 處理過(guò)程分為三個(gè)步驟。首先,系統(tǒng)會(huì)從文檔中提取文本內(nèi)容。接著,每一頁(yè)文檔會(huì)被轉(zhuǎn)換為圖像,以便進(jìn)行更深入的分析。這樣一來(lái),用戶不僅可以獲取文本信息,還能夠洞悉 PDF 文件中的視覺信息。

值得一提的是,Claude 的 PDF 功能還可以與其他功能結(jié)合使用,比如提取特定信息并將其用作工具輸入。需要注意的是,上傳的文件必須小于 32MB,且頁(yè)面數(shù)量不得超過(guò) 100 頁(yè)。該系統(tǒng)目前不支持加密或密碼保護(hù)的文檔。

處理 PDF 文件的費(fèi)用會(huì)根據(jù)文檔的長(zhǎng)度和內(nèi)容密度有所不同。通常,每頁(yè)文檔會(huì)消耗 1,500 到 3,000 個(gè) tokens,而不收取超過(guò)標(biāo)準(zhǔn) token 費(fèi)用的額外費(fèi)用。用戶可以通過(guò) Claude Chat 功能預(yù)覽和 API 訪問來(lái)使用這一新特性,API 請(qǐng)求中需要使用特定的請(qǐng)求頭 “anthropic-beta: pdfs-2024-09-25”。Anthropic 計(jì)劃未來(lái)將此功能擴(kuò)展到 Amazon Bedrock 和 Google Vertex AI 平臺(tái)。

為了提高處理效果,Anthropic 建議用戶確保文檔中有清晰可讀的文本,以及頁(yè)面布局正確。此外,在引用特定內(nèi)容時(shí),用戶應(yīng)使用 PDF 閱讀器中顯示的頁(yè)碼。而在 API 使用過(guò)程中,PDF 文件應(yīng)放置在文本之前。如果文檔較大,超過(guò)了限制,Anthropic 建議將其拆分為較小的部分。最后,當(dāng)多次分析同一文檔時(shí),用戶還可以考慮使用提示緩存,以提高處理效率。

劃重點(diǎn):

?? Anthropic 推出 Claude 3.5 Sonnet,增加 PDF 文件處理功能,支持文本和圖像分析。

??? 處理過(guò)程分為提取文本、轉(zhuǎn)換頁(yè)面為圖像和綜合分析三個(gè)步驟。

?? 處理費(fèi)用根據(jù)文檔長(zhǎng)度和內(nèi)容密度而異,用戶需遵循文件大小和頁(yè)數(shù)限制。