11月25日,騰訊混元正式宣布開源全新 OCR 模型 HunyuanOCR。該模型參數(shù)僅10億(1B),依托混元原生多模態(tài)架構(gòu)打造,在多項(xiàng)業(yè)界 OCR 應(yīng)用榜單中斬獲 SOTA(最先進(jìn)水平)成績(jī),為 OCR 技術(shù)落地提供輕量化高效解決方案。
HunyuanOCR 采用全端到端范式設(shè)計(jì),由原生分辨率視頻編碼器、自適應(yīng)視覺適配器和輕量化混元語言模型三部分構(gòu)成。其核心優(yōu)勢(shì)在于 “高效便捷”:體積小巧便于部署,單次前向推理即可實(shí)現(xiàn)功能最優(yōu)輸出,效率遠(yuǎn)超業(yè)界級(jí)聯(lián)方案。
性能方面,HunyuanOCR 表現(xiàn)亮眼。在復(fù)雜文檔解析的 OmniDocBench 測(cè)評(píng)中,以94.1分超越谷歌 Gemini3-Pro 等領(lǐng)先模型;在覆蓋文檔、手寫、街景等9大場(chǎng)景的自建基準(zhǔn)測(cè)試中,文字檢測(cè)和識(shí)別能力大幅領(lǐng)先同類開源及商業(yè)模型;OCRBench 榜單上,其以1B 參數(shù)斬獲總參數(shù)3B 以下模型 SOTA,總得分860分。小語種翻譯領(lǐng)域,該模型支持14種高頻小語種與中 / 英文互譯,還拿下 ICDAR2025端到端文檔翻譯比賽小模型賽道冠軍。
應(yīng)用場(chǎng)景上,HunyuanOCR 可實(shí)現(xiàn)多語種復(fù)雜文檔解析、票據(jù)字段 JSON 格式提取、視頻雙語字幕自動(dòng)抽取等功能,已覆蓋卡證處理、視頻創(chuàng)作、跨境溝通等領(lǐng)域。目前,用戶可通過 web 端、移動(dòng)端鏈接或 GitHub、Hugging Face 開源地址下載體驗(yàn),直接訪問 Hugging Face 空間即可快速試用。
地址:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
https://github.com/Tencent-Hunyuan/HunyuanOCR

