27/01/2026 14:57
【AI】DeepSeek發布OCR 2模型,AI能以人類邏輯順序「看」圖像
《經濟通通訊社27日專訊》據《華爾街見聞》報道,DeepSeek今日發布新一代光學字符識別模型DeepSeek-OCR 2。DeepSeek-OCR 2採用名為DeepEncoder V2的新方法,使AI能夠像人類一樣按照邏輯順序「看」圖像。這一進展可能重塑文檔處理、圖表分析等依賴複雜視覺理解的應用場景。
據介紹,這項技術的核心創新在於改變了傳統AI處理圖像的方式。DeepEncoder V2讓AI基於圖像含義動態重新排列圖像片段,而非傳統的從左到右剛性掃描。這種方法模仿了人類追隨場景邏輯流的方式。
*性能較前代提升3.73%*
根據DeepSeek公布的技術報告,DeepSeek-OCR 2在多項關鍵指標上展現出顯著優勢。在OmniDocBench v1.5基準測試中,該模型取得了91.09%的成績,相較於去年10月發布的前代--DeepSeek-OCR提升了3.73%。
值得注意的是,該模型在保持極高精度的同時,嚴格控制了計算成本,其視覺Token數量被限制在256至1120之間,這一上限與Google的Gemini-3 Pro保持一致。在實際生產環境中,該模型在處理在線用戶日誌和PDF預訓練數據時的重複率分別下降了2.08%和0.81%,顯示出極高的實用成熟度。(sl)
據介紹,這項技術的核心創新在於改變了傳統AI處理圖像的方式。DeepEncoder V2讓AI基於圖像含義動態重新排列圖像片段,而非傳統的從左到右剛性掃描。這種方法模仿了人類追隨場景邏輯流的方式。
*性能較前代提升3.73%*
根據DeepSeek公布的技術報告,DeepSeek-OCR 2在多項關鍵指標上展現出顯著優勢。在OmniDocBench v1.5基準測試中,該模型取得了91.09%的成績,相較於去年10月發布的前代--DeepSeek-OCR提升了3.73%。
值得注意的是,該模型在保持極高精度的同時,嚴格控制了計算成本,其視覺Token數量被限制在256至1120之間,這一上限與Google的Gemini-3 Pro保持一致。在實際生產環境中,該模型在處理在線用戶日誌和PDF預訓練數據時的重複率分別下降了2.08%和0.81%,顯示出極高的實用成熟度。(sl)














