最近,Meta AI 推出了全新的量化 Llama3.2模型,包含1B 和3B 兩個版本,這款模型可以在多種設(shè)備上進(jìn)行微調(diào)、蒸餾和部署。

過去,雖然像 Llama3這樣的模型在自然語言理解和生成方面取得了顯著成就,但其龐大的體量和高計算需求使得很多組織難以使用。訓(xùn)練時間長、能源消耗高以及對昂貴硬件的依賴,無疑加大了科技巨頭與小型企業(yè)之間的鴻溝。

Llama3.2的特點之一就是支持多語言文本和圖像處理。1B 和3B 模型經(jīng)過量化處理,平均可以縮小56% 的體積,并且在內(nèi)存使用上減少了41%,并實現(xiàn)2-3倍的速度提升,非常適合在移動設(shè)備和邊緣計算環(huán)境中運行。

具體來說,這些模型采用了8位和4位的量化策略,將原本32位浮點數(shù)的權(quán)重和激活精度降低,從而大幅降低了內(nèi)存需求和計算能力要求。這意味著量化后的 Llama3.2模型可以在普通的消費級 GPU 甚至 CPU 上運行,而且在性能上幾乎沒有損失。

可以想象,用戶現(xiàn)在可以在手機(jī)上進(jìn)行各種智能應(yīng)用,比如實時總結(jié)討論內(nèi)容或者調(diào)用日歷工具,這些都得益于這些輕量級模型。

Meta AI 還與高通和聯(lián)發(fā)科技等行業(yè)領(lǐng)先的合作伙伴合作,將這些模型部署到基于 Arm CPU 的系統(tǒng)單芯片上,確保能夠在廣泛的設(shè)備上高效使用。早期測試表明,量化 Llama3.2在主要的自然語言處理基準(zhǔn)測試中達(dá)到了 Llama3模型效果的95%,而內(nèi)存使用量減少了近60%。這對于希望在不投入高昂基礎(chǔ)設(shè)施的前提下實現(xiàn)人工智能的企業(yè)和研究者來說,意義重大。

Meta AI 推出的量化 Llama3.2模型,不僅為提升人工智能技術(shù)的可及性邁出了重要一步,還解決了當(dāng)前大規(guī)模語言模型應(yīng)用中的一些核心問題,比如成本和環(huán)境影響。這種高效的模型發(fā)展趨勢,必將在未來推動人工智能的可持續(xù)和包容性發(fā)展。

模型入口:https://www.llama.com/

劃重點:

?? Meta AI 發(fā)布的量化 Llama3.2模型包含1B 和3B 版本,顯著降低模型體積和計算資源需求。

?? 模型推理速度提升2-4倍,適用于普通消費級硬件,適合實時應(yīng)用。

?? 量化 Llama3.2在自然語言處理性能上幾乎與原版相當(dāng),助力企業(yè)和研究者實現(xiàn) AI 應(yīng)用。