實現了顯著(高達1.34%)的top-1精度提升
(中國AI網 2025年04月08日)低延遲和低功耗邊緣AI對于虛擬現實和增強現實應用至關重要。最近的進展表明,結合卷積層(CNN)和transformer(ViT)的混合模型通常在各種計算機視覺和機器學習任務中實現卓越的精度/性能權衡。然而,由于混合模型在數據流和內存訪問模式中的多樣性,它們可能會對延遲和能源效率構成系統挑戰。
在一項研究中,卡內基梅隆大學、Meta、臺積電和紐約大學團隊利用了神經處理單元(NPU)和內存計算(CIM)的架構異質性,并通過不同的執行模式來有效地執行混合模型。
團隊同時引入了神經架構搜索框架H4H-NAS,以用于為具有NPU和CIM的異構邊緣系統設計高效的混合CNN/ViT模型。
所述解決方案在ImageNet數據集實現了顯著(高達1.34%)的top-1精度提升。

虛擬現實和增強現實正在日益流行,而人工智能的最新進展推動了AR/VR的多種應用,徹底改變了人們之間的溝通方式,提高了人們的生產力以及人們與數字世界的交互方式。
相關應用通常涉及運行多個深度神經網絡(DNN)推斷不同的任務,如裸手追蹤,眼動追蹤和目標檢測等。通常,為了滿足AR/VR應用的低延遲要求并保護用戶隱私,大多數DNN推斷需要在AR/VR設備進行本地處理。
另外,考慮到有限的設備端計算、內存容量和功耗預算,需要實現具有超低延遲的機器學習任務。同時,相關應用程序的DNN模型變得越來越多樣化。例如,在計算機視覺中,ResNet、MobileNet-v2和vision transformer具有完全不同的基本結構,需要不同的執行模式。
這給設計在所有不同模型都有效的通用加速器帶來了困難:為一代模型大量優化的加速器在發明新模型時往往效率較低。神經處理單元NPU已經成為解決所述挑戰并滿足邊緣人工智能嚴格的能量/延遲要求的一種手段,并且正在逐漸成熟,在商業產品中得到廣泛采用。
大多數先進的NPU采用收縮陣列結構,在計算密集型工作負載下效率非常高。但隨著NPU數量的增加,計算能力同樣在不斷增加,內存和處理器之間頻繁的數據移動占據了能源和延遲成本的主導地位。
為了解決這個問題,內存計算(CIM)作為減少數據移動的有效架構重新出現。在CIM中,NMC甚至與IMC合并,從而提高延遲和能效。基于CIM的機器學習任務依賴于模型權重的密集片上存儲,以避免與從外部存儲器讀取相關的能量成本。
例如,有針對MobileNetv2和transformer優化的高效CIM加速器,它們利用其高效的本地數據處理來處理內存有限的工作負載。密集存儲同樣使得基于非易失性存儲器的CIM成為SRAM/DRAM CIM的有吸引力替代品。
在研究中,卡內基梅隆大學、Meta、臺積電和紐約大學團隊提出了一種結合NPU和CIM的通用設計,利用NPU和CIM的架構異質性來加速具有混合CNN/ViT模型產生的不同數據流的AI邊緣系統。
團隊同時引入了一個神經架構搜索(NAS)框架來共同設計混合CNN/ViT模型,以實現異構架構的最佳精度/性能權衡。
他們建立了一個工作流來共同設計算法/硬件,以便與具有NPU和CIM的異構邊緣系統的混合CNN/ViT模型進行有效的推理。所述工作流針對AR/VR應用中的CV任務,并結合了智能攝像頭等人工智能邊緣系統的現實資源約束。

團隊利用兩階段神經結構搜索(NAS)來自動化過程并有效地搜索優化的模型。他們的目標是通過分析發現的模型來回答兩個基本問題:對機器學習研究人員來說:異構邊緣設備更喜歡哪種模型架構?對于系統設計者:如何使用NPU和CIM有效地映射和處理混合模型?
在研究中,團隊采用兩階段NAS作為算法-系統協同設計的核心策略,并專注于實現混合模型的靈活搜索空間和部署在由工業IPs構建的異構架構之上。
團隊對由NPU和CIM宏組成的異構AI邊緣設備進行建模。所提出的系統模型將模型推斷分解為細粒度。對于卷積層,它將不同通道的執行劃分到不同的設備。對于transformer層,可以對注意層中Q/K/V的產生和不同head的執行進行分區。
在H4H-NAS框架中,系統建模工具用于進化搜索,以分析子網的執行情況。系統建模結合了使用定制芯片的測量結果和來自工業CIM IP的仿真結果。所以,建模為H4H-NAS中生成的子網提供了準確的延遲和能量估計。
相關論文:Neural Architecture Search of Hybrid Models for NPU-CIM Heterogeneous AR/VR Devices
總的來說,團隊提出了H4H-NAS框架,以用于設計具有NPU和CIM的異構邊緣系統的高效混合CNN/ViT模型。實驗證明,框架提供了高達1.34%的top-1精度改進,高達56.08%的延遲和41.72%的能耗改進。關鍵技術包括高度靈活的混合模型搜索空間、針對異構系統的可靠性能分析器,以及通過增加CIM并行性來改進系統。

