查看引用/信息源請點擊:中國AI網
任務導向、上下文感知的智能通信
(中國AI網 2025年11月28日)在6G網絡即將到來的時代,增強現實、虛擬現實與全息通信等沉浸式應用對高維多模態數據的實時傳輸與智能處理提出了前所未有的挑戰。所述應用需要實時處理高分辨率視頻、密集點云、音頻流和傳感器信息等多模態數據,然而帶寬受限的無線信道以及終端設備有限的計算能力和存儲容量,使得高維數據傳輸和智能數據處理面臨重大難題。
為應對這一挑戰,北京交通大學與英國帝國理工學院的研究團隊聯合提出了一種名為”MLLM-SC”的新型語義通信框架,深度融合多模態大語言模型(MLLM)以實現任務導向、上下文感知的智能通信,為6G時代的沉浸式體驗提供了創新解決方案。

所述框架采用創新的”設備-邊緣”協同架構,在邊緣服務器部署MLLM作為語義理解與推理引擎。MLLM綜合分析來自用戶的多模態輸入(包括圖像、語音、眼動信號)、任務請求(如視覺問答、駕駛意圖)及無線信道狀態信息(CSI),通過先進的提示工程、上下文學習和軟提示技術,生成語義注意力熱圖或二進制掩碼,精確標識出對任務關鍵的區域與內容。
例如在AR導航場景中,當用戶詢問”街對面的建筑是什么?”時,MLLM能夠準確識別出用戶關注的建筑物區域,并優先保障這些區域的傳輸質量。
系統集成了多種先進的MLLM模型,包括GPT-4V/GPT-4o用于強大的視覺理解,Qwen2.5-VL用于多語言視覺推理,BLIP-2通過Q-Former架構增強跨模態特征提取,同時使用CLIP和CLAP實現視覺-語言和音頻-語言的語義對齊。
在編碼端,系統設計了創新的雙路徑重要性感知語義編碼器,其中編碼器基于MLLM提供的語義引導實現差異化處理。編碼器采用高保真和輕量級雙網絡架構,其中高保真網絡處理被MLLM標識為語義重要的區域,使用更深層的網絡結構以保持關鍵視覺細節;輕量級網絡則處理次要場景區域,采用輕量架構和更激進的壓縮策略以降低傳輸開銷。
通過交叉注意力機制,編碼器動態計算查詢(Q)、鍵(K)和值(V)矩陣,生成反映不同語義區域相對重要性的注意力分數,驅動帶寬分配過程。在資源分配方面,高重要性特征獲得的傳輸資源顯著多于優先級分數較低的次要特征,這種語義重要性感知的資源分配確保即使在信道條件惡化的情況下,最重要的內容仍能保持傳輸質量,而次要區域則犧牲保真度以保持整體系統性能。
在接收端,資源自適應語義解碼器基于變分自編碼器(VAE)和條件擴散模型,實現高質量內容重建與生成。解碼器能夠根據設備計算能力、可用帶寬和當前信道條件,動態調整其重建和生成策略。擴散模型通過多步去噪過程,在設備端提示或上下文任務請求的引導下,即使在低帶寬條件下也能合成高質量內容。

為了進一步降低傳輸帶寬,模塊采用VAE技術對接收到的信號中的壓縮語義特征進行解碼和重建,確保多模態內容中的語義一致性和結構完整性。系統同時引入了分布匹配策略,通過最小化VAE推導的后驗分布與原始生成器分布之間的散度,使重建特征的分布與原始未壓縮數據的分布對齊。
為驗證框架有效性,研究團隊開展了兩個深入的典型案例研究。在AR/VR視覺問答場景中,系統以LLaVA作為多模態推理引擎,結合CLIP ViT-L視覺編碼和Vicuna-v1.5 13B語言建模,實現復雜的問題-圖像理解。CLIPSeg組件執行問題引導的區域分割,通過在CLIP嵌入空間中的語義匹配,生成識別與提出問題相關圖像區域的二進制掩碼。
實驗使用VGPhraseCut數據集,包含77,262張圖像中的345,486個短語-區域對,選擇掩碼占據總圖像面積10-40%的樣本,與實用VQA應用中典型的用戶注意力分布保持一致。訓練過程通過加權均方誤差(MSE)損失明確區分掩碼區域(語義關鍵區域)和非掩碼區域。評估結果顯示,在MLLM引導下,系統可將更多帶寬分配給關鍵區域,在權重比為4:1時,傳輸IoU達到0.8060,IoU退化僅為0.0279,顯著優于無引導的均勻分配策略。
在擴散驅動的圖像生成任務中,系統將無線傳輸過程建模為擴散模型的前向過程,在接收端利用穩定擴散進行反向去噪與內容生成。為了緩解傳輸全分辨率潛在特征帶來的帶寬開銷,系統引入了壓縮機制,在保留基本語義的同時顯著降低傳輸開銷。
在接收端,VAE重建模塊對壓縮的語義特征進行上采樣和重建,通過重新參數化確保恢復的特征符合擴散模型所需的高斯分布。
為了在不同信道條件下增強魯棒性,VAE解碼器進一步以信噪比為條件,允許自適應估計特征方差。在LSUN-Bedrooms數據集上的實驗表明,在1.3%的極低壓縮率下,系統在12 dB信噪比條件下實現20.76 dB的PSNR和0.74的CLIP分數,顯著優于基準方法CDDM。視覺結果顯示,在提示語”床上有一只可愛/大貓”的引導下,生成過程有效整合了文本指導,重建出語義對齊的圖像,在床上成功生成貓的形象,展示了系統基于提示語自適應生成內容的能力。
相關論文:Multimodal LLM Integrated Semantic Communications for 6G Immersive Experiences
https://arxiv.org/pdf/2507.04621
研究團隊指出,MLLM-SC框架在智能城市沉浸式AR/VR/XR體驗、全息沉浸式會議和車邊協同自動駕駛等場景中具有廣泛應用前景。未來工作將聚焦于強化學習驅動的反饋優化、MLLM實時推理加速、以及多智能體協同語義通信等方向,以進一步提升系統在動態信道與復雜任務環境中的適應性與魯棒性。
研究成果標志著語義通信從”內容重建”向”語義理解與生成”邁進的關鍵一步,為6G時代實現高效、智能、沉浸式的通信體驗奠定了堅實的技術基礎。

