LongRAG是清華大學、中國科學院和智譜的研究團隊推出的,面向長文本問答(LCQA)的雙視角魯棒檢索增強生成(RAG)框架。基于混合檢索器、LLM增強信息提取器、CoT引導過濾器和LLM增強生成器四個組件,有效解決長文本問答中的全局上下文理解和事實細節識別難題。LongRAG在多個數據集上超越長上下文LLM、高級RAG系統和Vanilla RAG等基線模型,展現出卓越的性能和魯棒性。LongRAG提供自動化微調數據構建管道,增強系統的“指令跟隨”能力和領域適應性。
LongRAG的主要功能雙視角信息處理:基于全局信息和事實細節的雙視角來理解和回答長文本上下文問題。混合檢索器:快速從大量數據中檢索與問題相關的信息片段。LLM增強信息提取器:將檢索到的片段映射回原始長文本段落,提取全局背景和結構信息。CoT引導過濾器:用鏈式思考(Chain of Thought, CoT)指導模型關注與問題相關的信息,過濾掉不相關的內容。LLM增強生成器:結合全局信息和關鍵事實細節生成最終答案。自動化微調數據構建:基于自動化流程構建高質量的微調數據集,提升模型在特定任務上的表現。LongRAG的技術原理檢索增強生成(RAG):基于RAG框架,檢索外部知識輔助語言模型生成回答。全局信息和細節信息的整合:系統不僅關注局部事實細節,還整合長文本中的全局信息,提供更全面的答案。映射策略:將檢索到的片段映射回原始長文本,恢復上下文信息,提供更準確的背景結構。鏈式思考(CoT):用CoT作為全球線索,指導模型逐步關注與問題相關的知識,提高證據密度。過濾策略:基于CoT的全局線索,過濾掉不相關的信息片段,保留關鍵的事實細節。LongRAG的項目地址GitHub倉庫:https://github.com/QingFei1/LongRAGarXiv技術論文:https://arxiv.org/pdf/2410.18050LongRAG的應用場景客戶服務與支持:在客戶服務領域,理解和回答長篇的客戶查詢或歷史交互記錄,提供更準確的回答和解決方案。醫療咨詢:在醫療行業處理大量的病人記錄和醫學文獻,回答醫生或病人關于疾病、治療和藥物的復雜問題。法律咨詢:幫助法律專業人士基于分析大量的法律文件和案例,提供關于法律問題的深入分析和建議。教育與研究:在教育領域,作為輔助工具,幫助學生和研究人員深入理解長篇學術文章和研究報告,回答研究相關的問題。企業決策支持:分析市場研究報告、企業年報等長篇文檔,為商業決策提供數據支持和洞察。 
