LongCite是什么

LongCite是由清華大學推出的項目,旨在提升大型語言模型(LLMs)在長文本問答任務中的可信度和可驗證性。項目通過生成細粒度的句子級引用,使用戶能驗證模型的回答是否準確。核心組成部分包括LongBench-Cite評估基準、CoF自動化數據構建流程、LongCite-45k數據集,以及基于該數據集訓練的LongCite-8B和LongCite-9B模型。模型能理解長文本內容并提供準確的問答服務,同時附上直接查閱的文本引用,增強信息的透明度和可靠性。

LongCite  清華推出的開源模型,提升LLMs的精準引用減少幻覺 第1張LongCite的主要功能生成細粒度引用:LongCite使語言模型在回答長文本問題時,生成精確到句子級別的引用,用戶能直接追溯到原文中的具體信息。提高回答的忠實度:LongCite有助于確保模型的回答更加忠實于原文,減少模型出現的“幻覺”(即生成與原文不符的信息)。增強可驗證性:用戶基于模型提供的細粒度引用來驗證回答的真實性和準確性,提高模型輸出的可信度。自動化數據構建:LongCite采用了CoF(Coarse to Fine)流程,自動化地生成帶有細粒度引用的高質量長文本問答數據,為模型訓練提供豐富的標注資源。評測基準:LongCite引入LongBench-Cite評測基準,用于衡量模型在長文本問答中生成引用的能力,包括正確性和引用質量。LongCite的技術原理長文本處理能力:LongCite支持超長上下文窗口的大型語言模型(如GLM-4-9B-1M,Gemini 1.5等),能處理和理解長達數萬字的文本。細粒度引用生成:LongCite訓練模型生成精確到句子級別的引用,使每個回答都能追溯到原文的具體句子,提高了回答的可驗證性。自動化數據構建流程(CoF):使用自指導(Self-Instruct)方法自動從長文本中生成問題和答案對。從長文本中檢索與答案相關的句子塊,并生成塊級引用。在塊級引用的基礎上,提取出支持每個陳述的具體句子,生成句子級引用。監督式微調(Supervised Fine-Tuning, SFT):CoF流程生成的帶有細粒度引用的高質量數據集對大型語言模型進行微調,提升模型在長文本問答任務中的表現。LongCite的項目地址GitHub倉庫:https://github.com/THUDM/LongCiteHuggingFace模型庫:https://huggingface.co/THUDMarXiv技術論文:https://arxiv.org/pdf/2409.02897LongCite的應用場景學術研究:研究人員和學者用LongCite來查詢大量的文獻資料,并獲取帶有引用的詳細答案,支持研究工作。法律咨詢:法律專業人士用LongCite分析法律文檔,獲取具體的法律條文或案例引用,支持法律分析和案件研究。金融分析:金融分析師和投資者使用LongCite來理解復雜的金融報告和市場研究,獲取關鍵數據和趨勢的準確引用。醫療咨詢:醫療專業人員依賴LongCite來查詢醫療文獻,獲取基于最新研究成果的診斷和治療建議的引用。新聞報道:記者和新聞機構用LongCite驗證報道中的信息,確保發布的新聞內容準確無誤,并提供可靠的來源引用。