大型語言模型(LLM)的崛起為人工智能應(yīng)用帶來了革命性的變化,然而,它們?cè)谔幚肀砀駭?shù)據(jù)方面卻存在著明顯的不足。 浙江大學(xué)計(jì)算創(chuàng)新研究院的研究團(tuán)隊(duì)針對(duì)這一問題,推出了一款名為 TableGPT2的全新模型,它能夠直接且高效地整合和處理表格數(shù)據(jù),為商業(yè)智能(BI)和其他數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用開辟了新的可能性。
TableGPT2的核心創(chuàng)新在于其獨(dú)特的表格編碼器,該編碼器專門設(shè)計(jì)用于捕獲表格的結(jié)構(gòu)信息和單元格內(nèi)容信息,從而增強(qiáng)模型處理現(xiàn)實(shí)應(yīng)用中常見的模糊查詢、缺失列名和不規(guī)則表格的能力。 TableGPT2基于 Qwen2.5架構(gòu),并經(jīng)過了大規(guī)模的預(yù)訓(xùn)練和微調(diào),涉及超過59.38萬個(gè)表格和236萬個(gè)高質(zhì)量的查詢-表格-輸出元組,這是先前研究中前所未有的表格相關(guān)數(shù)據(jù)規(guī)模。
為了提升 TableGPT2的編碼和推理能力,研究人員對(duì)其進(jìn)行了持續(xù)預(yù)訓(xùn)練(CPT),其中80% 的數(shù)據(jù)是精心注釋的代碼,以確保其具備強(qiáng)大的編碼能力。 此外,他們還收集了大量的推理數(shù)據(jù)和包含特定領(lǐng)域知識(shí)的教科書,以增強(qiáng)模型的推理能力。 最終的 CPT 數(shù)據(jù)包含860億個(gè)經(jīng)過嚴(yán)格篩選的詞符,這為 TableGPT2處理復(fù)雜的 BI 任務(wù)和其他相關(guān)任務(wù)提供了必要的編碼和推理能力。
為了解決 TableGPT2在適應(yīng)特定 BI 任務(wù)和場(chǎng)景方面的局限性,研究人員對(duì)其進(jìn)行了監(jiān)督微調(diào)(SFT)。 他們構(gòu)建了一個(gè)涵蓋各種關(guān)鍵和現(xiàn)實(shí)場(chǎng)景的數(shù)據(jù)集,包括多輪對(duì)話、復(fù)雜推理、工具使用和高度業(yè)務(wù)化的查詢。 該數(shù)據(jù)集結(jié)合了人工標(biāo)注和專家驅(qū)動(dòng)的自動(dòng)標(biāo)注流程,確保了數(shù)據(jù)的質(zhì)量和相關(guān)性。 SFT 過程共使用了236萬個(gè)樣本,進(jìn)一步完善了模型,使其能夠滿足 BI 和其他涉及表格的環(huán)境的特定需求。
TableGPT2還創(chuàng)新性地引入了語義表格編碼器,該編碼器將整個(gè)表格作為輸入,為每一列生成一組緊湊的嵌入向量。 這種架構(gòu)針對(duì)表格數(shù)據(jù)的獨(dú)特屬性進(jìn)行了定制,通過雙向注意力機(jī)制和分層特征提取過程,有效地捕捉了行和列之間的關(guān)系。 此外,還采用了列式對(duì)比學(xué)習(xí)方法,鼓勵(lì)模型學(xué)習(xí)有意義的、結(jié)構(gòu)感知的表格語義表示。
為了將 TableGPT2與企業(yè)級(jí)數(shù)據(jù)分析工具無縫集成,研究人員還設(shè)計(jì)了代理工作流運(yùn)行時(shí)框架。 該框架包含三個(gè)核心組件:運(yùn)行時(shí)提示工程、安全代碼沙箱和代理評(píng)估模塊,共同增強(qiáng)了代理的能力和可靠性。 工作流通過模塊化步驟(輸入規(guī)范化、代理執(zhí)行和工具調(diào)用)支持復(fù)雜的數(shù)據(jù)分析任務(wù),這些步驟協(xié)同工作以管理和監(jiān)控代理的性能。 通過整合用于高效上下文檢索的檢索增強(qiáng)生成(RAG)和用于安全執(zhí)行的代碼沙箱,該框架確保 TableGPT2在實(shí)際問題中提供準(zhǔn)確、上下文相關(guān)的見解。
研究人員在各種廣泛使用的表格和通用基準(zhǔn)測(cè)試中對(duì) TableGPT2進(jìn)行了廣泛的評(píng)估,結(jié)果表明,TableGPT2在表格理解、處理和推理方面表現(xiàn)出色,70億參數(shù)模型的平均性能提升了35.20%,720億參數(shù)模型的平均性能提升了49.32%,同時(shí)保持了強(qiáng)大的通用性能。 為了進(jìn)行公平的評(píng)估,他們僅將 TableGPT2與開源的基準(zhǔn)中性模型(如 Qwen 和 DeepSeek)進(jìn)行比較,確保了模型在各種任務(wù)上的均衡、多功能性能,而不會(huì)過度擬合任何單個(gè)基準(zhǔn)測(cè)試。 他們還引入并部分發(fā)布了一個(gè)新的基準(zhǔn)測(cè)試——RealTabBench,該基準(zhǔn)測(cè)試強(qiáng)調(diào)非常規(guī)表格、匿名字段和復(fù)雜查詢,更符合現(xiàn)實(shí)場(chǎng)景。
盡管 TableGPT2在實(shí)驗(yàn)中取得了最先進(jìn)的性能,但在將 LLM 部署到現(xiàn)實(shí)世界的 BI 環(huán)境中仍然存在挑戰(zhàn)。 研究人員指出,未來的研究方向包括:
特定領(lǐng)域編碼:使 LLM 能夠快速適應(yīng)企業(yè)特定的領(lǐng)域特定語言(DSL)或偽代碼,以更好地滿足企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施的特定需求。
多代理設(shè)計(jì):探索如何有效地將多個(gè) LLM 集成到一個(gè)統(tǒng)一的系統(tǒng)中,以處理現(xiàn)實(shí)應(yīng)用的復(fù)雜性。
多功能表格處理:改進(jìn)模型處理不規(guī)則表格的能力,例如 Excel 和 Pages 中常見的合并單元格和不一致的結(jié)構(gòu),以更好地處理現(xiàn)實(shí)世界中各種形式的表格數(shù)據(jù)。
TableGPT2的推出標(biāo)志著 LLM 在處理表格數(shù)據(jù)方面取得了重大進(jìn)展,為商業(yè)智能和其他數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用帶來了新的可能性。 相信隨著研究的不斷深入,TableGPT2將在未來的數(shù)據(jù)分析領(lǐng)域發(fā)揮越來越重要的作用。
論文地址:https://arxiv.org/pdf/2411.02059v1

