在NeurIPS 2025論文中,來自「南京理工大學(xué)、中南大學(xué)、南京林業(yè)大學(xué)」的研究團(tuán)隊(duì)提出了一個(gè)極具突破性的框架——VIST(Vision-centric Token Compression in LLM),為大語言模型的長(zhǎng)文本高效推理提供了全新的「視覺解決方案」。值得注意的是,這一思路與近期引起廣泛關(guān)注的DeepSeek-OCR的核心理念不謀而合。
在處理短文本時(shí),大語言模型(LLM)已經(jīng)表現(xiàn)出驚人的理解和生成能力。但現(xiàn)實(shí)世界中的許多任務(wù)——如長(zhǎng)文檔理解、復(fù)雜問答、檢索增強(qiáng)生成(RAG)等——都需要模型處理成千上萬甚至幾十萬長(zhǎng)度的上下文。
與此同時(shí),模型參數(shù)規(guī)模也從數(shù)十億一路飆升至萬億級(jí)別。
在「上下文長(zhǎng)度激增」與「模型參數(shù)量膨脹」的雙重挑戰(zhàn)下,Token壓縮不再是優(yōu)化項(xiàng),而是必需品。
若不能有效縮減輸入規(guī)模,即便最強(qiáng)大的大語言模型,也難以高效處理我們需要它分析的海量信息。
南京理工大學(xué)、中南大學(xué)、南京林業(yè)大學(xué)的研究人員提出VIST(Vision-centric Token Compression in LLM)框架,正是為了解決這一痛點(diǎn)。