Meta開源DepthLM,首證視覺語言模型無需改架構(gòu)即可媲美純視覺模型的3D理解能力。通過視覺提示、稀疏標(biāo)注等創(chuàng)新策略,DepthLM精準(zhǔn)完成像素級深度估計(jì)等任務(wù),解鎖VLM多任務(wù)處理潛力,為自動駕駛、機(jī)器人等領(lǐng)域帶來巨大前景。
在當(dāng)前多模態(tài)AI發(fā)展浪潮中,視覺語言模型(Vision Language Models, VLMs)因其能通過「看圖 + 文字交互」處理多樣任務(wù)而備受關(guān)注。
然而,盡管在語義理解、視覺問答、圖像指令等任務(wù)上表現(xiàn)優(yōu)異,它們在從 2D 圖像理解 3D 空間結(jié)構(gòu)方面仍顯薄弱。相比之下,純視覺模型(pure vision models)在 絕對深度估計(jì)(metric depth estimation) 等三維理解任務(wù)上,憑借專門設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)與損失函數(shù),早已達(dá)到了超越人類的精度。
這就帶來了一個核心問題:「視覺語言模型是否有可能不更改其標(biāo)準(zhǔn)架構(gòu)及訓(xùn)練loss,實(shí)現(xiàn)與純視覺模型同等級別的3D理解能力?」
Meta開源了一項(xiàng)突破性研究工作DepthLM,首次證明了該問題的答案是肯定的!
DepthLM首次證明了語言模型也能準(zhǔn)確理解三維空間,并且比專家視覺模型具有更好的靈活性及泛化性。
DepthLM證明了,在無需改動架構(gòu)的前提下,就能讓視覺語言模型(VLM) 在像素級「絕對深度估計(jì)」等三維視覺任務(wù)上達(dá)到與純視覺模型相媲美的水平。
在此之前,即便是最先進(jìn)的VLM如GPT-5和Gemini2.5-Pro等,在絕對深度估計(jì)上均遠(yuǎn)遠(yuǎn)落后于純視覺模型。