中大新聞網(wǎng)訊(通訊員李浩源)近日,中山大學(xué)智能工程學(xué)院梁小丹教授課題組與引望科技,聯(lián)合上海交通大學(xué)、上海創(chuàng)智學(xué)院,發(fā)布了全新主動幾何集成框架GeoThinker。

圖注:GeoThinker模型框架
目前的視覺語言模型(VLM)在物體識別上已經(jīng)非常成熟,但在理解復(fù)雜的3D物理空間關(guān)系時(shí)仍面臨挑戰(zhàn)。核心瓶頸在于傳統(tǒng)的“被動融合”模式,即模型無差別地接收所有幾何信息,導(dǎo)致視覺語義與底層幾何位置難以精準(zhǔn)對齊。這種方式不僅引入了大量如地板、墻面等無關(guān)的背景噪聲,掩蓋了關(guān)鍵的空間邏輯,還使得模型在處理復(fù)雜推理任務(wù)時(shí)精度不足,難以真正“讀懂”三維物理世界 。
針對這些痛點(diǎn),團(tuán)隊(duì)提出了名為GeoThinker的全新主動幾何集成框架。GeoThinker實(shí)現(xiàn)了從“被動融合”向“主動感知”的范式轉(zhuǎn)變,其核心在于構(gòu)建了“按需查詢”的智能機(jī)制。通過空間基座融合和重要性門控(IG)等核心架構(gòu),模型能夠根據(jù)具體任務(wù)上下文,主動識別并定向提取關(guān)鍵的空間紋理信息。這種設(shè)計(jì)就像為模型裝上了“智能濾鏡”,使其能自發(fā)關(guān)注物體邊界和關(guān)鍵結(jié)構(gòu),同時(shí)屏蔽冗余的背景干擾。
實(shí)驗(yàn)結(jié)果顯示,GeoThinker在多項(xiàng)權(quán)威空間智能基準(zhǔn)測試中展現(xiàn)了極強(qiáng)的領(lǐng)先性。它在 VSI-Bench 上以 72.6 分的成績刷新了 SOTA 紀(jì)錄,性能顯著優(yōu)于 GPT-5 和 Gemini-3-Pro 等閉源大模型。在全球 EASI 綜合榜單中,GeoThinker 位列總榜第 6,是開源界公認(rèn)的標(biāo)桿模型。此外,該框架在具身智能機(jī)器人指代和自動駕駛規(guī)劃決策等實(shí)際應(yīng)用中也表現(xiàn)卓越,即便在極低分辨率的模糊圖像下依然能保持穩(wěn)健的空間推理能力。這一研究證明,空間智能的未來在于模型能夠根據(jù)需求主動、精準(zhǔn)地整合幾何結(jié)構(gòu)信息。