近日,智象未來(lái)團(tuán)隊(duì)正式推出全新自回歸圖像編輯框架 VAREdit,作為全球首個(gè)純自回歸的圖像編輯模型,這也是該領(lǐng)域的又一重大突破。該框架不僅能夠精準(zhǔn)執(zhí)行用戶指令,避免過(guò)度修改,還將編輯速度提升至0.7秒級(jí),為實(shí)時(shí)交互與高效創(chuàng)作開辟新路徑。
長(zhǎng)期以來(lái),擴(kuò)散模型在圖像編輯中雖能生成高質(zhì)量畫面,但存在局部修改牽動(dòng)整體結(jié)構(gòu)、編輯不夠精準(zhǔn),以及多步迭代效率低等瓶頸。針對(duì)這一問(wèn)題,VAREdit首次將視覺(jué)自回歸(VAR)架構(gòu)引入圖像編輯任務(wù)。它將編輯定義為“下一尺度預(yù)測(cè)”,逐層生成多尺度殘差特征,實(shí)現(xiàn)局部精準(zhǔn)修改與整體結(jié)構(gòu)保持的統(tǒng)一。同時(shí),團(tuán)隊(duì)創(chuàng)新設(shè)計(jì)了尺度對(duì)齊參考(SAR)模塊,有效解決尺度匹配難題,進(jìn)一步提升編輯質(zhì)量與效率。
在權(quán)威基準(zhǔn) EMU-Edit 與 PIE-Bench 測(cè)試中,VAREdit在CLIP與GPT等指標(biāo)全面領(lǐng)先。其中,VAREdit-8.4B在GPT-Balance指標(biāo)上較ICEdit和UltraEdit分別提升41.5%和30.8%;輕量版VAREdit-2.2B可在0.7秒內(nèi)完成512×512圖像高保真編輯,實(shí)現(xiàn)數(shù)倍提速。
目前,VAREdit已在 GitHub 和 Hugging Face 平臺(tái)全面開源。智象未來(lái)團(tuán)隊(duì)表示,未來(lái)將持續(xù)探索視頻編輯、多模態(tài)生成等應(yīng)用場(chǎng)景,推動(dòng)AI圖像編輯邁入高效、可控、實(shí)時(shí)的新紀(jì)元。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!