ETT:打破天然多模式研究的视觉瓶颈并重新开发
栏目:行业新闻 发布时间:2025-05-29 10:28
本文由北京Zhiyuan研究所的多模式大型研究中心(团队负责人Wang Xinlong,团队负责人,EMU系列团队代表,EVA系列,Painter Segggpt),中国科学院自动化研究所和达利安大学的自动化研究所。在多模式研究正在出现的时候,视觉令牌是将视觉信息与下游活动联系起来的主要桥梁,其性能直接决定了多峰模型的性能。但是,传统的视觉令牌化方法具有致命的缺陷:视觉令牌化和降低任务的训练彼此分开。这种单独的训练范式假设视觉令牌可能无缝地用于各种活动中,但是Factanan是为重新续订活动而优化的视觉引物,通常会发现很难遇到图像产生,视觉问题和答案,例如需要丰富的语义表示,从而导致流量流中任务的执行有限。为了应对这个紧急问题,我们提出了一种新的端到端视觉令牌调整方法ETT(端到端视觉令牌调整)。纸张标题:端到端视觉令牌tuningarxiv链接:https://arxiv.org/abs/2505.105622ETK创新的创新性,可联合优化视觉令牌化和自动化的目标活动,充分释放固定的视觉令牌的任务,一旦在传统方法中完成培训。视觉令牌在多模式研究中的潜力以及多模式任务中的显着性能。在现有的训练预训练多模式框架(例如EMU3)工作中的传统方法和非凡的ETT成功的局限他的视觉令牌功能丰富,但它也具有视觉令牌器的丰富能力,可防止端到端训练实现,这使视觉令牌器无法根据流中任务的特定需求进行优化。在这种情况下,ETT的出现彻底改变了。我们仔细地介绍了视觉令牌的代码手册嵌入,仅取代了离散索引的过去,并与令牌级的字幕损失函数结合在一起,以优化视觉令牌和下游活动。这样,了解这一代国家的国家和活动的道德要求不仅可以适用。 ETT核心体系结构和培训策略ETT的主要体系结构基于增强的IBQ框架。我们通过仔细将代码簿修复到131,072并将功能大小设置为256,成功地构建了一个良好的视觉令牌。在特征空间中输入图像,然后功能是 - Quatizer的离散代码书离散,该图像已修复。这个过程赋予了重建视觉令牌功能的能力。我们还引入了多层Na Perceptron作为投影层,以匹配预训练的大语言模型的隐藏层大小上的视觉嵌入,从而在语言模型中实现了视觉信息的有效映射。 ETT的培训技术显然是分层的,并且众所周知。在对齐研究的早期阶段,同时保持预先训练的大型语言模型和视觉令牌的冷冻参数,我们只使用字幕损失功能从图像到文本进行训练,以便语言模型可以直接从视觉上获得视觉概念和生物,从而在视觉上与视觉视觉之间的视觉视觉之间的初始连接,从而直接从视觉概念上获得。视力语言方式。之后,在语义研究阶段,我们融化了大语言模型,投影层和视觉令牌的权重,并通过共同优化字幕损失功能并失去重新配置功能来训练它们毕业,以便视觉令牌能够学习强大的理解能力,同时了解图像创建能力,以维持多次攻击能力,以支持多型攻击能力。第二阶段是ETT方法的主要变化,该方法使视觉令牌器根据下游工作的要求进行深入调整,并大大提高了理解和表示的能力。最后,在训练后阶段,我们进一步增强了两个专业模型,以增强其在特定的多模式活动中的性能。 ETT中出色的多模式性能在多模式理解活动中显示出出色的性能。在规格中已经实现了巨大的卵石当模型和数据量表的模型和数据量表的模型小于现有的状态状态时,仍然可以实现诸如GQA,TextVQA以及诸如教皇,MME,MMBENCH,SEED BENCH,MMVET以及更好或竞争的结果之类的基准等多种基准。例如,在MMBench多模式基准上,ETT与基于正在进行的编码器的视觉语言模型相当,并且在某些子任务中甚至超越了某些子任务,而无需其他复杂的视觉编码器。它表明,ETT使用端到端的象征化训练的视觉方法来简化模型的体系结构,同时减少计算开销并有效提高多模式理解能力。多模式ETT生成在视觉生成的活动中也表现良好。在Geneval和T2i-Compsa中,基准数据集(例如基准)广泛使用的文本到图像,ETT的性能与其他最先进的传播方法相媲美和自动基于回归的方法,同时对参数和训练量表参数和培训量表具有更多好处。尤其是在T2i-CompBench数据集的颜色,形状和纹理模式等子任务中,ETT取得了令人满意的结果,这完全证明了其在文本到图像生成活动中的强大能力。此外,ETT还展示了其对定性结果的好处。可以从生成的图像样品中可以看出ETT可以准确的eCteckground,并适应各种组成结构和美学偏好。视觉重建活动中视觉重建ETT的性能也很棒。通过比较引入ETT之前和之后的视觉重建结果,我们可以看到ETT不仅保留了原始视觉令牌仪的丰富详细表示,而且可以有效地提高先进的语义表示功能。如上图所示,侧重于ETT的视觉令牌可以显着提高特定方面的性能,同时保持原始的视觉细节,例如更好的文本渲染。它表明,ETT可以增强视觉令牌仪表达的语义能力,同时保持重建图像的质量,从而使视觉表现更好,以获得其他多模式活动。 ETT未来的潜在局限性和发展,尽管ETT在多模式活动方面取得了重大的性能提高,但我们也意识到当前方法存在一些局限性。首先,ETT端到端微调使用的数据量表和模型容量仍然有可能进一步扩展,以进一步提高视觉表示和执行的质量。其次,ETT主要着重于使用大语言模型的语义功能(而不是设计可视觉令牌仪,从一开始就适合理解和产生。将来,我们计划从一开始就探索视觉令牌的端到端培训,以创建更全面的表示,更容易适应多模式活动。此外,将ETT方法扩展到图像和文本之外的其他方式(例如视频和音频)是一个令人兴奋的研究方向。通常,作为一种简单有效的端到端视觉令牌调谐方法,ETT易于实施和结合,为民间多峰研究带来了新的突破。通过优化视觉令牌表示功能,ETT提供了新的想法和技术来提高多模式模型的性能,该模型有望在更广泛的字段中促进多模式基本模型的应用和开发。我们期待ETT的出现,以激发有关视觉令牌化和多模式的研究探索潜在的ITODOMAIN引入了Wang Wenxuan,Wang Wenxuan是中国科学院自动化研究所的医生学生 - 贝吉·吉尤恩研究所,其研究方向是视觉语言,多模态等的模型。 Zhiyuan研究学院的研究人员张范和Cui Yufeng的研究方向是多模式,视觉世代等的本地模型,并在神经,ICLR,CVPR和ECCV等领先会议上发表了许多论文; Tsinghua University的硕士Luo Zhuoyan的研究方向是本地的多模式,视觉世代等,以及在神经,CVPR和ECCV等领先会议上发表的论文。
服务热线
400-123-4567