MIT与英伟达合作研发AI模型工具可更快且以更少计算资源生成逼真图像

27 03月 2025

2025-03-27 16:51

快速生成高质量图片的能力对于打造逼真的模拟环境至关重要，而且此类环境可用于训练自动驾驶汽车避开不可预测的危险，从而提升其在真实道路场景中的安全性。然而，目前生成式人工智能技术越来越多地被用于生成此类图像，不过此类技术存在缺陷。例如，一种十分流行的模型类别——扩散模型，就可以生成极其逼真的图像，但是其对于很多应用而言，速度慢且需要大量的计算资源。另一方面，驱动ChatGPT等大型语言模型（LLM）的自回归模型虽然速度更快，但是生成的图像质量较低，而且常常有很多错误。

据外媒报道，在此背景下，美国麻省理工学院（MIT）与英伟达公司（NVIDIA）的研究人员研发了一种新方法，成功将上述两种方法的优势结合起来。此种混合图像生成工具采用自回归模型，快速捕捉整体画面，然后运用小型扩散模型，对图像进行细节优化。该款工具名为HART（hybrid autoregressive transformer，混合自回归转换器的缩写），能够生成与当前最先进的扩散模型所生成的图像，质量相当甚至更优的图像，同时速度提升了九倍。

HART生成图像的过程所消耗的计算资源较典型扩散模型更少，因而使其能够在商用笔记本电脑或智能手机上本地运行。用户只需在HART界面输入自然语言提示，即可生成图像。HART可能具有广泛的应用前景，例如帮助研究人员训练机器人，以完成复杂的真实世界任务；协助设计师为视频游戏打造更具吸引力的场景。

两全其美

Stable Diffusion和DALL-E等流行的扩散模型能够生成高度细节化的图像。此类模型通过迭代过程生成图像，在此过程中，此类模型会对每个像素预测一定量的随机噪声，然后减去噪声，之后预测过程与“去噪”过程会被重复多次，直至生成一张完全无噪声的新图像。

由于扩散模型在每一步均需对图像中的所有像素执行去噪操作，并且该过程可能包括30步或更多步骤，因此整体过程可能会比较缓慢且计算成本高昂。但是，因为该模型有多次机会修正之前出错的细节，因此生成的图像质量会很高。

自回归模型在文本预测任务中得到了广泛应用，并且可通过依次预测图像块（每次多个像素）生成图像。尽管该模型无法回溯以修正错误，但是此种顺序预测过程比扩散模型速度快得多。

此类模型采用称作标记（tokens）的表现形式来进行预测。自回归模型采用自动编码器将原始图像像素压缩为离散标记，并基于此类预测标记重建图像。尽管此种方法提升了模型的速度，但是压缩过程中发生的信息丢失可能会导致模型在生成新图像时出现错误。

借助HART，研究人员研发了一种混合方法，运用自回归模型来预测压缩的离散图像标记，再运营小型扩散模型来预测残差标记。其中，残差标记能够捕捉离散标记遗漏的细节信息，补偿模型丢失的信息。

由于扩散模型只能预测自回归模型完成工作后的剩余细节，因此其可在八个步骤内完成任务。相比之下，标准扩散模型通常需要30个或者更多步骤来生成完整的图像。此种额外引入的扩散模型以极低的计算量保留了自回归模型的速度优势，同时大幅提升其生成复杂图像细节的能力。

在研发HART的过程中，研究人员在高效整合扩散模型以增强自回归模型方面遇到了挑战。但是他们发现，在自回归过程的早期集成扩散模型会导致误差累积。因此，最终的设计仅在最后一步应用了扩散模型，以预测剩余标记，从而显著提升了图像生成的质量。

研究人员的方法结合了含有7亿参数的自回归转换器模型和含有3700万参数的轻量级扩散模型，能够生成与拥有20亿参数的扩散模型同等质量的图像，但是速度却快了九倍。此外，其计算量比最先进的模型少约31%。

此外，由于HART采用自回归模型（与驱动LLM的模型一样）来完成大量工作，因此其更易与新型统一视觉-语言生成式模型集成在一起。未来，人们或许能够与统一视觉-语言生成式模型互动，例如要求其展示组装一件家具所需的中间步骤。

展望未来，研究人员希望能够继续研究，基于HART架构打造视觉-语言模型。由于HART具有可扩展性以及多模态通用性，因此研究人员还希望将其应用于视频生成和音频预测任务。

MIT与英伟达合作研发AI模型工具可更快且以更少计算资源生成逼真图像

小智一周要闻| 广汽机器人业务独立；荣耀将推首款人形机器人

15万以内,带NOA的车已经有这么多了?

具身智能的"城市战争": 国家队双核,地方军突围

科大创新钙离子电池技术大幅提升储能效率和可持续性

Seeds | 面壁智能完成数亿元融资,中国电信领投

宇树科技王兴兴: 单任务成功率近100%,长任务规划仍待突破

东北大学研发出抗畸变能量材料改善锂离子电池性能

MIT发明具备停车感知功能的导航系统可以避免用户感到沮丧并减少排放

东芝推出新型高侧开关可实现汽车系统中的安全电源控制

艾迈斯欧司朗推出AS5173磁位置传感器

中国科学家在《自然》发表塑料基有机电池技术,能量密度达250 Wh/kg

德国,盯上了杭州"硬科技"

L3级自动驾驶时代真的来了?无图智驾已全面上车

预算10万想要激光雷达?这10款车给你安排上了

马斯克: 特斯拉FSD将支持语音指令功能

奔驰与Momenta深化合作；宁德时代与宝马签约,共推电池护照试点

MIT与英伟达合作研发AI模型工具 可更快且以更少计算资源生成逼真图像

MIT与英伟达合作研发AI模型工具可更快且以更少计算资源生成逼真图像