|
|
|
|
|
FCS 文章精要 | 国防科技大学&军事科学院,HexaDream:用于文本到3D创作的六视图先验与约束 |
|
|
论文标题:HexaDream: hexaview prior and constraint for text to 3D creation
期刊:Frontiers of Computer Science
作者:Zhi-Chao ZHANG, Hui CHEN, Jin-Sheng DENG , Ming XU, Zheng-Bin PANG
发表时间:17 Feb 2025
DOI:10.1007/s11704-025-40774-x
微信链接:点击此处阅读微信文章

引用格式:
Zhi-Chao ZHANG, Hui CHEN, Jin-Sheng DENG, Ming XU, Zheng-Bin PANG. HexaDream: hexaview prior and constraint for text to 3D creation. Front. Comput. Sci., 2026, 20(2): 2002311
阅读原文:

问题概述
在AI生成创意内容(AIGC)领域,从文本描述生成三维物体引起了广泛关注。文本到三维(Text-to-3D)技术正在深刻影响计算机辅助设计(CAD)、游戏、虚拟现实和艺术创作等多个领域。然而,生成过程面临着一致性差和分辨率低等问题,主要原因在于缺少关键的视觉线索,如视角和属性。此外,渲染中的随机约束可能影响模型推理,导致“Janus问题”。由国防科技大学邓劲生、徐明两位教授领衔的计算机人工智能与大数据实验室近期在AIGC领域推出文本生成三维物体的去除多头优化技术,取得了性能上的显著进展。为了解决这些问题,该文提出了HexaDream框架,用于生成高质量的三维内容。Hexaview生成扩散模型旨在将物体类型、属性和视角特定的文本融合到统一的潜空间中。此外,特征聚合注意力机制显著增强了生成结果的细节和一致性,通过将正交视角中的点特征映射到三维领域,进一步提升了生成效果。

技术步骤
该文采用了基于Latent Diffusion Model(LDM)的方法来生成六个正交视角的三维图像。首先,该文使用文本嵌入模型提取输入文本的语义信息,并结合LAION数据集生成对应的图像。接着,通过CNN提取图像的实体和属性特征。为了获取视角信息,该文对LAION数据集进行了六个正交视角的预处理。这一阶段有助于学习完整的三维物体结构表示。随后,该文将这些图像嵌入潜空间,并训练一个Hexaview生成扩散模型来生成多视角图像。该文通过最小化潜空间中的损失函数来优化该模型,使得生成的图像更加符合实际三维物体的结构。该文的模型还利用了特征聚合注意力机制,将从多个视角提取的2D特征映射到三维空间中,保证了生成物体的一致性和细节丰富度。

实验结果
通过在多个基准数据集上的实验,该文的HexaDream模型在关键指标上取得了显著的改进,例如CLIP-R、Keypart Fidelity和Multihead Alleviation。在与现有方法的比较中,HexaDream在CLIP-R上提高了8%,在Keypart Fidelity上提高了12%,特别是在Multihead Alleviation上提高了20.6%。该文还通过对比实验验证了不同模块对模型性能的贡献,实验结果显示,通过引入六个正交视角、特征聚合注意力机制以及动态加权HexaConstraint模块,HexaDream有效解决了现有方法中常见的多头问题和一致性问题,进一步提升了从文本生成高质量三维物体的能力。

期刊简介
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办,南京大学支持,SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华院士,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐B类期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;两次入选“中国科技期刊卓越行动计划”(一期梯队、二期领军)。

中国学术前沿期刊网
http://journal.hep.com.cn
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。