有赖于易于优化和连续表示的特点,NeRF在3D场景重修中有着大量运用,也带动了3D场景编辑领域的研究,如3D工具或场景的纹理重绘、风格化等。
为了进一步提高3D场景编辑的灵巧性,近期基于预演习扩散模型进行3D场景编辑的方法也正在被大量探索,但由于NeRF的隐式表征以及3D场景的几何特性,得到符合文本提示的编辑结果并非易事。

为了让文本驱动的3D场景编辑也能够实现精准掌握,美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天算夜学、中山大学,共同提出了一种将文本描述和参考图像统一为编辑提示的CustomNeRF框架,可以通过微调预演习的扩散模型将参考图像中包含的特定视觉主体V∗嵌入到稠浊提示中,从而知足一样平常化和定制化的3D场景编辑哀求。
该研究成果目前已被CVPR 2024收录,代码已开源。

论文链接:https://arxiv.org/abs/2312.01663代码链接:https://github.com/hrz2000/CustomNeRF

图1:CustomNeRF在文本驱动(左)和图像驱动(右)的编辑效果

CustomNeRF办理的两大寻衅

目前,基于预演习扩散模型进行3D场景编辑的主流方法紧张分为两类。

仅需文本或图像精准编辑3D场景CustomNeRF入选CVPR 2024

其一,是利用图像编辑模型迭代地更新数据集中的图像,但是受限于图像编辑模型的能力,会在部分编辑环境下失落效。
其二,则是利用分数蒸馏采样(SDS)丢失对场景进行编辑,但由于文本和场景之间的对齐问题,这类方法在真实场景中无法直接适配,会对非编辑区域造成不必要的修正,每每须要mesh或voxel等显式中间表达。

此外,当前的这两类方法紧张集中在由文本驱动的3D场景编辑任务中,文本描述每每难以准确表达用户的编辑需求,无法将图像中的详细观点定制化到3D场景中,只能对原始3D场景进行一样平常化编辑,因此难以得到用户预期中的编辑结果。

事实上,得到预期编辑结果的关键在于精确识别图像前景区域,这样能够在保持图像背景的同时促进几何同等的图像前景编辑。

因此,为了实现仅对图像前景区域进行准确编辑,该论文提出了一种局部-全局迭代编辑(LGIE)的演习方案,在图像前景区域编辑和全图像编辑之间交替进行。
该方案能够准确定位图像前景区域,并在保留图像背景的同时仅对图像前景进行操作。

此外,在由图像驱动的3D场景编辑中,存在因微调的扩散模型过拟合到参考图像视角,所造成的编辑结果几何不一致问题。
对此,该论文设计了一种类勾引的正则化,在局部编辑阶段仅利用类词来表示参考图像的主体,并利用预演习扩散模型中的一样平常类先验来促进几何同等的编辑。

CustomNeRF的整体流程

如图2所示,CustomNeRF通过3个步骤,来实现在文本提示或参考图像的辅导下精确编辑重修3D场景这一目标。

图2 CustomNeRF 的整体流程图

首先,在重修原始的3D场景时,CustomNeRF引入了额外的mask field来估计除常规颜色和密度之外的编辑概率。
如图2(a) 所示,对付一组须要重修3D场景的图像,该论文先利用Grouded SAM从自然措辞描述中提取图像编辑区域的掩码,结合原始图像集演习foreground-aware NeRF。
在NeRF重修后,编辑概率用于区分要编辑的图像区域(即图像前景区域)和不干系的图像区域(即图像背景区域),以便于在图像编辑演习过程中进行解耦合的渲染。

其次,为了统一图像驱动和文本驱动的3D场景编辑任务,如图2(b)所示,该论文采取了Custom Diffusion的方法在图像驱动条件下针对参考图进行微调,以学习特定主体的关键特色。
经由演习后,分外词V∗可以作为常规的单词标记用于表达参考图像中的主体观点,从而形成一个稠浊提示,例如“a photo of a V∗ dog”。
通过这种办法,CustomNeRF能够对自适应类型的数据(包括图像或文本)进行同等且有效的编辑。

在终极的编辑阶段,由于NeRF的隐式表达,如果利用SDS丢失对全体3D区域进行优化会导致背景区域发生显著变革,而这些区域在编辑后理应与原始场景保持同等。
如图2(c)所示,该论文提出了局部-全局迭代编辑(LGIE)方案进行解耦合的SDS演习,使其能够在编辑布局区域的同时保留背景内容。

详细而言,该论文将NeRF的编辑演习过程进行了更风雅的划分。
借助foreground-aware NeRF,CustomNeRF可以在演习中灵巧地掌握NeRF的渲染过程,即在固定相机视角下,可以选择渲染前景、背景、以及包含前景和背景的常规图像。
在演习过程中,通过迭代渲染前景和背景,并结合相应的前景或背景提示,可以利用SDS丢失在不同层面编辑当前的NeRF场景。
个中,局部的前景演习使得在编辑过程中能够只关注需编辑的区域,简化繁芜场景中编辑任务的难度;而全局的演习将全体场景考虑在内,能够保持前景和背景的折衷性。
为了进一步保持非编辑区域不发生改变,该论文还利用编辑演习前的背景监督演习过程中所新渲染的背景,来保持背景像素的同等性。

此外,图像驱动3D场景编辑中存在着加剧的几何不一致问题。
由于经由参考图像微调过的扩散模型,在推理过程中方向于产生和参考图像视角附近的图像,造成编辑后3D场景的多个视角均是前视图的几何问题。
为此,该论文设计了一种类勾引的正则化策略,在全局提示中利用分外描述符V,在局部提示中仅利用类词,以利用预演习扩散模型中包含的类先验,利用更几何同等的办法将新观点注入场景中。

实验结果

如图3和图4展示了CustomNeRF与基线方法的3D场景重修结果比拟,在参考图像和文本驱动的3D场景编辑任务中,CustomNeRF均取得了不错的编辑结果,不仅与编辑提示达成了良好的对齐,且背景区域和原场景保持同等。
此外,表1、表2展示了CustomNeRF在图像、文本驱动下与基线方法的量化比较,结果显示在文本对齐指标、图像对齐指标和人类评估中,CustomNeRF均超越了基线方法。

图3 图像驱动编辑下与基线方法的可视化比较

图4 文本驱动编辑下与基线的可视化比较

表1 图像驱动编辑下与基线的定量比较

表2 文本驱动编辑下与基线的定量比较

总结

本论文创新性地提出了CustomNeRF模型,同时支持文本描述或参考图像的编辑提示,并办理了两个关键性寻衅——精确的仅前景编辑以及在利用单视图参考图像时多个视图的同等性。
该方案包括局部-全局迭代编辑(LGIE)演习方案,使得编辑操作能够在专注于前景的同时保持背景不变;以及类勾引正则化,减轻图像驱动编辑中的视图不一致,通过大量实验,也验证了CustomNeRF在各种真实场景中,能够准确编辑由文本描述和参考图像提示的3D场景。

研究团队

该研究成果由美图影像研究院(MT Lab)和中国科学院信息工程研究所、北京航空航天算夜学、中山大学的研究者们共同提出。

美图影像研究院(MT Lab)是美图公司致力于打算机视觉、机器学习、增强现实、云打算等领域的算法研究、工程开拓和产品化落地的团队,为美图秀秀、美颜相机、Wink、美图设计室、美图云修、WHEE等美图旗下全系软硬件产品供应技能支持,同时面向影像行业内多个垂直赛道供应针对性SaaS做事,通过前沿技能推动美图产品发展,曾先后荣获国家科学技能进步奖、教诲部技能发明奖,同时在CVPR、ICCV、ECCV等国际打算机视觉顶级赛事中斩获十余项冠亚军奖项,并在人工智能领域顶级会议与顶级期刊上累计揭橥49篇学术论文。

2023年,美图公司持续持续深入AI领域,研发投入6.4亿元,占总收入的23.6%,同年6月,正式推出美图奇想大模型(MiracleVision),依托强大技能能力,在不到半年韶光已经迭代至4.0版本。
未来,美图影像研究院(MT Lab)将加强AI能力储备,在技能端持续强化模型能力,助力构建AI原生事情流。

— 完 —

量子位 QbitAI · 头条号签

关注我们,第一韶光获知前沿科技动态