CVPR2024|仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

OpenCV学堂 2024-04-20 22:59

点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 机器之心 授权


美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了 3D 场景编辑方法 ——CustomNeRF,同时支持文本描述和参考图像作为 3D 场景的编辑提示,该研究成果已被 CVPR 2024 接收。


自 2020 年神经辐射场 (Neural Radiance Field, NeRF) 提出以来,将隐式表达推上了一个新的高度。作为当前最前沿的技术之一,NeRF 快速泛化应用在计算机视觉、计算机图形学、增强现实、虚拟现实等领域,并持续受到广泛关注。


有赖于易于优化和连续表示的特点,NeRF 在 3D 场景重建中有着大量应用,也带动了 3D 场景编辑领域的研究,如 3D 对象或场景的纹理重绘、风格化等。为了进一步提高 3D 场景编辑的灵活性,近期基于预训练扩散模型进行 3D 场景编辑的方法也正在被大量探索,但由于 NeRF 的隐式表征以及 3D 场景的几何特性,获得符合文本提示的编辑结果并非易事。


为了让文本驱动的 3D 场景编辑也能够实现精准控制,美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学,共同提出了一种将文本描述和参考图像统一为编辑提示的 CustomNeRF 框架,可以通过微调预训练的扩散模型将参考图像中包含的特定视觉主体 V∗嵌入到混合提示中,从而满足一般化和定制化的 3D 场景编辑要求。该研究成果目前已被 CVPR 2024 收录,代码已开源。



  • 论文链接:https://arxiv.org/abs/2312.01663

  • 代码链接:https://github.com/hrz2000/CustomNeRF


图 1:CustomNeRF 在文本驱动(左)和图像驱动(右)的编辑效果


CustomNeRF 解决的两大挑战


目前,基于预训练扩散模型进行 3D 场景编辑的主流方法主要分为两类。


其一,是使用图像编辑模型迭代地更新数据集中的图像,但是受限于图像编辑模型的能力,会在部分编辑情形下失效。其二,则是利用分数蒸馏采样(SDS)损失对场景进行编辑,但由于文本和场景之间的对齐问题,这类方法在真实场景中无法直接适配,会对非编辑区域造成不必要的修改,往往需要 mesh 或 voxel 等显式中间表达。


此外,当前的这两类方法主要集中在由文本驱动的 3D 场景编辑任务中,文本描述往往难以准确表达用户的编辑需求,无法将图像中的具体概念定制化到 3D 场景中,只能对原始 3D 场景进行一般化编辑,因此难以获得用户预期中的编辑结果。


事实上,获得预期编辑结果的关键在于精确识别图像前景区域,这样能够在保持图像背景的同时促进几何一致的图像前景编辑。


因此,为了实现仅对图像前景区域进行准确编辑,该论文提出了一种局部 - 全局迭代编辑(LGIE)的训练方案,在图像前景区域编辑和全图像编辑之间交替进行。该方案能够准确定位图像前景区域,并在保留图像背景的同时仅对图像前景进行操作。


此外,在由图像驱动的 3D 场景编辑中,存在因微调的扩散模型过拟合到参考图像视角,所造成的编辑结果几何不一致问题。对此,该论文设计了一种类引导的正则化,在局部编辑阶段仅使用类词来表示参考图像的主体,并利用预训练扩散模型中的一般类先验来促进几何一致的编辑。


CustomNeRF 的整体流程


如图 2 所示,CustomNeRF 通过 3 个步骤,来实现在文本提示或参考图像的指导下精确编辑重建 3D 场景这一目标。


图 2 CustomNeRF 的整体流程图


首先,在重建原始的 3D 场景时,CustomNeRF 引入了额外的 mask field 来估计除常规颜色和密度之外的编辑概率。如图 2(a) 所示,对于一组需要重建 3D 场景的图像,该论文先使用 Grouded SAM 从自然语言描述中提取图像编辑区域的掩码,结合原始图像集训练 foreground-aware NeRF。在 NeRF 重建后,编辑概率用于区分要编辑的图像区域(即图像前景区域)和不相关的图像区域(即图像背景区域),以便于在图像编辑训练过程中进行解耦合的渲染。


其次,为了统一图像驱动和文本驱动的 3D 场景编辑任务,如图 2(b)所示,该论文采用了 Custom Diffusion 的方法在图像驱动条件下针对参考图进行微调,以学习特定主体的关键特征。经过训练后,特殊词 V∗可以作为常规的单词标记用于表达参考图像中的主体概念,从而形成一个混合提示,例如 “a photo of a V∗ dog”。通过这种方式,CustomNeRF 能够对自适应类型的数据(包括图像或文本)进行一致且有效的编辑。


在最终的编辑阶段,由于 NeRF 的隐式表达,如果使用 SDS 损失对整个 3D 区域进行优化会导致背景区域发生显著变化,而这些区域在编辑后理应与原始场景保持一致。如图 2(c)所示,该论文提出了局部 - 全局迭代编辑(LGIE)方案进行解耦合的 SDS 训练,使其能够在编辑布局区域的同时保留背景内容。


具体而言,该论文将 NeRF 的编辑训练过程进行了更精细的划分。借助 foreground-aware NeRF,CustomNeRF 可以在训练中灵活地控制 NeRF 的渲染过程,即在固定相机视角下,可以选择渲染前景、背景、以及包含前景和背景的常规图像。在训练过程中,通过迭代渲染前景和背景,并结合相应的前景或背景提示,可以利用 SDS 损失在不同层面编辑当前的 NeRF 场景。其中,局部的前景训练使得在编辑过程中能够只关注需编辑的区域,简化复杂场景中编辑任务的难度;而全局的训练将整个场景考虑在内,能够保持前景和背景的协调性。为了进一步保持非编辑区域不发生改变,该论文还利用编辑训练前的背景监督训练过程中所新渲染的背景,来保持背景像素的一致性。


此外,图像驱动 3D 场景编辑中存在着加剧的几何不一致问题。因为经过参考图像微调过的扩散模型,在推理过程中倾向于产生和参考图像视角相近的图像,造成编辑后 3D 场景的多个视角均是前视图的几何问题。为此,该论文设计了一种类引导的正则化策略,在全局提示中使用特殊描述符 V*,在局部提示中仅使用类词,以利用预训练扩散模型中包含的类先验,使用更几何一致的方式将新概念注入场景中。


实验结果


如图 3 和图 4 展示了 CustomNeRF 与基线方法的 3D 场景重建结果对比,在参考图像和文本驱动的 3D 场景编辑任务中,CustomNeRF 均取得了不错的编辑结果,不仅与编辑提示达成了良好的对齐,且背景区域和原场景保持一致。此外,表 1、表 2 展示了 CustomNeRF 在图像、文本驱动下与基线方法的量化比较,结果显示在文本对齐指标、图像对齐指标和人类评估中,CustomNeRF 均超越了基线方法。


图 3 图像驱动编辑下与基线方法的可视化比较


图 4 文本驱动编辑下与基线的可视化比较


表 1 图像驱动编辑下与基线的定量比较


表 2 文本驱动编辑下与基线的定量比较


总结


本论文创新性地提出了 CustomNeRF 模型,同时支持文本描述或参考图像的编辑提示,并解决了两个关键性挑战 —— 精确的仅前景编辑以及在使用单视图参考图像时多个视图的一致性。该方案包括局部 - 全局迭代编辑(LGIE)训练方案,使得编辑操作能够在专注于前景的同时保持背景不变;以及类引导正则化,减轻图像驱动编辑中的视图不一致,通过大量实验,也验证了 CustomNeRF 在各种真实场景中,能够准确编辑由文本描述和参考图像提示的 3D 场景。


OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论 (0)
  • 目录  引言  SD卡的发展  SD NAND卡的特性与优势  二代SD NAND五大优点  SD NAND六大主要优势  现有产品分类  实际应用场景  SD NAND芯片推荐线路连接:  CSNP4GCR01-AMW的介绍  基础使用例程  例程环境简介  硬件设备及电路  项目创建流程  代码  例程结果  对比市场现有产品  创世半导体(CS)是全球首家推出SD NAND FLASH产品的厂商,SD NAND的出现大大降低了使用 NAND FLASH 的技术难度。  ——————————
    雷龙发展 2024-05-21 17:40 79浏览
  •     IEC 60747 标准是半导体器件的常用技术标准,规范了电气特性参数和测量方法。该标准包含以下分册,涉及分立器件、集成电路、传感器组件等,部分被等同采纳为GB/T标准。    /-1 通则    /-2 二极管                (GB/T 4023-2015)        整流二极管 
    电子知识打边炉 2024-05-21 10:44 96浏览
  •     阅读IEC标准,一个办法是看GB和GBT标准。电工学和电子学方面的国家标准(GB)很多来自IEC标准。将IEC标准完全汉化(IDT,EQU)或者略加修改(MOD),就成了 GB 或者 GB/T 标准了。由于这样的关联,导致“国家标准全文公开”这个工具没啥用,因为版权保护的缘故,看不到。    偶然发现下面这个网站,可以方便地查询IEC标准对应哪些GB标准。    国家标准 - 全国标准信息公共服务平台  &n
    电子知识打边炉 2024-05-21 22:10 76浏览
  • 在现代电子设备遍布的时代,电源模块的设计与应用成为了电子工程领域中的核心议题。而LDO(低压差线性稳压器)电源模块,因其出色的线性特性和稳定性,在众多应用中备受青睐。为了满足不断增长的电子设备性能需求,如何优化LDO电源模块PCB设计,实现更高的电源效率和稳定性,成为了工程师们迫切需要解决的问题。LDO在电源设计中扮演着至关重要的角色,能够在输入输出间维持较小的压差,使得线性电压调整更为高效。当输出电压在正常工作状态下下降至额定输出电压的98%时,对应的输入与输出电压差即为Drop电压。值得注意
    丙丁先生 2024-05-22 09:24 80浏览
  • 2020年9月,中国仪器仪表行业协会传感器分会、中国仪器仪表学会传感器分会、中国仪器仪表学会仪表元件分会、传感器国家工程研究中心四个中国传感器产业权威机构,联合发布了《中国传感器(技术、产业)发展蓝皮书》,堪称当时对中国传感器产业研究最权威的报告。报告中,特别提到当时中国传感产业的现状令人担忧,产业空心化现象不容忽视:“国内中高端传感器进口占比达 80%,传感器芯片进口更是达90%,国产化缺口巨大。其中数字化、智能化、微型化等高新技术产品严重短缺。国家重大装备所需高端产品主要依赖进口。”▲来源:
    传感器专家网 2024-05-22 10:16 96浏览
  • 展会时间:2024年6月12-14日展会地点:上海世博展览馆3号馆 H3-237 展位很高兴地告诉大家,Raspberry Pi 团队今年将首次参加在上海举办的 Embedded World上海国际嵌入式展。这是一个千载难逢的机会,让我们一起前往探索这个备受期待的技术盛会。​Raspberry Pi 作为当下最流行的微型计算机之一,将会在本次展会上大放异彩。大家可以看到 Raspberry Pi 的全系列产品,包括最新的单板计算机Raspberry Pi 5、Raspberry Pi Pico、
    树莓派开发者 2024-05-21 16:33 100浏览
  • 随着中国半导体及传感器产业的快速发展,以及中国经济的升级和转型,在过去10年,传感器及半导体产业,有大量的贸易型企业,向自主研发转型,通过拥有完全自主知识产权的传感器芯片等高附加值、高技术的产品研发,向产业链上游进军,书写中国智造传奇。围绕传感器及信号链,中国诞生了许多优秀的IC芯片设计企业。目前中国传感器芯片设计产业现状如何?国产传感器芯片企业面临哪些困境?在传感器IC上中国企业取得了哪些突破?国产传感器与国际大厂传感器差距在哪里?此前,在Sensor Shenzhen 2024上,记者采访了
    传感器专家网 2024-05-21 17:36 74浏览
  •     确定产品参数,或者器件选型,都会遇到数值序列。比如功率MOSFET的耐压,20V、30V、40V和60V,跳过了50V。做USB充电头,输出功率 5W、10W、2W、65W、140W。这样的例子很多。    ISO组织定义了R优选数系,这是一个范围1到10的几何级数数列。当供应链普遍采用R优选数系时,可以使技术和商业变得便捷和经济。R是为了纪念一位名叫 Charles Renard的法国上校,他用优先数把军用气球所需的425种直径的绳索,减少到17
    电子知识打边炉 2024-05-22 22:20 58浏览
  • 科技云报道原创。随着大模型从理论探索走向实际应用,大模型的落地正在考验千千万万的企业。首要且核心的关注点,无疑是从数据做起。数据,作为大模型的“燃料”,其质量、多样性与规模直接决定了大模型性能的天花板。因此,建立一套高效、可靠的数据处理流程,确保数据的质量与合规性,成为了大模型落地的基石。然而,构建大模型的数据能力并不容易。如何找到合适的存储来承载海量数据?如何清洗加工原始数据?如何有效地进行数据治理?如何将现有数据快速结合模型产生独特价值?种种问题横亘在企业和大模型之间,成为生成式AI时代的数
    科技云报到 2024-05-21 14:48 125浏览
  • 亲爱的媒体与自媒体创作者:英国树莓派(Raspberry Pi)公司即将于6月份首次登陆上海,参加Embedded World上海国际嵌入式展!这是我们首次踏足这一展会,我们非常期待与您共同见证这个历史时刻。作为树莓派公司在Embedded World上海的首秀,我们诚挚邀请您免费加入我们的团队,共同探索树莓派的魅力。您将有机会在展台上与我们进行深入交流,并可进行拍照、录制视频、直播活动等。此外,我们还将提供采访的机会,让您与树莓派公司的英国高管和技术专家进行深度对话(现场提供翻译人员),了解最
    树莓派开发者 2024-05-22 16:35 62浏览
  • 近日,飞凌嵌入式在FETMX6ULL-S核心板上率先适配了OpenHarmony 4.1,这也是业内的首个应用案例,嵌入式核心板与OpenHarmony操作系统的结合与应用,将进一步推动千行百业的数智化进程。飞凌嵌入式FETMX6ULL-S核心板基于NXP i.MX 6ULL处理器开发设计,搭配ARM Cortex-A7内核,主频800MHz,确保了卓越的运算性能,并且,先进的电源管理架构也可以带来更低的功耗控制。而刚刚推出的OpenHarmony 4.1系统,在应用开发方面展现了全新的开放能力
    飞凌嵌入式 2024-05-21 08:43 111浏览
  • BOR(Brown-out Reset)是一种低电压复位,当电源电压低于设定的阈值时,系统会自动复位。这种复位通常用于保护硬件设备,防止因电压过低导致的设备损坏。 IWDT_Reset(Independent Watchdog Timer Reset)是一种独立看门狗定时器复位,当系统运行过程中出现故障或死循环时,看门狗定时器会在一定时间后自动复位系统。这种复位通常用于检测和修复软件故障。以下是一个简单的BOR和IWDT_Reset的代码示例: ```c #include "stm32f4x
    丙丁先生 2024-05-22 12:39 60浏览
  • 本文来自慧博咨询,文中引用资料来自多份最新研报等材料,因此数据较新,且梳理了多条MEMS产线、多家MEMS企业最新状况信息,能全面向我们展示当前的中国及全球MEMS市场环境。MEMS,即微机电系统,是在微电子技术(半导体制造技术)基础上发展起来的,融合了光刻、腐蚀、薄膜、LIGA、硅微加工、非硅微加工和精密机械加工等技术制作的高科技电子机械器件。MEMS 应用范围广阔,消费电子、 汽车、工业是MEMS 行业最大的三个细分市场,市场规模较为可观。围绕MEMS,下面我们从其基本概念入手,了解其特点、
    传感器专家网 2024-05-20 21:16 133浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦