论文题目
NTIRE 2024 Challenge on Night Photography Rendering
择要
本文先容了对夜间拍照渲染的NTIRE 2024寻衅的回顾。寻衅的目标是找到处理夜间条件下拍摄的原始相机图像的办理方案,从而在标准RGB (sRGB)空间中产生照片质量的输出图像。与去年的比赛不同,这次寻衅赛的图像是用手机网络的,算法的速率也与输出的质量一起被衡量。为了评估结果,考虑到任务的主不雅观性子,哀求足足数目标不雅观众评估提出的办理方案的视觉质量。有两项提名:质量和效率。根据评估韶光对输出质量排名前5的方案进行排序(见图1)。排名靠前的参与者的方案有效地代表了夜间拍照渲染的最前辈水平。
1. 先容
相机内处理被广泛用于将直接从传感器得到的原始图像处理成以标准色彩空间(如sRGB)编码的照片。这种处理的紧张目的是产生视觉上令人愉悦的图像,同时真实地代表捕获的场景。然而,夜间拍照呈现出在白天拍照中常日不会碰着的独特寻衅。例如,对付白天的图像,常日可以假设一个单一的光源,但在夜间场景中,常日存在多个光源,这些光源可能会有很大的不同。这使得在场景致彩校正过程中很难确定该当紧张考虑哪些光源。此外,由于光照条件的差异,用于白天图像的常见照片整理策略可能不适用于夜间图像。
此外,常用的图像指标(如SSIM[39]、LPIPS[44]或MetaQA[46])不能恰当地评估夜间图像的质量。此外,缺少专门针对夜间拍照图像处理的已揭橥研究,导致较少建立“最佳实践”,考虑到这统统,本次寻衅的紧张目标是,与之前的寻衅类似,进一步鼓励对夜间拍照图像处理技能的研究。以下部分供应了对全体寻衅的详细描述以及参赛团队提出的办理方案:第2部分列出了寻衅的设置,第3部分描述了得到的结果,第4部分先容了对得到的结果的谈论,第5部分列出了团队及其成员和所属机构。
2. 寻衅
在寻衅中,参赛团队被哀求开拓能够产生视觉上吸引人的夜间图像的自动化办理方案。这次寻衅与之前的寻衅有所不同,由于它采取了手机拍摄的原始图像。这种转变是由于对处理此类图像的普遍需求以及与先前寻衅中利用的传统相机图像比较,它们具有的独特特色所推动的。
除了前面提到的寻衅外,参赛者还面临着以下寻衅:
1.噪音水平高。手机相机的像素比高质量的数码单反相机小100倍。
2. 渐晕和彩色渐晕。当代移动镜头系统不仅存在传统的渐晕问题,而且从中央到外围都有明显的颜色退化。
3. 打算资源限定。由于手机上的打算资源有限,引入了一个额外的排名标准。
通过查看图2,可以更好地理解第一个和第二个寻衅的影响,个中基线管道已用于图像渲染,并且没有考虑到上述问题。
对付第三个寻衅,终极排名特殊优先考虑了常规排名中表现最好的办理方案的实行韶光,常规排名传统上完备基于均匀质量,由均匀见地得分决定。
参赛团队的目标是提交利用各自团队的办理方案得到的相应渲染的sRGB图像。考虑到这项任务的主不雅观性子,提交的作品是用不雅观察者分配的均匀见地分数来评估的,这些不雅观察者看到了同一场景的两对不同的渲染图,然后他们必须选择他们认为在视觉上更吸引人的渲染图。
2.1. 寻衅数据
夜间室外和低光室内场景的原始图像采取华为Mate 40 Pro拍摄,编码为16位PNG文件,附加元数据以JSON文件供应。这项寻衅从最初供应给参与者的200张图像开始,用于算法开拓和测试。在寻衅期间供应了三个验证数据集,每个数据集包含125张图像。此外,还为被试供应了标定的白色弱光场景。供应了一个基线代码来仿照基本的相机内渲染作为出发点。
大多数图像都是在城市地区拍摄的,这一种别可以分为开放和封闭空间的图像。也有室内图像。这些都可以被指定为第1、2和3类。第一个验证数据集包含更多开放空间的图像,这些种别之间的图像比例为100/25/0。第二个验证数据集已经包含了室内图像,比例为108/6/11。第三个数据集有更多的室内图像,比例为89/3/33。
终极的数据集集中在第一类图像上,它在数据中占主导地位,但它也包括其他种别。个中类别的比例是39/7/4。数据集已公开
2.2. 评价
在比赛期间,评估包括三个验证检讨点和终极评估,以确定得胜者。利用Y index Tasks(类似于Mechanical Turk的做事)得到均匀见地分数,用于检讨点和终极评估。Yindex Tasks的用户通过一个问题对他们喜好的办理方案进行了逼迫选择:“哪张图片更令人愉快?”答案选项是:“左”、“右”或“他们是一样的”。为了确保基本的质量掌握,所有在同一组图片中选择“左”或“右”的索引任务用户都将被禁止,而他们之前的所有答案都将被谢绝。值得把稳的是,在我们的设置中,索引任务紧张依赖于来自东欧的用户来实行图像排名。因此,在用户偏好的图像美学方面可能存在文化偏见。所有的办理方案已匿名,以担保公道的结果。
正如最近所显示的[18],Yindex Tasks平台产生了稳定且可重复的结果。此外,我们只选择了10%的最佳选民,并进行了投票过滤,以打消任何敲诈情形。
为了衡量速率,所有提交的办理方案都在同一台打算机上实行,技能规格如下:
•CPU: Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz
•RAM: 16.0 GB
•GPU: MSI GeForce RTX 2060 12Gb
仅丈量实际图像处理韶光,不包括图像加载和保存。
在每个验证检讨点期间,供应125个新的测试映像,并且每个参与的团队许可提交最多两个不同的办理方案图像集,每个包含125个图像。有三个验证集的目的是许可参与者测试不同办理方案的行为,并吸收关于其办理方案质量的反馈。
对付终极提交,只许可一个办理方案,并利用50个隐蔽测试图像进行终极验证。利用参与者通过Docker供应的代码天生用户研究图像。只接管开放和可重复的结果。根据Yindex Tasks排名前5的办理方案进一步按性能速率排序。
在人们自我评估的背景下,MIALGO和DH-AISP团队的算法被证明是最好的。第二种办理方案的缺陷是深色图像的过度照明,以及非常长的处理韶光,即比第一种算法长11倍。图3给出了终极解图像的示例。
3. 结果
本节先容利用Yindex Tasks做事和性能评估得到的排名结果。
3.1. 人们的选择和谈论
表1供应了Yindex Tasks用户对不同团队的终极提交(质量寻衅)报告的均匀见地排名。表2供应了效率寻衅的排名。表2由表1组成,按速率性能对前5个办理方案进行排序。
今年的竞争对手提出了各种各样的办理方案,产生了视觉上吸引人的图像。
3.2. 团队方案
此部分包含参与者提交的办理方案的简要描述。
3.2.1基线
在今年的寻衅中,有两种基线方法可供参与者利用:大略的经典ISP和手动图像增强。大略的经典管道包括利用线性插值的消噪,利用灰色天下方法的白平衡[9],CST的全体演习数据集矩阵的均匀值,以及从XYZ到sRGB的标准转换。这个管道也为参与者供应了一个基线。
为了手动增强图像,我们利用了Adobe Camera RAW运用程序,并约请了非专业拍照师参与。每张图像分别在3到5分钟的短韶光内进行校正。校正包括调节温度使图像冷却,添加紫色调,通过曝光调节增加亮度,增强比拟度,减少高光,使阴影变亮,减少白色。末了,利用内置的降噪和调色器来校正赤色、橙色和黄色(有时还有蓝色和紫色)的色调和强度。
3.2.2 MiAlgo
我们基于Deep-FlexISP进行了改进[26],整体流水线如图4所示。
首先,我们对输入图像进行预处理,包括将原始图像压缩到4个通道,对图像进行降采样(到768 × 1024),校正黑电平(根据噪声轮廓调度值),归一化(到0-1),校正镜头阴影(根据供应的校准图像和噪声轮廓调度阴影掩模)。值得把稳的是,我们在开始时将图像降采样到所需的大小,这确保了我们的全体处理速率尽可能快。
接下来,我们利用预演习的Unet[26,33]进行原始域去噪,并利用预演习的FC4[20]和元信息(作为镜头中性)进行白平衡参数估计。然后我们通过色彩空间变换(固定矩阵)、XYZ到sRGB变换(固定矩阵)、镜头阴影固定(增加暗场景的阴影并降落饱和度)、色调映射(固定曲线)、伽马校正(固定参数)、比拟度增强、再次伽马校正(固定参数)、再次白平衡校正(灰度指数[31])和方向固定将原始图像转换为RGB图像。
我们利用神经网络对RGB图像进行细化。模型构造基于MWRCAN[21]。演习数据的真实值是利用Photoshop天生的。然后对图像进行后期处理,降落绿色和紫色区域(夜间不常见和怪异的颜色)的饱和度,增加全体图像的自然饱和度。末了,我们演习分割模型[15,36]对天空区域进行分割,降落色温,使天空更加蓝冷。
3.2.3 SCBC
SCBC团队提出了一个多级ISP流水线,如图5所示,包括预处理、Raw Image去噪和图像细化与色彩校正。对付原始图像去噪,利用预演习模型[2]。在得到初始图像后,采取多照度色常数法对图像进行处理,办理人工光源引入的繁芜白平衡问题。该模型在多照度条件下的RGB图像上进行演习[23]。结果进一步进行人工调度,并作为目标图像进行细化网络演习。
3.2.4 IVLTeam
IVLTeam提出的办理方案如图6所示。它依赖于传统的图像处理技能,由五个阶段组成。它基于先前的事情[47,48],个中几个处理步骤的参数适应寻衅图像和哀求。
第一阶段在RAW域事情,包括五个步骤:黑白级图像归一化,原始去马赛克,图像大小调度到目标分辨率,利用元数据中供应的光源进行白平衡,以及从相机传感器色彩空间转换到sRGB色彩空间。
第二阶段包括利用非局部均值算法进行去噪操作[8]。去噪的强度与利用[16]方法在图像中估计的噪声标准差成正比。在保留图像细节和边缘的同时,对颜色通道施加比亮度通道更强的去噪,有效地去除颜色噪声。
第三阶段是一系列通过操纵直方图分布来增强图像比拟度的算法。首先,采取[30]中的局部比拟度校正(Local Contrast Correction, LCC)算法。由于这个过程每每会降落整体比拟度和饱和度,下一步包括利用[34]中提出的方法增强比拟度和饱和度。然后,运用三个步骤来改进图像的颜色外不雅观。第一种方法通过将像素值在其均匀值周围拉伸一个β因子来调度比拟度。二是运用[22]中定义的s曲线,曲线中央设为零,将函数转化为类伽玛运算。第三种是直方图拉伸操作,增加了动态范围,提高了整体比拟度。在这些操作之后,一个额外的条件比拟度校正操作,包括一个额外的s曲线或伽马校正,根据直方图的均匀值运用。这样可以提高非常暗的图像的可见度,并在处理过的图像太亮时规复夜间场景。
第四和第五阶段分别实行锐化和白平衡。非锐化掩蔽用于增强图像细节,这些细节可能在第二阶段的去噪操作中被压平。利用灰度指数(GI)算法进行白平衡[31],以进一步减少色偏。由于GI对噪声很敏感,因此在图像的模糊版本上估计光源,然后将其运用于清晰版本。
3.2.5 DH-AISP
我们的紧张目标是开拓一种技能,用于创建逼真且视觉上令人愉悦的夜景照片。考虑到数据质量和模态,我们在图7中勾勒出网络构造。它包含三个部分,分别是数据预处理模块、RAW转RGB模块和HDR模块,下面将对这三个部分进行阐述。
数据预处理。该模块包含四个步骤:黑白平衡校正、自动白平衡、自适应增益调度和分频。自适应增益调节模块通过打算原始数据的均匀值,天生一组曝光不敷、正常曝光和过度曝光的图像。分帧是一种捐躯分辨率以得到更高信噪比的方法。通过这些模块,我们可以得到一个精确的原始数据,这是达到正常和更好的结果的必要步骤。
从rw到RGB。我们演习了一个U-Net[33]构造来得到不同曝光增益下的图像。
HDR。夜间图像常日有多个光源,内容物的光分布随位置的不同而变革。因此,在现有方法中学习统一的光分布会产生意想不到的结果。因此,我们提出了一个可控的参数来调度raw2rgb模块的输出,从而使我们能够产生不同光分布的曝光不敷和曝光过度的候选者。然后,基于U-Net的曝光领悟模型自适应学习领悟权值,天生整体亮度满意的图像。末了,引入CCM算法,进一步优化终极输出的颜色分布。
3.2.6 IIR-Lab
我们的紧张目标是开拓一种技能,用于创建逼真且视觉上令人愉悦的夜景照片。考虑到数据质量和需求,我们构建了一个新的ISP管道,如图8所示。它包含三个部分,分别是RAW去噪模块、RAW转RGB模块和色彩增强模块,下面将详细阐述。
RA W去噪。为了捕捉更多的细节和更好的视觉效果,传感器常日利用更高的增益,但大略的增益倍增会导致噪声退化。为理解决这个问题,我们首先处理拜耳域去噪模块,该模块利用了NAF[12]。
从rw到RGB。由于供应的json文件包含诸如AWB和CCM之类的信息,因此我们的这部分实现是利用传统方法完成的。
色彩增强。夜间图像每每具有繁芜的噪声和多个光源,并且内容物的光分布随位置的不同而不同。因此,我们网络了一组包含不同光源的夜间图像,并利用PS工具渲染相应的真值。
我们提出了一个基于unet的渲染网络,可以在大多数设备上实现实时渲染。终极结果表明,我们的渲染网络取代了传统的局部和全局色调映射、颜色增强和锐化模块。
3.2.7 PolyuColor
由于其低信噪比(SNR)和繁芜的照明条件,夜间成像具有寻衅性。然而,影响图像质量的三个关键成分包括去噪、色彩校正和比拟度/细节增强。在我们的方法中,利用基于dnn的方法进行去噪,其他任务利用传统的ISP算法,如图9所示。我们的目标是保持卓越的图像质量,同时只管即便减少打算资源花费。
去噪。对付RAW图像,我们最初运用黑/白电平(BLC)归一化和镜头阴影校正(LSC),如基线所述[17]。随后,采取基于unet的框架[11]开拓SID数据集演习模型[11],以长曝光图像作为真值,辅以合成噪声模型进行综合演习。
色彩校正。我们遵照基线用于去马赛克和颜色校正矩阵(CCM)的方法。对付自动白平衡(AWB),我们的方法采取了基于校准的灰天下方法[9]。我们通过手动校准一组白点并将其聚类以近似于普朗克轨迹上的源,定义圆内的干系色温范围,类似于[41,42]中的方法。将图像分割成多个小块,采取灰色天下假设导出每个小块的白点。末了的白点是基于每个patch的白点到相应的簇中央的间隔的加权均匀。
比拟增强/细节。在得到sRGB图像后,我们利用Ashikhmin的方法[4]进行局部色调映射(LTM)。采取不同于原方法的缩放操作,通过对三个通道施加不等增益来增强饱和度。末了运用自适应分段伽马调度进一步增强全局比拟度。
3.2.8 OzU-VGL
在我们的图像旗子暗记处理器(ISP)管道中,我们紧张专注于再现前一年的得胜者办理方案[47],并通过包括当前最前辈的色调映射算子(即Flash和Storm[6])的改进版本来改进它,个中图像统计动态调度其比例参数。此外,我们运用了大略的技巧来避免在终极输出中通亮区域的色偏和阴郁区域的噪声。图10展示了针对这一寻衅提出的ISP管道。
raW处理。RAW输入图像以PNG格式作为数据,我们首先利用元数据中的值对输入进行黑级校正。我们在管道中利用了定向滤波算法[29],也称为Menon,用于对RAW输入进行去马赛克,为默认的CFA插值供应了更繁芜的替代方案。在低灰度均值的图像中,去除颜色通道上的噪声对付避免在通亮区域涌现不肯望涌现的偏色是至关主要的,因此我们对YCbCr颜色空间中的颜色通道运用了大略的高斯去噪。然后,我们将基于随机子采样的White Patch算法[5]集成到我们的流水线中,以减轻灰度天下算法引起的偏黄效果,特殊是在灰度均匀值较低的图像中。我们为光源估计矩阵的第一和第三对角线值实现了阈值,以避免在随机性引起的通亮区域涌现偏绿。值得把稳的是,由于随机性,可能很难再现连续运行的精确输出。我们已经提交了在终极测试期间终极运行创造的照度估计矩阵,以确保再现性。接下来的过程包括将图像从原始rgb转换为sRGB。这是通过最初将rawRGB转换为XYZ颜色空间,然后利用华为Mate 40 Pro定制的指定颜色矩阵将XYZ转换为sRGB来实现的。在这一点上,我们指出一些图像在暗区产生类似盐纸的噪声,在终极输出中被任何色调映射算子显著放大。
HDR转换。为了去除这一噪声成分,我们在进行HDR变换之前,对YCbCr色彩空间中的亮度通道进行了全变差去噪[19]。除[47]外,我们避免利用局部或条件比拟度校正运算符。相反,我们引入了一种名为Nite的新的色调映射技能,专门用于增强Storm在低光条件下的性能。该算子利用图像统计对Naka-Rushton方程中的缩放参数α进行自适应调度。
比拟校正。为了调度图像的整体颜色外不雅观,我们采取了三种操作:(1)全局均匀比拟度操作通过缩放RGB通道的值来增强图像比拟度。(2) s曲线校正对每个RGB通道运用[22]中提出的s曲线。(3)直方图拉伸操为难刁难图像直方图进行拉伸,从而增大动态范围,增强整体比拟度。
后处理。影象色彩增强算法[7]用于平衡比拟度校正后图像中天空、草地等特定色调的颜色。随后,运用非锐度掩模增强边缘锐度,然后基于元数据对图像方向进行对齐。末了,将结果调度为指定的尺寸(即1024 × 768),并保存为JPG格式,以天生终极的sRGB输出。
4. 谈论
今年比赛的一个显著趋势是,前五名办理方案中有三个是对前几年办理方案的改进,包括得胜的办理方案。这突出了迭代改进的代价,并强调了在这个具有寻衅性的领域中的持续发展。
主要的是,今年的效率制胜办理方案不仅在速率上超过了前五名,而且在总体上也是最快的。在图像质量方面,它排名第二,略微掉队于排名第一的竞争者,这代表了在生产中利用的空想质量组合。
此外,有趣的是,两种采取深度学习技能的办理方案在打算效率上超过了传统方法。这可能意味着在移动电话的图像处理管道中利用这种深度学习模型的准备转变。