论文题目

Real-Time 4K Super-Resolution of Compressed A VIF Images.

AIS 2024 Challenge Survey

择要

AIS2024寻衅赛筹划汇总压缩AVIF图像实时4K超分辨率CVPRW2024

本文先容了一种新的高效图像升级基准,作为AIS 2024实时图像超分辨率(RTSR)寻衅的一部分,该寻衅旨在在商用gpu上实时将压缩图像从540p提升到原生4K分辨率(4倍)。
为此,利用了一个多样化的测试集,个中包含从数字艺术到游戏和拍照的各种4K图像,图像利用当代的VIF编解码器进行压缩,而不是JPEG。
与Lanczos插值比较,所有方法都提高了PSNR的保真度,并且可以处理30ms以内的图像。
在160个参与者中,有25个团队提交了他们的代码,该调查只考虑最新颖的办理方案模型,使其成为利用当代编解码器的压缩图像实时SR的最全面基准。

1. 先容

单幅图像超分辨率(SR)方法从单幅降级的低分辨率(LR)图像天生高分辨率(HR)图像。
该不适定问题最初采取插值方法求解。
然而,现在常日通过利用深度学习来靠近SR[6,30,45]。
图像SR假设LR图像是通过退化过程得到的。
这可以表示为:

个中表示LR图像与模糊核之间的卷积运算,↓s表示具有各自的下采样因子×s(例如×2, ×3, ×4, ×8)的下采样运算。

最近硬件技能的进步使得越来越大和繁芜的神经网络的发展致力于图像超分辨率,这显著提高了性能。
只管取得了这些进展,但方法的繁芜性也常常增加[11,30,45]。
在Shi等人[37]的根本性事情之后,优化深度神经网络以实现单幅图像的超分辨率已经变得至关主要[21,26,39,44,52]。
这一焦点引发了许多研讨会和寻衅的创建,例如[23,29,49],作为互换思想和推动高效和实时超分辨率(SR)边界的平台。
大规模数据集的可用性对付图像和视频SR的进展也至关主要[1,41]。

2. AIS 2024实时图像SR寻衅赛

结合2024 AIS:视觉,图形和AI流媒体研讨会,先容了一个新的实时4K超分辨率寻衅。

该寻衅旨在利用符合以下哀求的神经网络将压缩LR图像从540p提升到4K分辨率:(i)提高Lanczos插值的性能。
(ii)在33ms以下对图像进行超分。
此外,利用不同的压缩因子(QP值)压缩图像,利用当代的VIF编解码器而不是JPEG。
该寻衅赛旨在为压缩图像的实时超分辨率确定创新和前辈的办理方案。

2.1. 动机

AV1图像文件格式(VIF)是基于开放媒体同盟(AOM) AV1视频编码标准开拓的最新免版税图像编码格式。
A V1F编码图像的压缩效率和质量明显优于JPEG和HEIC, HEIC利用HEVC进行图像编码。
所有紧张的web浏览器也支持VIF。
在AIS 2024实时图像SR寻衅赛中,希望利用VIF作为图像编码格式来评估SR与VIF结合时的质量改进。

2.2. 4K SR基准数据集

4K RTSR基准测试供应了一个独特的测试集,包括来自各种来源的超高分辨率图像,将其与传统的超分辨率基准测试区分开来。
详细来说,除了逼真的图像外,该基准还办理了对打算机天生内容(例如游戏和渲染内容)的上采样需求日益增长的问题,从而对现有的SR方法提出了不同的寻衅。

测试集包括渲染游戏内容、数字艺术、高分辨率逼真的动物、城市场景、风景等多种内容,共110个测试样本。
基准测试集中的所有图像都至少是4K分辨率,即3840 × 2160(有些更大,乃至8K)。

4K RTSR基准测试集的分布是:利用60MP数码单反相机捕获的14张真实天下图像,利用虚幻引擎渲染的21张图像[20],75张不同的图像,如动物、绘画、数字艺术、自然、建筑等。

压缩和下采样 利用ffmpeg天生LR压缩图像。
利用5个不同的QP值:31、39、47、55、63。
利用lanczos插值对图像进行下采样。
下面供应一个例子:

在AVIF和V1编解码器的高下文中,更大的量化参数(QP)值意味着更多的压缩。
实质上,QP值决定了运用于视频或图像数据的量化水平,个中较高的量化减少了表示原始输入所需的数据量,从而导致更高的压缩比。
参与者可以利用任何公开可用的数据集,并天生相应的LR图像。

2.3. 评估

基线模型和评估脚本通过GitHub (https: //github.com/eduardzamfir/NTIRE23-RTSR)供应给参与者。
这许可参与者在他们的系统上对他们的模型的性能进行基准测试。
在末了的测试阶段,参与团队供应了110个测试图像对应的代码、模型和结果。
他们无法打仗到人力资源部门的真实情形。
然后组织者验证并实行提交的代码以得到终极结果,这些结果随后在寻衅完成时传达给参与者。

2.4. 架构和紧张思想

在这里,总结了最具竞争力的办理方案背后的核心理念。
请把稳,大多数想法都遵照[10]。

•重参数化 可以利用繁芜的块来演习网络[13],同时许可在推理期间将这些“RepBlocks”简化为标准的3×3卷积。
该技能已成为高效SR的核心技能[10,28]。

•Pixel shuffle and unshuffle。
这些技能也被称为深度到空间、空间到深度和亚像素卷积[37]。
这些被用来有效地在特色映射上运用空间上采样和下采样。

•多阶段演习:考虑到神经网络的显著局限性和浅层构造,这种方法通过依次改变学习率和丢失函数来增强学习。

•知识蒸馏许可将知识从繁芜的神经网络转移到更有效的神经网络。

2.5. 结果与结论

在表1中,供应了寻衅基准。
该模型可以对压缩后的540p图像进行上采样,并根据在Luma (Y)上打算的指标规复核心构造信息。
也可以看到在高QP(压缩)值下的显著性能衰减。
在第3节中,供应了顶级办理方案的描述。
考虑到最佳方法,可以得出模型设计具有一定的收敛性。
如前所述,重新参数化是普遍存在的。
直接提取高频的边缘滤波器可以降落神经网络的稀疏性,有效地利用所有的核(参数)。
对输入图像进行上采样,并通过全局残差算法增强图像

3. 方法和团队

在接下来的章节中,将描述最佳寻衅办理方案,方法描述是由每个团队供应的,作为他们对该综述的贡献。

3.1. 大略的基线

该团队提出了RepTCN,这是一个仅包含三个卷积层的网络,在保持卓越效率的同时,实现了比Lanczos插值更优胜的性能。
为了进一步提高效率,我们引入了重新参数化技能,在演习阶段用RepBlock[12]更换中间的卷积层。
此外,我们设计了一个三阶段的演习策略,以充分利用模型的潜力。

图2解释了我们建议的RepTCN。
它由三个卷积层组成,每个层都没有偏置,在每两个卷积层之间运用ReLU激活函数。
在演习阶段,我们将中间卷积更换为RepBlock[10]。
在推理过程中,我们将RepBlock重新参数化为一个卷积层。

我们的演习框架利用Pytorch在RTX3090上进行培训。
我们网络了来自DIV2K的前600张图像,来自Flicker2K的前600张图像,以及来自GTA V的前800张图像。
随后,我们将这些图像裁剪为512 × 512,形成我们的数据集。

在演习阶段,来自数据集的输入将被随机裁剪成小块,这些小块将经历随机的水平翻转和旋转。
模型演习可分为三个阶段。
在第一阶段,我们将批大小设置为32,将补丁大小设置为32。
用L1丢失作为目标丢失函数。
我们用RepBlock[10]更换了中间的卷积层,并利用Adam优化器演习了1000k次迭代,通过余弦调度程序,学习率从1 × 10−3降落到1 × 10−7。
在第二阶段,我们设置批处理大小为16,补丁大小为128。
MSE丢失作为目标丢失函数。
我们将RepBlock重新参数化为一个卷积层,并利用Adam演习了500k次迭代,通过余弦调度程序,学习率从5×10−4降落到5×10−7。
在第三阶段,我们从每个卷积层去除偏置,并利用Adam进行2000k次迭代演习,通过余弦调度程序将学习率从5 × 10−4降落到5 × 10−7。
其他设置与上一步相同。

该团队提出通过重新参数构建轻量级且极低耗时的网络。
基于ECB模块[48],我们为比赛设计了一个轻量级、低耗时的网络。
网络设计点如下:首先利用步长为2的卷积进行2倍的下采样。
下采样毁坏了压缩,也提高了网络推理速率。
然后堆叠两个ECB模块和一个8倍上采样像素洗牌模块以返回三通道图像-拜会图3。

考虑到输入540p和x4 SR,该模型具有1.8798 kmac和1.0367 ms的运行韶光。
采取随机QP的FFmpeg对演习数据进行降级。
输入图像大小为120x120x3,批处理大小为96。
我们利用Adam优化器,初始学习率设置为0.001。
演习分为两个阶段:第一阶段,学习率为0.001,丢失为L1。
这个阶段演习了60k次迭代。
其次,只打算PSNR Loss,并将初始学习率设置为0.0002,并通过20k次迭代减半。

3.2. lanczos++:一个超轻量级的图像超分辨率网络

该团队提出了一个名为lanczos++的超轻量级图像超分辨率网络。
所提出的网络的亮点(见图4)如下:首先,我们利用PiexlShuffle对输入LR图像实行3倍的下采样,同时增加通道维度。
这种设计显著提高了网络的推理效率,同时基本不丢失模型的表示能力。
其次,我们设计了一种新型的重参数化模块RepBlock(见图4)。

在演习阶段,我们首先利用1x1卷积将输入通道增加到4倍,然后利用3x3卷积进行特色提取,末了利用1x1卷积将维度转换为输出通道维度,并将其作为残差与通过1x1卷积将输入通道转换为输出通道的分支。
在模型推理阶段,我们将重新参数化模块合并到标准的3x3卷积中。
重新参数化可以提高模型的保真度,同时保持模型的推理效率不变。
第三,我们去除卷积层的偏置,在重构层卷积部分利用1x1卷积代替3x3卷积,这样可以显著减少模型的运行韶光。
末了,我们利用Pixelshuffle进行12倍上采样。

我们利用来自DIV2K, Flickr2K和GTA V数据集的4450张图像进行演习。
为了天生LR数据,图像被4倍下采样,并利用QP为31/39/47/55/63(5个压缩级别)的AVIF压缩样本。
我们实现了一个三阶段的演习流水线:演习一个基本模型,去除卷积层的偏差,末了微调切换丢失函数。
在第一阶段,我们进行NAS架构搜索以找到最优的网络参数配置。
对付前两个阶段,我们利用L1丢失函数进行演习,对付末了一个阶段,我们利用L2丢失函数。

我们利用Adam优化器,设置β1 = 0.9, β2 = 0.999。
在演习的前两个阶段,我们以5e-4的学习率开始。
末了一个阶段,他们从2004年开始。
我们对所有阶段利用衰减学习率调度器,个中前500个epoch预热,然落后修率线性衰减直到1e-8。
利用V100 (32Gb) GPU的演习过程的总持续韶光约为50小时。

3.3. 一种基于卷积的高效快速超分辨网络

SAFMN++:改进的实时压缩图像超分辨率特色调制网络我们先容了SAFMN的增强版本[36],用于办理实时压缩图像sr问题。
该办理方案紧张集中在提高空间自适应特色调制(SAFM)[36]层的有效性。

与原始SAFM不同的是,如图7所示,改进的SAFM (safm++)能够同时提取局部和非局部特色。
在safm++中,首先利用3×3卷积提取局部特色,然后对提取的部分特色进行单尺度特色调制,进行非局部特色交互。
在此过程之后,将这两组特色通过通道拼接进行聚合,并送入1×1卷积进行特色领悟。

本文提出的safmn++是通过利用Adam优化器最小化基于不愿定性的MSE丢失[14,16]和基于fft的L1丢失[5]的组合来演习的,统共进行了500,000次迭代。
我们在DIV2K[1]数据集上演习提出的safmn++。
裁剪后的LR图像大小为640×640,小批量大小设置为64。
我们设置初始的学习值为1 × 10−7,由余弦退火方案更新[28]。
表3给出了safmn++的效率研究。

基于构造重参数化的大略残差卷积神经网络实时超分辨率办理方案vppeg - r如图5所示。
该方法通过Pixel Unshuffle操作降落空间分辨率,并利用卷积层将输入LR图像转换为特色空间,然后利用3个可重新参数化的残差块(RepRBs)进行特色提取,末了通过PixelShuffle[33]卷积重修终极输出。
我们利用DIV2K[1]作为演习数据。
为了在演习过程中加快IO速率,我们将2K分辨率的HR图像裁剪为640×640子图像,并且将mini-batch大小设置为64。
我们利用PyTorch和NVIDIA GeForce RTX 3090 GPU。
safmn++的演习过程大约须要44个小时,vppeg - r的演习过程须要两天。

3.4. CASR:基于通道对齐方法的高效级联网络构造用于4K实时单图像超分辨率

我们首先回顾了发展网络构造的关键成分。
随后,我们提出了一种具有通道对齐方法的级联上采样网络构造用于图像增强,该构造提高了性能并显著减少了处理韶光。
末了,我们设计了一个有效的网络,并集成了重参数化块和知识蒸馏方法,在不增加模型大小的情形下提高了性能[44]。

我们将我们提出的方法与LRSRN[15]进行了比较,LRSRN在表4中提出了针对NTIRE 2023实时超分辨率寻衅[9]的事情。
得分值根据[9]的脚本打算。
我们提出的方法超越了之前的方法,在RTX3090上实现了0.5678 ms的推理韶光。

我们利用了两种不同类型的数据集:DIV2K和组合数据集。

•DIV2K:有名的开放数据集。
DIV2K演习数据集用于scratch演习步骤。

•组合:在初始演习阶段利用DIV2K演习数据集。
相反,复合数据集用于随后的第二阶段。

这个组合数据集包括完全的DIV2K演习集(800张图像)、来自Flickr演习集的最初1000张图像、来自GTA演习序列00到19的121个样本、来自LSDIR数据集的前1000张图像。
为了天生低分辨率的图像,我们利用不同的avf压缩来降落随机裁剪的图像压缩因子。
对付这两个演习阶段,我们利用了随机裁剪、旋转90度、水平翻转和垂直翻转增强。

我们分三个步骤演习我们的模型:(1)Scratch train步骤:第一步,我们的模型是从头开始演习的。
LR补丁从8个98 x 98尺寸的迷你批量LR图像中裁剪而成。
利用Adam优化器,学习率为0.0005。
总epoch设为800。
我们用l1丢失。

(ii)第二步:第二步,用第一步演习的权值初始化模型。
这一阶段利用的蒸馏方法。
利用组合数据集对西席模型进行演习。
详细示例如图8b所示。
丢失为l2的微调可使PSNR提高0.01 ~ 0.02 dB。
此外,我们在此阶段关闭了重参数化块的偏置项。
在这一步中,初始学习率设置为0.00005,Adam优化器与余弦热身一起利用。
总epoch设为800

(iii)第三步:第三阶段,利用前一步演习的权值初始化模型。
此外,该相还采取了蒸馏技能。
演习超参数与第二步保持同等。
此时,再参数化块的偏置项被停用,导致推理韶光减少0.2 ms。
虽然PSNR值的精度略有降落0.02 dB,但总体得分有所提高。
我们建议读者参考CASR[44]论文理解更多细节。

3.5. RVSR:具有重参数化和ViT架构的实时超分辨率

我们提出了一种实时图像超分辨率方法,称为RVSR,这是受到古人事情的启示[13,39]。
我们的方法利用轻量级vit的高效架构设计和重参数化技能,在实时超分辨率任务中实现了卓越的性能。
RVSR首先运用3×3卷积将feature map的通道转换为目标大小(16)。
然后,RVSR利用8个堆叠的RepViT[39]块进行深度特色提取。
如图9 (a)所示,RepViT模块集成了轻量级vit的高效架构设计。
受[13]的启示,RVSR采取RepConv模块来提高SR性能,同时保持较低的繁芜度,如图9 (b)所示。

我们对RVSR模型进行了5000个epoch的端到端演习,采取32个batch大小,并通过利用Adam优化器最小化MSE丢失来进行优化。
对付推理,我们利用标准的3x3卷积重新参数化模型,如图9 (b)所示。
该方法在PyTorch中实现。
我们利用β1 = 0.99和β2 = 0.999的Adam优化器进行优化。
前1000次的学习率设置为5 × 10−4,之落后修率线性衰减到1 × 10−6。

我们在DIV2K数据集(800张图像)、Flickr2K数据集(2650张图像)和LSDIR数据集(前1000张图像)上演习RVSR。
为了天生低分辨率图像,我们采取了Lanczos下采样和A VIF压缩,压缩系数从qp31到63。
在演习过程中,我们利用了随机裁剪、旋转和翻转增强。
并将图像归一化到[- 1,1]范围内。
实验在Nvidia GeForce RTX 3090 GPU上进行,输入大小设置为960×540。
mac: 15.62 (G), 1883 mac / pixel,运行韶光:12.54 ms (FP32)和7.36 ms (FP16)。

3.6. 基于锚点的实时超分辨率嵌套UnshuffleNet (ANUNet)

提出了基于锚点的实时超分辨率(ANUNet)嵌套UnshuffleNet。
如图11所示,采取像素unshuffle技能[19]来降落图像的分辨率,增加通道尺寸。
这种设计许可减少网络的打算开销,同时保持恒定的信息量。
在ECB [49] + GeLU模块之后,主模块由一系列嵌套重参数化块(Nested Re-parameterization Block, NRB) + GeLU激活组成,用于逐步提取和细化特色。
然后,采取ECB层传输特色,然后采取上采样层将分辨率规复到LR。
而基于锚点的残差学习则运用于在LR空间中直接重复RGB通道16次以天生锚点。
末了,利用像素洗牌层来重修终极的HR输出。

与[13]和[49]不同的是,我们设计了一个嵌套构造,称为嵌套重参数化块(nested Re-parameterization Block, NRB)。
图10解释了提出的NRB。
在演习阶段,NRB采取嵌套构造,外部构造为[13]首次提出的Enhanced Residual Block (ERB)中的ERB RepBlock,内部构造为Enhanced Edge-oriented Convolution Block (eECB),个中包含多个分支,在推理阶段可以合并为一个正常的Convolution layer。
在此设计中重新参数化后,性能仍旧不受影响。

我们利用DIV2K[1]和Flickr2K进行演习。
为了天生压缩后的LR图像,我们利用A VIF处理上述随机QP范围在31到63之间的数据集。
此外,包括所有翻转和旋转变革的标准增强也用于提高性能。
将特色通道数设置为28,将子分支的像素解洗和像素shuffle的比例设置为2。
演习后,我们将模型重新参数化为具有规则3x3卷积的网络构造(ECB和NRB模块)。

该模型利用PyTorch框架和一个NVIDIA A100 40G GPU进行。
详细来说,培训分为三个阶段:

最初,该模型是用480×480补丁从头开始演习的,这些补丁是从64个小批量大小的高分辨率(HR)图像中随机裁剪的。
我们结合Charbonnier丢失[23]和基于fft的频率丢失[5]函数进行重修。
利用Adam优化器对网络进行1000k次迭代演习,通过余弦调度器将学习率从1 × 10−3降落到1 × 10−6。

在第二阶段,利用与第一阶段相同的演习数据,利用第一阶段预演习的权重初始化模型。
受[6]的启示,我们在演习中加入了赞助丢失和高频丢失。
与文献[6]中利用的下采样双三次算子不同,本文采取Lanczos算子与A VIF中的下采样方法保持同等性。
利用MultiStepLR调度器对网络参数进行了1000k迭代优化,个中初始学习率设置为5 × 104,并在200k, 400k, 800k迭代时减半。

利用L2丢失和FFT损耗对模型进行微调。
其他设置与阶段2相同。
在这个阶段,网络被演习了1000k次迭代。

3.7. RESR: 面向实时图像超分辨率的重参数化边缘网络

提出了一种基于重参数化和边缘提取的实时图像超分辨率算法。
我们利用像素无序来降落图像分辨率和增加通道尺寸。
这种设计在担保信息量不变的情形下,降落了网络的打算本钱。
同时,我们提出了一种重新参数化的图像边缘提取块,该块在演习阶段通过多条路径并行提取特色,包括3×3和1×1卷积用于通道扩展和压缩,以及sobel和laplacian滤波器用于获取图像边缘和纹理信息。
在推理阶段,多个操作可以组合成一个3×3卷积。
在不引入任何额外本钱的情形下,提高了3×3卷积的性能。

考虑到寻衅输入图像,该模型具有7.0171 gmac, 14.0341 GFLOPs,运行韶光为1.64ms(利用FP16)。

我们利用的数据集包括DIV2K演习集(800张图片)和Flicker2K演习集(2650张图片)。
为了提高IO的速率,我们将原始HR(高分辨率)和LR(低分辨率)图像拆分为多个对应的600×600和150×150补丁。
我们通过水平、垂直和旋转90度来随机翻转这些补丁,以增加数据。

我们利用PyTorch和RTX 3090 GPU (24GB)。
利用Adam和余弦热身对模型进行优化。
演习过程的总韶光约为48小时。

在第一个演习阶段,我们从头开始演习我们的模型。
从LR图像中裁剪的LR补丁具有128x128的图像大小和64个小批量。
Adam优化器利用0.0005的学习率。
余弦热身调度器设置0.1个百分比的热身比率。
此阶段的总epoch数设置为800。

在第二阶段,我们用前一阶段演习的权重初始化模型。
在这一步中,初始学习率设置为0.0001。
余弦热身调度器设置为0.1个百分比的热身比率。
总epoch数设置为200 epoch。

3.8. 实时Swift无参数关注网络4倍图像超分辨率

本文提出了一种结合Swift无参数把稳块(Swift -free Attention block, SPAB)的卷积神经网络用于图像SR,该模型具有参数少、处理速率快的特点,适用于4倍图像超分辨率。

如图15所示,SPAN由2个连续的SPAB组成,每个SPAB块通过具有C '通道H ' ×W '大小的核的三个卷积层依次逐步提取更高等别的特色(在我们的模型中,我们选择H ' = W ' = 3)。
然后将提取的特色Hi与来自SPAB输入的残差连接相加,形成该块的预把稳特色图Ui。
卷积层提取的特色通过一个关于原点对称的激活函数σa(·)通报,以得到把稳图Vi。
特色图和把稳图被元素相乘,以产生SPAB块的终极输出Oi = Ui⊙Vi,个中⊙表示元素相乘。
我们用W (j) i∈RC ' ×H ' ×W '表示第i个SPAB块的第j个卷积层的核,σ表示卷积层之后的激活函数。

C3网络用于4倍图像超分辨率 该模型是一种用于图像SR的三层卷积神经网络,具有参数少、处理速率快的特点,适用于4倍图像超分辨率。
该模型具有12.39 GFLOPs和0.024 M参数。
模型如图14所示。

两个模型都利用HA T-L[4] 4x预演习网络进行知识蒸馏。

•优化器和学习率:我们利用Pytorch (BasicSR框架)实现网络。
优化器为Adam,学习率为10−4。

•数据集:我们从互联网上随机网络视频,并随机压缩不同的QP。

•演习韶光:我们最初利用L1丢失和Grad丢失进行第一步50万次迭代演习,然后对付第二步演习,我们利用MSE丢失和25万次迭代的Grad丢失相结合。

3.9. 通过解耦卷积的高效实时图像超分辨率

为了增强网络对梯度和比拟度的感知,我们通过在局部区域内实行特色解耦来改进现有的vanilla卷积单元。
我们创新地在卷积中引入梯度(sub)算子和聚合(add)算子来捕获细节和比拟干系属性。
详细来说,我们在卷积过程中引入了微分运算,以捕获水平、垂直和中心周围的方向。
此外,我们在卷积中加入了一个聚合(添加)操作,以提高网络对统计特色的敏感性。
该方法如图16所示。

我们最初运用了DecoupleConv (kernel=4, stride=2)来降落空间分辨率,同时增加通道的数量。
随后,我们利用了四个解耦的带有重参数化的卷积,我们为特色学习设计了这些卷积。
然后,我们利用特色上的像素洗牌将图像分辨率提升到原来的低分辨率(LR)大小。
在此根本上,采取带重参数化的单解耦卷积进行特色映射。
末了,再进行一次像素洗牌操作,得到4倍的超分辨率结果。
我们仅利用DIV2K数据集,并运用官方的压缩方法对不同级别的图像进行压缩,详细为31、39、47、55和63个压缩级别,统共压缩了5个不同的级别。

演习:我们利用初始学习率为5e-4的Adam优化器,统共实行了1e7次迭代。
我们采取了stepDecayLR学习率策略,它涉及到每2e6次迭代的衰减,衰减因子为2。
在每张卡上,我们将批大小设置为32,导致所有卡片的累积批大小为328。
培训进行了大约7天,分布在8个V100 gpu。

推理:在推理之前,须要对参数进行等效变换。

3.10. 一种基于重参数化的轻量级超分辨率算法

基于重参数化的轻量级超分辨率算法提出了一种高效的超分辨率网络,该网络包含4个卷积和一个无序块。
首先,该网络利用卷积运算进行特色提取。
然后,利用两个重参数化模块提取边缘和细节信息。
重参数化模块在演习过程中增加了参数的数量,但它被单个卷积所取代,以减少测试过程中的打算繁芜性和内存利用。
我们利用的重参数化模块可以提取更多的边缘和细节信息。
随后,利用另一个卷积操作将通道数增加到48,这有利于随后的四倍超分辨率。

末了,我们利用unshuffle块进行信道到空间的转换。
全体网络如图17所示,中间的卷积层(赤色)是两个重新参数化模块。
我们利用的重新参数化模块如图18所示。

基于快速傅里叶变换(FFT)的局部频率丢失(FFL)[20]使模型能够动态地优先考虑具有寻衅性的频率身分,同时降落随意马虎合成的频率身分的影响。
该优化目标补充了当前的空间丢失,并有效地防止了神经网络中固有偏差导致的关键频率细节的退化。
我们在演习中利用了以下FFT丢失:

受SPSR[29]的启示,我们提出了一个梯度丢失,帮助模型准确评估图像的局部锐度强度。
我们在演习中利用梯度丢失,表示如下:

演习网络的总丢失定义为:

我们利用的网络如图19所示,个中包含三个重新参数化的模块和一个具有因子2的赞助头。
我们利用ECB[48]模型作为重参数化模块,它可以在没有打算开销的情形下得到具有竞争力的性能。
除了4倍超分辨率任务外,我们还为2倍SR任务引入了2倍上采样头。
这个额外的任务供应了多种好处:它作为一种仿照退火的形式,许可潜在的躲避局部最小值;它作为一个条件,加强了对我们紧张任务的描述。
与2x监管干系的丢失表示如下:

联合监督知识蒸馏网络实现高效超分辨 我们提出了一种基于知识蒸馏和再参数化的高效超分辨网络KREN,如图20所示。

KREN模型由西席网络和学生网络组成,我们利用更优的SR模型HA T[4]作为西席网络。
蒸馏演习为学员演习供应了额外有效的监督信息,提高了学员网络的性能和泛化能力。
学生网络由两个卷积层和两个重新参数化[49]块ECB组成。
在演习阶段利用构造繁芜的ECB块,在推理阶段可以合并成一个33的卷积层,加快推理速率。
重新参数化策略可以有效地改进特色多样性,提高SR模型的特色提取能力。
此外,我们提出了一种联合监督丢失,包括焦频率丢失(FFL)[21]、梯度图丢失(GM)[30]、蒸馏丢失和L1丢失。
我们从西席模型的第1和第3块提取特色,并从每个ECB块提取特色来打算蒸馏丢失。
对梯度和频域的限定有助于超高分辨率的高质量图像。
我们还提出了一种多阶段渐进式演习策略,以逐步提高重修质量。
设置学生网络中的特色映射数为14个。

我们在DIV2K[1], Flickr2K[37]和GTA[32]数据集上演习我们的模型,并在NVIDIA V100上利用基于Pytorch的多阶段演习。
每个演习阶段的patch大小从[256,384,512,640]中选取。
将mini-batch大小设置为64,并利用MSE、GM loss[29]和FFT loss[20]作为目标丢失函数。
除了第一阶段之外,每个阶段都是基于前一阶段的结果进行微调,利用Adam算法演习500个epoch,从5 × 10−4的学习率开始,然后逐渐降落到5 × 10−5,遵照余弦调度程序。

对付蒸馏方法(KREN),演习细节描述如下

Stage1:演习西席网络。
西席网络是从零开始演习的。

Stage2。
演习学生网络。
首先,我们固定西席网络并预演习一个2x网络来初始化学生网络。
然后利用联合监督丢失对学生网络进行演习。
初始学习率设为5e4,每50次减半一次,总学习率为500次。
batch size设置为64,patch size设置为256。

Stage3。
微调学生网络。
(1)学生模型从Stage2初始化,演习设置与Stage2相同,特殊是丢失函数仅为MSE丢失。
(2)从上一步初始化学生模型,并进一步通过MSE丢失进行微调,patch大小设置为512,其他参数设置不变。

3.11. 利用ETDS和面向边的卷积块增强RTSR。

我们先容了一种利用高效转换和双流网络(ETDS)[3]结合特色增强模块和面向边缘的卷积块(ECB)[48]的方法。

我们的模型基于高效转换和双流网络(ETDS)[3],结合了一个受构造保持超分辨率梯度制导(SPSR)[29]启示的特色增强模块和一个在ECBSR[48]中提出的面向边缘的卷积块(ECB)。
该设计利用等效转换将耗时的操作转换为韶光友好的操作,同时采取双流网络构造来减少冗余参数。

ETDS[3]的架构包括双流网络,以减少冗余参数,如下:

个中Kb(主干分支)提取高频信息,Kr(残差分支)处理低频信息。
在我们的方法中,ECB块运用于Kb以提高效率,Kr2b和Kr由3x3个卷积组成。
受SPSR[29]的启示,我们添加从压缩和降采样算法退化的图像中规复信息。
我们从输入的低分辨率(LR)图像中提取梯度信息,然后通过feature enhanced Module增强输入的特色映射。
在推理过程中,功能增强模块根据

转换为连接-卷积构造,Kb重新参数化为3x3卷积。
终极,通过等效变换对所有参数进行重构,形成我们模型的综合架构。

为了证明我们的办理方案比以前的方法表现出更好的性能,我们对ETDS和我们的模型进行了比较。
在AIS2024 CVPR上,在实时压缩图像超分辨率的V验证阶段,不雅观察到ETDS得分为22.844,而我们提出的模型得分为22.912,表明性能有所提高。

我们的方法是在DIV2K[1]和Flickr2K数据集上进行演习的,图像利用质量因子(QF)系数从31到63的VIF压缩处理,并通过Lanczos插值按4倍缩放。
在演习过程中,我们利用数据增强技能:随机裁剪到64x64,随机翻转和随机旋转。

ETDS[3]架构与ECB[48]相适应,以增强高频梯度中的边缘细节规复,而特色增强模块有助于规复因压缩和下采样而丢失的信息。

实现细节

•优化器和学习率:我们利用了参数β1 = 0.9和β2 = 0.999的Adam优化器。
演习超过100个epoch,初始学习率设置为0.0001,在第50个epoch减半。

•GPU: NVIDIA A100 (80GB)

•演习韶光:模型演习24小时。

•演习策略:我们利用质量因子31到63范围内天生的所有A VIF图像来演习模型。
这须要对统共110,400张图像进行演习,个中800张来自DIV2K, 2650张来自Flickr2K,每张图像的质量系数为32。

•效率优化策略:-

双流网络架构:利用ETDS[3]通过分离高频和低频信息的处理来减少冗余参数。
这个分支支持更有效的学习并减少打算开销。

-具有梯度辅导的功能增强模块:我们合并了一个功能增强模块,以利用低分辨率输入的梯度信息。
该方法有效地规复了压缩和下采样过程中丢失的高频细节,在不显著增加打算需求的情形下提高了模型性能。

3.12. Unshuffle, Re-parameterization和point - twise Network (URPNet)

我们提出了一种Unshuffle, Re-parameterization和Pointwise Network (URPNet),与以前的4K图像实时SR模型比较,它可以以更快的速率实现更高的精度。
我们对输入图像进行像素解洗濯以降落分辨率,并仅对末了一层运用1x1点向卷积,而不是对所有现有卷积运用重新参数化卷积(RepConv)。

我们还运用了种别学习[2]来高效地学习轻量级模型。
由于量化参数(QP)越大,压缩就越大,如果从一开始就在高QP数据上演习轻量级模型,则性能就会越差。
因此,我们根据演习难度将演习数据分为易集(qp31)、中集(qp39、qp47)和难集(qp55、qp63)。

此外,我们在微调阶段运用知识蒸馏(KD)来得到比传统演习更高的PSNR。
以运用KD为师模型是在高分辨率数据集上从头开始演习的。
我们利用师生之间每个网络输出图像的L2丢失进行演习[17,31]。

考虑到寻衅输入,该模型具有0.15K mac每像素(4K),总数为1.2483 GFlops, RTX 3090 gpu的运行时为0.62ms

实现细节

•框架:PyTorch 1.13版本

•优化器和学习率:带有余弦预热的Adam优化器。
初始学习率:5e-4 (scratch), 1e-4 (fine-tuning)

•GPU:单个RTX3090/24GB, 3.2GB (training memory)

•数据集:

1。
DIV2K:我们利用DIV2K演习数据集(800张图像)进行scratch演习步骤。

2. FTCombined:我们利用组合数据集进行调优阶段,个中包括DIV2K演习集(完全800个)、Flickr演习集(完全2650个)、DIV8K(前200个样本)和LSDIR(前1000个样本)。
在演习阶段之前,演习数据通过中央裁剪进行预处理,分辨率为2040 x 1080。

为了天生低分辨率图像,我们利用Lanczos降采样和A VIF压缩对中央裁剪的图像进行降级。
对付两个演习阶段,我们利用了随机裁剪、旋转90度、水平翻转和垂直翻转增强。

•演习韶光:24小时,单块RTX 3090gpu

•演习策略:Scratch train步骤:在第一步中,我们的模型是从头开始演习的。
LR补丁是从8个小批量96x96尺寸的LR图像中裁剪而成的。
在从头演习中,Adam优化器的学习率为0.0005。
利用余弦预热调度器。
总epoch数设置为500。
我们用l1丢失

. 微调步骤:在第二步中,利用第一步演习的权重初始化模型。
为了提高精度,我们利用了l2和蒸馏丢失。
利用l2和蒸馏丢失进行微调可使峰值信噪比(PSNR)值提高0.02 ~ 0.03 dB。
在这一步中,初始学习率设置为0.0001,Adam优化器与余弦热身一起利用。
总epoch设置为50个epoch。