对付MAE预演习(ViT)和FFHQ图片天生(Latent Diffusion), InfoBatch分别节省了24.8%和27%的开销。

在LLaMA的指令微调上, InfoBatch成功在静态压缩方法DQ[1]的根本上额外节省了20%开销,总开销为原始的1.6%,并且和LoRA兼容。

论文题目:

InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning

ICLR 2024 Oral  三行代码即插即用NUS尤洋团队新作InfoBatch无损数据集动态剪枝加速

论文链接:

https://arxiv.org/abs/2303.04947

代码链接:

https://github.com/henryqin1997/InfoBatch

一、动机

在过去的十年里,深度学习取得了长足的进步。
与之相应的是大部分最前辈的深度学习事情大都利用了超大规模的数据集,这对付很多资源有限的研究者来说是难以包袱的。
为了降落演习开销,研究者们进行了一系列不同研究。

一个比较直接的方法是降落数据集规模。
数据集蒸馏(Dataset Distillation)[2]和核心凑集选择(Coreset Selection)[1]分别从原有的数据集中合成/选择一个更小但更有信息量的新数据集(子集)。
然而,虽然样本数量减少了,这两种方法本身却引入了不可忽略的额外开销。
此外,这两种方法达到无损性能比较困难。
其余的事情有加权抽样(weighted sampling)[3],可以通过改变样本采样率来提高演习收敛速率,相应的缺陷是加速比对模型和数据集敏感,难以直接和学习率调度策略结合。

近期,一些事情试图通过减少迭代来加速演习。
个中一类方法和核心凑集选择类似,通过给样本打分并排序来选取更有信息量的样本,别的样本不参加演习,作者称之为数据静态剪枝;另一类方法在此根本上,于演习过程中动态打分并周期性选取子集,作者称之为数据动态剪枝。
比较于静态方法,动态方法的单次额外开销更小,而且同打算量性能更好,但是现有方法依旧难以达到无损性能。

为了应对以上方法的缺陷,作者提出了InfoBatch演习框架。
InfoBatch的紧张改进如图1所示,它在数据迭代过程中动态剪枝,通过Soft Pruning(概率剪枝)和Gradient Rescaling(梯度重缩放)掩护了总更新量的期望值不变,以此达到了无损加速的目的。
为了防止剩余演习轮次不敷时的残余偏差,InfoBatch在末了的少部分轮次中利用原始数据集随机采样演习。
作者在分类,语义分割,目标检测,Diffusion图片天生,LLaMA指令微调等任务上验证了方法的无损加速。

二、方法

2.1 总览

现有的静态/动态数据剪枝方法,会通过某种办法给样本打分,然后对样本得分排序,选取“对演习更有帮助”的样本进行演习。
这种选择常日是确定性的,和目标的剪枝百分比直接挂钩。
与之相对应的问题是,直接剪枝导致了梯度期望值方向偏差以及总更新量的减少。

为理解决梯度更新的期望偏差,如图2所示,InfoBatch前向传播中掩护了每个样本的分值,并以均值为阈值,对一定比例的低分样本进行了动态剪枝。
为了掩护梯度更新期望,剩余的低分样本的梯度被相应放大。
通过这种办法,InfoBatch演习结果和原始数据演习结果的性能差距比较于之前方法得到了改进。
为了进一步减少残余的梯度期望值偏差,InfoBatch在末了几个轮次中利用全数据演习。

2.2 无偏剪枝和重缩放(Unbiased Prune and Rescale)

在演习的前向过程中,InfoBatch会记录样本的丢失值(loss)来作为样本分数,这样基本没有额外打分的开销。
对付首个epoch,InfoBatch初始化默认保留所有样本。
之后的每个epoch开始前,InfoBatch会按照剪枝概率

来随机对分数小于均匀值的样本进行剪枝(保留概率为

)。
概率式表达为

个中

是剪枝概率,

是样本

在上一轮中的分数,

是上一轮分数的均值。

对付分数小于均值并留下参与演习的样本(

),InfoBatch采取了重缩放(rescaling),将对应梯度增大到了


这使得整体更新是靠近于无偏的。
记原始数据集为

, t 时候剪枝后的数据集为

,简短的证明如下:

原始的objective为

剪枝并重缩放后,每个样本的采样率为

,缩放系数为

,objective变为

剪枝并重缩放后的优化目标和原始的优化目标有相同的解,由于给定时刻的

是一个常数系数。

个中

剪枝后的更新步数变为了原来的

,步长变为了原来的

,因此概率剪枝加重缩放的策略掩护了更新量的总体基本同等。

2.3 退火(Annealing)

虽然理论上的期望更新基本同等,上述的期望值实际包含时候 t 的多次取值。
在演习中,如果一个样本在中间的某个轮次被剪枝,后续依旧大概率被演习到;而在剩余更新轮次不敷时,这个概率会大幅低落,导致残余的梯度期望偏差。
因此,在末了的几个演习轮次中(常日是12.5%~17.5%旁边),InfoBatch采取完全的原始数据进行演习。

三、实验

3.1 实验设置

作者在多个数据集上验证了InfoBatch的有效性,包括(分类)CIFAR-10/100,ImageNet-1K,(分割)ADE20K,(图片天生)FFHQ,(指令微调)Alpaca。
演习的模型包括(分类)ResNet18,ResNet-50,ViT-Base(MAE), Swin-Tiny,(分割)UperNet,(图片天生)Latent Diffusion, (指令微调)LLaMA-7B。
3.2 实验结果
这里展示紧张结果,更多结果请参考论文。

其余,根据作者最新更新,InfoBatch在检测任务上也取得了无损加速30%的效果,代码将会在github更新。

四、总结与展望
在这项事情中,作者提出了InfoBatch框架,能够在广泛的任务上可不雅观地节省演习开销并加速。
其核心的思想是根据样本拟合情形动态调度采样剪枝策略,并利用重缩放坚持更新量的同等。
作者在文中进一步磋商了该策略的适用范围和进一步的优化,期待此类事情往后能取代传统数据迭代办法,助力大模型时期演习加速。

参考

[1]Zhou, Daquan, et al. \公众Dataset quantization.\"大众 Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[2]Wang, Kai, et al. \"大众Cafe: Learning to condense dataset by aligning features.\"大众 Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[3]Csiba, Dominik, and Peter Richtárik. \"大众Importance sampling for minibatches.\"大众 The Journal of Machine Learning Research 19.1 (2018): 962-982.

Illustration From IconScout By Delesign Graphics
-The End-

本周上新!

扫码不雅观看!

“AI技能流”原创投稿操持

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。
社区上线500+期talk视频,3000+篇技能干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上互换活动,不定期举办技能人线下聚会互换活动。
我们正在努力成为AI人才喜好的高质量、知识型互换平台,希望为AI人才打造更专业的做事和体验,加速并陪伴其发展。

投稿内容

// 最新技能解读/系统性知识分享 //

// 前沿资讯讲授/心得经历讲述 //

投稿须知

稿件须要为原创文章,并标明作者信息。

我们会选择部分在深度技能解析及科研心得方向,对用户启示更大的文章,做原创性内容褒奖

投稿办法

发送邮件到

chenhongyuan@thejiangmen.com

或添加事情职员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”"大众年夜众号,后台回答“投稿”二字,得到投稿解释。

>>> 添加小编微信!

关于我“门”
将门是一家以专注于数智核心科技领域的新型创投契构,也是北京市标杆型孵化器。
公司致力于通过连接技能与商业,发掘和造就具有环球影响力的科技创新企业,推动企业创新发展与家当升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技能型创业公司。
如果您是技能领域的初创企业,不仅想得到投资,还希望得到一系列持续性、有代价的投后做事,欢迎发送或者推举项目给我“门”: