经典的鲁伊回来了!解决“死亡问题REU”的主要
作者:365bet体育日期:2025/06/05 浏览:
无需更改模型或桩参数,糖模型的性能大大提高!在深度研究领域,对活动的讨论一直是研究的独立方向。 Gelu,Selu和Silu等功能由于其平稳的梯度和优质的风景而成为流行的选择。尽管有这种趋势,但REU经典功能因其简单性,自然稀疏性和拓扑特性的其他好处而受欢迎。但是,REU单位容易陷入SO被称为“死亡关系问题”。当训练期间神经元输出始终为0时,其梯度也为0且不可逆。这种现象最终阻止了其整体性能,也是Relu网络中的主要缺陷。这是死亡归因的问题,它产生了大量增强的线性元素,包括但不限于:leakyyrere,prelu,gelu,selu,silu,silu/swish和elu。这些功能通过引入非零AC提供了各种权衡负预激活值的滋味。在本文中,来自德国卢贝克大学等机构的研究人员提出了一种新的策略:Sugar(REU的梯度投降),该策略解决了Rele限制的情况,而不会牺牲REU的好处。也就是说,前部的传播仍然使用标准REU(维持稀疏性和简单性),而在传播过程中替换的替代提取物是非零的,持续的替代梯度函数(梯度投降)。这使REU可以避免那些零梯度的问题,同时保持前进的原始转发,从而被死去的神经元复活。基于此,本文还设计了两个新的替代梯度函数:b-silu(有限的Silu)和Nelu(负斜率线性单元),它们可以无缝集成到不同的模型中。对这项研究的进一步贡献如下:本文对VGG-16和RESNET-18,SHOWI进行了全面的实验糖可以显着提高整体建筑能力的能力。本文研究了现代建筑中的糖,例如Swin Transformers和Conv2Next,它显示了其灵活性和有效性。对VGG-16层激活的深入评估表明,当应用糖时,激活分布会发生巨大变化,从而为减轻稀疏表示时的作用提供了直观的证据。糖法很容易实施,并且始终使用与正向传播的关系。当与B-SILU替代功能结合使用时,CIFAR-10和CIFAR-100中VGG-16测试的准确性分别为9%,分别为9%和7%的点,与没有糖的最佳模型相比。纸张标题:Relu Paper链接的复活:https://arxiv.org/pdf/2505.22074sugar识别本文提出的程序应用FGI(向前梯度注入)以适当的替代操作来恢复网络。在糖框架中,FGI可以表示为:此公式会实现梯度注入,并确保即使在负面活动中也可以执行散发繁殖。具体而言,在[34]中使用繁殖方法,梯度替代功能的直接注入如下:选择替代功能的选择是灵活的,并且与当前最新的激活功能(例如ELU,GELU,SILU,SILU,SELU和泄漏的Relu)兼容(见图8)。主要区别是与REU不同,替代候选功能具有一个共同的特征:可以为负输入(x 0)制作非零梯度。尽管这些功能为负激活提供了梯度流动路径,但正向传播和随后的损耗计算严格依赖于x 0中的激活输出。在初步研究中,本文意识到需要调整电流激活to适应特定的糖摄入量。因此,下一篇文章提出了两个新的替代功能,使这些设置良好。 B-SILU:引入了一种称为B-SILU(有界的Sigmoid Linare单元)的新激活函数,结合了自控和调整后的下限参数。在数学中,该函数可以表示为:提取的B-SILU激活功能为:B-SILU及其导数在图8中可视化。Nelu:Nelu:本文进一步介绍了NELU(负斜率线性单元),作为REU的良好替代方法。最终梯度如图1所示。通常,糖在与ELU,SELU,尤其是B-Silu的集成方面取得了最大的改善,而Leakyrere和Nelu继续表现出色(见图2)。当使用RESNET-18作为CIFAR-10数据集中的骨干网络时,B-SILU性能从76.76%增加到86.42%,这要归功于糖。 VGG-16也显示出类似的效果:B-SILU试验准确性近10个百分比(从78.50%到88.35%)。在CIFAR-100数据集中,与B-SILU结合的糖的优势更清晰:RESNET-18的准确性从48.99%增加到56.51%,VGG-16的准确性从48.73%上升到64.47%(见图3)。同样,泄漏的Relu和Nelu仅显示很少甚至负面的强化(例如RESNET-18中的43.67%→43.41%)。通常,B-Silu优于激活各种架构和数据集的其他替代功能,Elu和Selu可以提供可靠的谈判,因为糖不会从漏水的REU和NELU中获得可观的好处。当应用于Conv2Next时,糖总是在向前和反向传播过程中使用GELU释放主要模型。有关更多信息,请参阅原始论文。
相关文章