激活函数
常见激活函数
sigmoid: $$f(x)=\frac{1}{1+e^{-x}}$$ Swish: $$f(x)=x\cdot sigmoid(\beta x)$$
Swish 平滑且非单调。它在负值区域不会像 ReLU 那样直接切断梯度,而是逐渐减小。这种平滑特性有助于梯度流动,特别是在深层网络中,可以缓解梯度消失问题。
思考
为什么使用relu激活函数而不是sigmoid激活函数?
- 在前向传播和反向传播过程中,ReLU相比于Sigmoid等激活函数计算量小:
- 在反向传播过程中,S引goid函数存在饱和区,若激活值进入饱和区,则其梯度更新值非常小,导致出现梯度消失的现象。而RLU设有饱和区,可避免此问题:
- RLU可令部分神经元输出为0,造成网络的稀疏性,减少前后层参数对当前层参数的影响,提升了模型的泛化性能: