For updates contact @summu77 on niesen@whu.edu.cn

Summu77-WIKI

Activation Func

正在初始化搜索引擎

Home
Basic
Application
Code

Summu77-WIKI

Home
Basic
Basic
- Python常用库
  Python常用库
- Knowledge
  Knowledge
  - Normalization
  - Activation Func Activation Func
    目录
    
    常见激活函数
    
    思考
  - 零碎知识补充
- Others
  Others
  - 项目环境搭建
  - 服务器使用
Application
Application
- 计算机视觉
  计算机视觉
  - CS231n
  - YOLO系列
- 生成模型
  生成模型
- LLM
  LLM
Code
Code
- 调试代码
- DDPM
- DDIM
- LDM
- VIT/DeiT
- GPT
- Llava

目录

常见激活函数
思考

激活函数

常见激活函数

sigmoid: $$f(x)=\frac{1}{1+e^{-x}}$$ Swish: $$f(x)=x\cdot sigmoid(\beta x)$$

Swish 平滑且非单调。它在负值区域不会像 ReLU 那样直接切断梯度，而是逐渐减小。这种平滑特性有助于梯度流动，特别是在深层网络中，可以缓解梯度消失问题。

思考

为什么使用relu激活函数而不是sigmoid激活函数？

在前向传播和反向传播过程中，ReLU相比于Sigmoid等激活函数计算量小：
在反向传播过程中，S引goid函数存在饱和区，若激活值进入饱和区，则其梯度更新值非常小，导致出现梯度消失的现象。而RLU设有饱和区，可避免此问题：
RLU可令部分神经元输出为0，造成网络的稀疏性，减少前后层参数对当前层参数的影响，提升了模型的泛化性能：

零碎知识补充

Copyright © 2024 Whu-NS

Made with Material for MkDocs