零碎知识补充
概率论
似然与最大似然估计
在统计学中,概率和似然是两个不同的概念:
概率:在特定环境下(参数已知),某件事情发生的可能性(结果未知)
似然:基于产生的结果(结果已知),推测产生这个结果的可能环境(参数未知)
最大似然估计:利用已知的结果,反推出使这些结果出现的可能性最大的参数。
贝叶斯公式
交叉熵、信息熵、KL散度
信息熵是度量随机变量不确定性的一个重要概念。熵越大,变量的不确定性就越大。
交叉熵用于度量两个概率分布之间的距离。
KL 散度(又称为相对熵)用于度量两个概率分布之间的相对熵。
三者之间的关系如下所示: