0%

交叉熵

信息量定义\(f(x)=-log_2x\),表明信息量的多少,x是概率,通俗来说概率越小信息量越大。

的定义是信息量的期望,即\(H(P)=\sum _{i=1}^{m}p_i*f(p_i)\)

相对熵(KL散度)是两个系统“差距”, 比如以P为基准,与Q相差多少:\(D_{KL}(P||Q)=\sum_{i=1}^{m}p_i*(f_Q(q_i)-f_p(p_i))=\sum_{i=1}^{m}p_i*(-log_2q_i)-\sum_{i=1}^{m}p_i(-log_2p_i)\)

后面一项是P的熵,前面一项是P与Q的交叉熵

交叉熵 \(H(P, Q)=\sum_{i=1}^{m}p_i(-log_2q_i)=-\sum_{i=1}^{n}(y_ilog_2\hat{y_i}+(1-y_i)log_2(1-\hat{y_i}))\)

-------------本文结束感谢阅读-------------