信息量定义\(f(x)=-log_2x\),表明信息量的多少,x是概率,通俗来说概率越小信息量越大。
熵的定义是信息量的期望,即\(H(P)=\sum _{i=1}^{m}p_i*f(p_i)\)
相对熵(KL散度)是两个系统“差距”, 比如以P为基准,与Q相差多少:\(D_{KL}(P||Q)=\sum_{i=1}^{m}p_i*(f_Q(q_i)-f_p(p_i))=\sum_{i=1}^{m}p_i*(-log_2q_i)-\sum_{i=1}^{m}p_i(-log_2p_i)\)
后面一项是P的熵,前面一项是P与Q的交叉熵
交叉熵 \(H(P, Q)=\sum_{i=1}^{m}p_i(-log_2q_i)=-\sum_{i=1}^{n}(y_ilog_2\hat{y_i}+(1-y_i)log_2(1-\hat{y_i}))\)