联合熵定义和单个随机变量是类似的,对于 H(X,Y),其联合概率分布为 p(x,y),那么
H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)
结论:
同理也可以写作多个随机变量的形式,也可以表示为期望的形式:
H(X1,X2,⋯,Xn)=−∑p(x1,x2,⋯,xn)logp(x1,x2,⋯,xn)=−Elogp(X1,X2,⋯,Xn)
联合熵对应的是联合概率密度,当 X=x 已知时,p(Y∣X=x) 也是一个概率分布,满足归一化:
y∑p(Y=y∣X=x)=y∑p(x)p(x,y)=p(x)p(x)=1
此时 p(Y∣X=x) 的熵为
H(Y∣X=x)=y∑−p(y∣X=x)logp(y∣X=x)=−Elogp(y∣X=x)
定义,如果 (X,Y)∼p(x,y),条件熵 H(Y∣X) 被定义为
H(Y∣X)=x∈X∑p(x)H(Y∣X=x)=−x∈X∑p(x)y∈Y∑p(y∣x)logp(y∣x)=−x∈X∑y∈Y∑p(x,y)logp(y∣x)=−Elogp(Y∣X)