热门文章
随机文章
您的位置:主页 > 日博 ribo88 >

距离KL(相对熵)

时间: 2019-05-09 08:38 来源: 点击:
距离KL(相对熵) 距离KL是Kullback-LeiblerDivergence的缩写,也称为相对熵。 测量同一事件空间中两个概率分布之间的差异。 物理意义如下。在相同的事件空间中,当对应于概率分布P(x)的
  距离KL(相对熵)
距离KL是Kullback-LeiblerDivergence的缩写,也称为相对熵。
测量同一事件空间中两个概率分布之间的差异。
物理意义如下。在相同的事件空间中,当对应于概率分布P(x)的每个事件用概率分布Q(x)编码时,基本事件的代码长度平均增加的比特数。符号)。
使用D(P || Q)表示距离KL。公式如下。
当两个概率分布相同时,即P(X)= Q(X),相对熵为零。
概率分布P(X)的熵信息是
当对概率分布P(x)进行编码时,它表示至少每个基本事件(符号)需要多少比特码。
通过对信息熵的研究,我们知道没有更好的方法根据自己的概率对分布进行编码,因此D(P || Q)总是大于或等于零。
虽然KL被称为距离,但它不符合距离定义的三个条件。2)对称性(不满意)。3)三角不等式(不满足)。
我们将用一个例子来说明距离KL的含义。
如果字符发送器随机发送0和1个字符,则真实概率分布为A,但A的具体分布并不是真正知道的。
现在观察,获得概率分布B和C.
每个分发的细节如下。
A(0)= 1/2,A(1)= 1/2
B(0)= 1/4,B(1)= 3/4
C(0)= 1/8,C(1)= 7/8
然后我们可以计算以下内容:
也就是说,两种方法用于编码,这导致代码的平均长度增加。
还可以看出,具有概率分布B的编码小于通过用C编码添加的每个符号的比特数。
分布还表明B实际上比C更接近实际分布(因为它更接近分布A的KL)。
实际分布是??C,并使用分布A来编码字符发送者的每个字符,您还可以得到:
同样,我们进一步研究了这样的结论:信息源根据其自身的概率分布以每个字符的最小平均比特数进行编码和编码。
这是信息熵的概念,它测量源本身的不确定性。
此外,可以看出距离KL不满足对称性,即D(PPQ)不一定等于D(Q | P)。
当然,我们也可以验证距离KL不满足三角形的不等式条件。
上述三种概率分布,D(B | C)= 1 / 4log 2 + 3 / 4log(6/7)。
D(A || C) - (D(A || B)+ D(B || C))
确认距离KL不满足三角不等式条件。
因此,尽管存在这样的科学名称,但距离KL不是距离的度量。
实际上,KL距离在信息检索和自然统计语言领域具有重要的应用。