統計距離
外觀
在統計學、概率論和信息論中,統計距離量化了兩個統計對象之間的距離。統計對象可以是兩個隨機變量,兩個概率分佈或樣本,或者一個獨立樣本點和一個點群之間的距離,或者更加廣泛的樣本點。
統計距離很多情況下不是由度量誘導的,它們不一定是對稱的。一些統計距離也被稱為統計區別度(statistical divergence)。
專用術語
[編輯]各種統計距離常常有許多名稱。有時名稱的相似性容易引起誤解,有時不同作者或不同時期一些術語的意義也不盡相同。常見的有統計偏差(deviation),區分度(discriminant),區別度(divergence),對比函數(contrast function),度量等。信息論中也稱為交叉熵(cross entropy),相對熵(relative entropy),discrimination information, information gain等。
度量距離
[編輯]給定一個集合 X,,其上的度量距離是一個非負實值函數 d : X × X → R 對任意的 X中的 x, y, z,這個函數滿足如下條件:
- d(x, y) ≥ 0 (非負性)
- d(x, y) = 0 if and only if x = y
- d(x, y) = d(y, x) (對稱性)
- d(x, z) ≤ d(x, y) + d(y, z) (次可加性 / 三角不等式).
廣義距離
[編輯]許多統計距離不滿足度量距離的要求。不滿足正定性的常常被稱為偽度量,不滿足對稱性的通常被稱為準度量,不滿足三角不等式被稱為半度量。 只滿足上述(1)和(2)條件的統計距離被稱為區別度(divergence)。
例子
[編輯]f-區別度:KL區別度(相對熵), Hellinger區別度,全變差距離;
仁義熵;
延森-香濃區別度。