自己情報量の発見法的導出

はじめに

情報理論の基本的な概念として、自己情報量 $- \ln p$ があります。自己情報量は、機械学習の分類モデルのアルゴリズムで登場する平均情報量の定義の基礎となっていたり、ここそこで現れてきます。ただ、抽象度が高いため初心者泣かせの概念です。

そこで、この記事では、以下の手順で自己情報量を理解していきます。

自己情報量の式の形を知らない前提で出発し、自己情報量が満たすべき性質を考察し、それを要請として表現します。
その上で、その要請を満たす式が自己情報量の式と一致することを見ます。つまり、自己情報量の式を導出します。また、どの要請がどう導出で効いていたかを観察します。
まとめとして、端的に自己情報量がどのような概念か表現します。

情報量が満たすべき性質と、要請

ここでは、情報量という言葉の意味からそれが満たすべき性質を考察し、その性質を要請として表現します。

情報量はびっくり度

まず、情報理論で情報量に関して知っていることを忘れていただきます。一つの解釈として、情報量とは、ある事象を観測する際のびっくり度であると言えます。

これは、以下のような理由です。

起こることが全然分かっていないような、生起確率が小さい事象を観測するとき、得られる情報量（びっくり度）が大きい
逆に、起こることが確実に分かっているような、生起確率が大きい事象を観測するとき、得られる情報量（びっくり度）が小さい

より端的に言い換えると、以下のようになります。

生起確率の小さい事象を観測するとき、情報量（びっくり度）が大きい
生起確率の大きい事象を観測するとき、情報量（びっくり度）が小さい

そこで、これを満たすべき性質として捉え、以下のような要請をしてみます。
びっくり度の要請. $h$ は、確率 $p$ のみに依存し単調減少で、連続である

ただし、連続性の要請は導出のために補助的に追加しました。

情報量の加法性

情報量の「量」という言葉に着目してみます。例えば、水を朝 $1L$ 、昼 $1.5L$ 、夜 $0.5L$ 飲んだとします。この場合、合計で飲んだ水の量は、朝昼夜で飲んだ水の量の和 $(1+1.5+0.5) = 3.0L$ と一致します。この性質は、物理では、相加性という名前で知られています。相加性は、水の体積だけでなく、体積・粒子数・エネルギー・質量などの「量」的な概念が持っています。逆に、温度・圧力・密度・濃度などの「量」的でない概念にはありません。

ここで情報量の話に戻ります。情報「量」というからには、相加性のような性質を持つべきです。つまり、事象が独立な複数の事象からなる場合には、部分ごとの情報量の和が全体の情報量と一致するべきです。そこで、以下のような要請をします。
加法性の要請. 2つの独立な事象 $x, y$ について、 $\begin{equation} h(x, y)= h(x) + h(y) \end{equation}$
※情報理論の分野では、この性質を加法性と呼ぶようなので、この記事でも、相加性ではなく加法性と呼ぶことにします。

要請（自己情報量が満たすべき性質）のまとめ

これまでの議論をまとめると、以下の要請をすることにした、ということです。
びっくり度の要請. 自己情報量の関数 $h$ は、確率 $p$ のみに依存し単調減少で、連続である
加法性の要請. 2つの独立な事象 $x, y$ について、 $\begin{equation} h(x, y)= h(x) + h(y) \end{equation}$

自己情報量の式の導出

ここでは、上記要請を満たす式 $h$ が自己情報量の式と一致することを見ます。つまり、自己情報量の式を導出します。

導出

ある事象 $X=x$ が独立に $n$ 回起こる場合を考えます。 加法性の要請より以下が成り立ちます。
$\begin{equation} h( p^{n}(x) ) \end{equation}$
$\begin{equation} = h(p(x)) + h(p^{n-1}(x)) \end{equation}$
$\begin{equation} = h(p(x)) + h(p(x)) + h(p^{n-2}(x)) \end{equation}$
$\begin{equation} ... \end{equation}$
$\begin{equation} = h(p(x)) + h(p(x)) + \cdots + h(p(x)) \end{equation}$
$\begin{equation} = n \times h(p(x)) \end{equation}$
びっくり度の要請 （ $h$ は $p$ のみの関数）より、この式は特定の事象についてだけではなく一般的に成り立ちます。つまり、以下が言えます。
$\begin{equation} h(p^{n}) = n \times h(p) \end{equation}$

$m$ を自然数とします。 $p \to p^{1/m} ( 0 \lt p^{1/m} \lt 1 )$ で置き換えれば、以下が成り立ちます。
$\begin{equation} h(p^{n/m}) = n \times h(p^{1/m}) = n \times h( p^ {m/m} )/m = n/m \times h(p) \end{equation}$

これより、任意の正の有理数 $x$ で
$\begin{equation} h (p^{x}) = x \times h(p) \end{equation}$
が成り立ちます。これは、びっくり度の要請 (連続性)より、任意の正の実数でも成り立ちます。 $q=p^{x}$ と置き、両辺を $\ln q = \ln p^{x}$ で割れば、
$\begin{equation} h(q)/ \ln q = x \times h(p) / \ln p^{x} = h(p)/ \ln p \end{equation}$
となり、 $0 \lt q \lt 1$ を満たす任意の実数 $q$ について $h(q) / \ln q$ は一定となります。これより、自己情報量は以下のように導出できます。
$h(q) = - C \times \ln q$
ただし、この式は $q=1$ でも自明に成り立ち、 びっくり度の要請 （ $h$ は $p$ の単調減少関数）より、 $C$ は任意の正の定数です。

このように任意性が残ることは、 $\log$ の底の値が $2$ であろうと $e$ であろうと本質的でないことと無矛盾です。

導出のおさらい

導出のポイントは以下です。

加法性の要請とびっくり度の要請 （ $h$ は確率 $p$ のみに依存）によって、任意の事象について $h$ が $\ln p$ に比例することが言える
びっくり度の要請 （ $h$ は、確率 $p$ の単調減少関数）によって、比例定数が負であることが言える
びっくり度の要請 （ $h$ の連続性）によって、 $h$ の定義域を離散から連続に拡張できる（ただし、証明の方法によっては、この要請を使わずに拡張することも可能かもしれません）

まとめ

結局、導出から次のように言えます。

自己情報量 $h(p) = - \ln p$ は、事象の起こりにくさ「びっくり度」のみに依存する「量」である

これが本質的と言えそうです。

おわりに

自己情報量の確率的平均が、平均情報量（エントロピー） $\begin{equation} H(p) \end{equation}$ です。
$\begin{equation} H(p) = - \sum_i p_i \ln p_i \end{equation}$
注意すべき点は、平均情報量が確率分布を引数とすることです。
ここでは触れていませんが、確率変数の値を伝えるときに最短の必要な符号長の平均長さが、平均情報量と一致するという性質があり、より「情報量」と命名される納得感があります。