\begin{align*} ∑x=0^1 p(x|μ) = p(0|μ) + p(1|μ) = μ + (1 - μ) = 1 \end{align*}
\begin{align*} E[x] = ∑x=0^1 x p(x|μ) = 0 + p(1|μ) = μ \end{align*}
\begin{align*}
var[x] = & ∑x=0^1 (x - E[x])^2 p(x|μ)
= & ∑x=0^1 (x - μ)^2 p(x|μ) \
= & (-μ)^2 p(0|μ) + (1 - μ)^2 p(1|μ) \
= & (-μ)^2 (1 - μ) + (1 - μ)^2 μ \
= & μ^2 - μ^3 + μ - 2 μ^2 + μ^3 \
= & μ^2 + μ - 2 μ^2 \
= & μ (1 - μ) \
\end{align*}
\begin{align*}
H[x] = & - ∑x=0^1 p(x|μ) ln p(x|μ)
= & - p(0|μ) ln p(0|μ) - p(1|μ) ln p(1|μ) \
= & - (1 - μ) ln (1 - μ) - μ ln μ \
= & - μ ln μ - (1 - μ) ln (1 - μ) \
\end{align*}
\begin{align*}
& ∑x ∈ \{-1, 1\} p(x|μ)
= & ∑x ∈ \{-1, 1\} \l(\f{1 - μ}{2}\r)(1 - x)/2
\l(\f{1 + μ}{2}\r)(1 + x)/2 \
= & \l(\f{1 - μ}{2}\r)1 \l(\f{1 + μ}{2}\r)0
- \l(\f{1 - μ}{2}\r)0 \l(\f{1 + μ}{2}\r)1
= & \f{1 - μ}{2} + \f{1 + μ}{2}
= & 1 \
\end{align*}
\begin{align*}
E[x] = & ∑x ∈ \{-1, 1\} x p(x|μ)
= & ∑x ∈ \{-1, 1\} x \l(\f{1 - μ}{2}\r)(1 - x)/2
\l(\f{1 + μ}{2}\r)(1 + x)/2 \
= & - \l(\f{1 - μ}{2}\r)1 \l(\f{1 + μ}{2}\r)0
- \l(\f{1 - μ}{2}\r)0 \l(\f{1 + μ}{2}\r)1
= & - \f{1 - μ}{2} + \f{1 + μ}{2}
= & μ \
\end{align*}
\begin{align*}
var[x] = & ∑x ∈ \{-1, 1\} (x - E[x])^2 p(x|μ)
= & ∑x ∈ \{-1, 1\} (x - μ)^2 p(x|μ) \
= & ∑x ∈ \{-1, 1\} (x - μ)^2
\l(\f{1 - μ}{2}\r)(1 - x)/2
\l(\f{1 + μ}{2}\r)(1 + x)/2 \
= & (-1 - μ)^2 \l(\f{1 - μ}{2}\r)1
\l(\f{1 + μ}{2}\r)0
- ( 1 - μ)^2 \l(\f{1 - μ}{2}\r)0
\l(\f{1 + μ}{2}\r)1
= & (1 + 2 μ + μ^2) \f{1 - μ}{2}
- (1 - 2 μ + μ^2) \f{1 + μ}{2}
= & \l(\f{1 - μ}{2} + \f{1 + μ}{2}\r)
- 2 μ \l(\f{1 - μ}{2} - \f{1 + μ}{2}\r)
- μ^2 \l(\f{1 - μ}{2} + \f{1 + μ}{2}\r)
= & 1 + 2 μ (-μ) + μ^2
= & 1 - μ^2 \
\end{align*}
\begin{align*}
H[x] = & - ∑x ∈ \{-1, 1\} p(x|μ) ln p(x|μ)
= & \l(\f{1 - μ}{2}\r)1 \l(\f{1 + μ}{2}\r)0
ln \l(\f{1 - μ}{2}\r)1 \l(\f{1 + μ}{2}\r)0
- \l(\f{1 - μ}{2}\r)0 \l(\f{1 + μ}{2}\r)1
ln \l(\f{1 - μ}{2}\r)0 \l(\f{1 + μ}{2}\r)1
= & \f{1 - μ}{2} ln \f{1 - μ}{2}
- \f{1 + μ}{2} ln \f{1 + μ}{2}
= & \f{1 - μ}{2} [ln (1 - μ) - ln 2]
- \f{1 + μ}{2} [ln (1 + μ) - ln 2]
= & \f{1 - μ}{2} ln (1 - μ)
- \f{1 + μ}{2} ln (1 + μ) - ln 2
\end{align*}
二項係数の定義(2.10)
\begin{align*}
\binom{N}{m} = \f{N!}{(N-m)!m!}
\end{align*}
より
\begin{align*}
& \binom{N}{m} + \binom{N}{m-1}
= & \f{N!}{(N-m)!m!} + \f{N!}{(N-m+1)!(m-1)!} \
= & \f{N!(N-m+1)}{(N-m+1)!m!} + \f{N!m}{(N-m+1)!m!} \
= & \f{N!(N+1)}{(N-m+1)!m!} \
= & \f{(N+1)!}{((N+1)-m)!m!} \
= & \binom{N+1}{m} \
\end{align*}
Nに関する数学的帰納法で証明する。
N=0の場合、両辺とも1となり成り立つ。
次に、Nについて成り立つという仮定のもとでN+1について成り立つことを示す。
\begin{align*}
& ∑m=0N+1 \binom{N+1}{m} x^m
= & ∑m=0N+1 \l\{ \binom{N}{m} + \binom{N}{m-1} \r\} x^m \
= & ∑m=0N+1 \binom{N}{m} x^m
- ∑m=0N+1 \binom{N}{m-1} x^m
= & ∑m=0^N \binom{N}{m} x^m
- ∑m=0^N \binom{N}{m} xm+1
= & ∑m=0^N \binom{N}{m} x^m
- x ∑m=0^N \binom{N}{m} x^m
= & (1+x)^N + x (1+x)^N
= & (1+x) (1+x)^N \
= & (1+x)N+1 \
\end{align*}
よって、0以上の任意のNについて所要の定理が成り立つ。
\begin{align*}
& ∑m=0^N \binom{N}{m} μ^m (1-μ)N-m
= & (1-μ)^N ∑m=0^N \binom{N}{m} μ^m (1-μ)-m \
= & (1-μ)^N ∑m=0^N \binom{N}{m} \l(\f{μ}{1-μ}\r)^m \
= & (1-μ)^N \l(1 + \f{μ}{1-μ}\r)^N \
= & 1 \
\end{align*}
二項分布が正規化されていることを表す式(2.264)の両辺を\(μ\)で微分する。
\begin{align*}
∑m=0^N \binom{N}{m} μ^m (1-μ)N-m = & 1
\p{}{μ} ∑m=0^N \binom{N}{m} μ^m (1-μ)N-m = & \p{}{μ} 1 \
∑m=0^N \binom{N}{m} \p{}{μ} \l\{ μ^m (1-μ)N-m \r\} = & 0 \
∑m=0^N \binom{N}{m}
\l\{ \p{}{μ} μ^m (1-μ)N-m + μ^m \p{}{μ} (1-μ)N-m \r\} = & 0 \
∑m=0^N \binom{N}{m}
\l\{ m μm-1 (1-μ)N-m - μ^m (N-m) (1-μ)N-m-1 \r\} = & 0 \
∑m=0^N \binom{N}{m}
μ^m (1-μ)N-m \l\{ m μ-1 - (N-m) (1-μ)-1 \r\} = & 0 \
∑m=0^N \binom{N}{m}
μ^m (1-μ)N-m \l\{ m (1-μ) - (N-m) μ \r\} = & 0 \
∑m=0^N \binom{N}{m}
μ^m (1-μ)N-m \l\{ m - N μ \r\} = & 0 \
\E[m] - N μ = & 0 \
\E[m] = & N μ \
\end{align*}
二項分布が正規化されていることを表す式(2.264)の両辺を\(μ\)で2階微分する。
\begin{align*}
∑m=0^N \binom{N}{m} μ^m (1-μ)N-m = & 1
∑m=0^N \binom{N}{m} \f{∂^2}{∂ μ^2} μ^m (1-μ)N-m = & 0 \
∑m=0^N \binom{N}{m}
\l\{ m (m-1) μm-2 (1-μ)N-m
- 2 m (N-m) μm-1 (1-μ)N-m-1
- (N-m) (N-m-1) μ^m (1-μ)N-m-2 \r\} = & 0
∑m=0^N \binom{N}{m} μ^m (1-μ)N-m \l\{ m (m-1) μ-2
- 2 m (N-m) μ-1 (1-μ)-1
- (N-m) (N-m-1) (1-μ)-2 \r\} = & 0
∑m=0^N \Bin(m|N,μ) \l\{ m (m-1) (1-μ)^2
- 2 m (N-m) μ (1-μ)
- (N-m) (N-m-1) μ^2 \r\} = & 0
∑m=0^N \Bin(m|N,μ) \l\{ (1-μ)^2 m^2 - (1-μ)^2 m
- 2μ(1-μ) m^2 - 2Nμ(1-μ) m
- μ^2 m^2 - (2N-1)μ^2 m + N(N-1)μ^2 \r\} = & 0
∑m=0^N \Bin(m|N,μ) \l[ \{ (1-μ)^2 + 2μ(1-μ) + μ^2 \} m^2
- \{ (1-μ)^2 + 2Nμ(1-μ) + (2N-1)μ^2 \} m
- N(N-1)μ^2 \r] = & 0
∑m=0^N \Bin(m|N,μ) \l\{ ( 1 - 2μ + μ^2 + 2μ - 2μ^2 + μ^2 ) m^2
- ( 1 - 2μ + μ^2 + 2Nμ - 2Nμ^2 + 2Nμ^2 - μ^2 ) m
- N(N-1)μ^2 \r\} = & 0
∑m=0^N \Bin(m|N,μ)
\l\{ m^2 - (1 + 2μ(N-1)) m + N(N-1)μ^2 \r\} = & 0
∑m=0^N \Bin(m|N,μ)
\l\{ (m - Nμ)^2 + (2μ-1)m - Nμ^2 \r\} = & 0 \
∑m=0^N \Bin(m|N,μ)
\l\{ (m - \E[m])^2 + (2μ-1)m - Nμ^2 \r\} = & 0 \
var[m] + (2μ-1)\E[m] - Nμ^2 = & 0 \
var[m] + (2μ-1)Nμ - Nμ^2 = & 0 \
var[m] = & - (2μ-1)Nμ + Nμ^2 \
= & Nμ(1-μ) \
\end{align*}
ガンマ関数の定義
\begin{align*}
Γ(a) = & ∫_0^∞ exp(-x) xa-1 dx
\end{align*}
より
\begin{align*}
Γ(a)Γ(b) = & ∫_0^∞ exp(-x) xa-1 dx ∫_0^∞ exp(-y) yb-1 dy \
= & ∫_0^∞ ∫_0^∞ exp(-x-y) xa-1 yb-1 dy dx \
\end{align*}
\(t = y + x\)とおく。
\begin{align*}
Γ(a)Γ(b) = & ∫_0^∞ ∫_x^∞ exp(-t) xa-1 (t-x)b-1 dt dx \
\end{align*}
積分範囲に注意して積分順序を変更する。
\begin{align*}
Γ(a)Γ(b) = & ∫_0^∞ ∫_0^t exp(-t) xa-1 (t-x)b-1 dx dt \
\end{align*}
\(x = tμ\)とおく。
\begin{align*}
Γ(a)Γ(b) = & ∫_0^∞ ∫_0^1 exp(-t) (tμ)a-1 (t-tμ)b-1 t dμ dt \
= & ∫_0^∞ exp(-t) t(a+b)-1 dt ∫_0^1 μa-1 (1-μ)b-1 dμ \
= & Γ(a+b) ∫_0^1 μa-1 (1-μ)b-1 dμ \
∫_0^1 μa-1 (1-μ)b-1 dμ = & \f{Γ(a)Γ(b)}{Γ(a+b)} \
\end{align*}
\begin{align*}
\E[μ] = & ∫_0^1 μ Β(μ|a,b) dμ
= & \f{Γ(a+b)}{Γ(a)Γ(b)} ∫_0^1 μ μa-1 (1-μ)b-1 dμ \
= & \f{Γ(a+b)}{Γ(a)Γ(b)} ∫_0^1 μ^a (1-μ)b-1 dμ \
= & \f{Γ(a+b)}{Γ(a)Γ(b)} \f{Γ(a+1)Γ(b)}{Γ(a+b+1)} \
\end{align*}
\(Γ(x+1)=xΓ(x)\)を用いて
\begin{align*}
\E[μ] = & \f{Γ(a+b)}{Γ(a)Γ(b)} \f{aΓ(a)Γ(b)}{(a+b)Γ(a+b)} \
= & \f{a}{a+b} \
\end{align*}
\begin{align*}
var[μ] = & \E[(μ-\E[μ])^2]
= & \E[μ^2] - \E[μ]^2 \
= & \f{Γ(a+b)}{Γ(a)Γ(b)} ∫_0^1 μ^2 μa-1 (1-μ)b-1 dμ
- \E[μ]^2
= & \f{Γ(a+b)}{Γ(a)Γ(b)} ∫_0^1 μa+1 (1-μ)b-1 dμ
- \E[μ]^2
= & \f{Γ(a+b)}{Γ(a)Γ(b)} \f{Γ(a+2)Γ(b)}{Γ(a+b+2)}
- \E[μ]^2
= & \f{Γ(a+b)}{Γ(a)Γ(b)} \f{(a+1)aΓ(a)Γ(b)}{(a+b+1)(a+b)Γ(a+b)}
- \E[μ]^2
= & \f{(a+1)a}{(a+b+1)(a+b)} - \f{a^2}{(a+b)^2}
= & \f{(a+1)a(a+b) - a^2(a+b+1)}{(a+b)^2(a+b+1)} \
= & \f{a^3 + a^2b + a^2 + ab - a^3 - a^2b - a^2}{(a+b)^2(a+b+1)} \
= & \f{ab}{(a+b)^2(a+b+1)} \
\end{align*}
\begin{align*}
\p{}{μ} Β(μ|a,b) = & 0
\f{Γ(a+b)}{Γ(a)Γ(b)} \p{}{μ} [μa-1 (1-μ)b-1] = & 0 \
\p{}{μ} [μa-1 (1-μ)b-1] = & 0 \
(a-1)μa-2(1-μ)b-1 - (b-1)μa-1(1-μ)b-2 = & 0 \
(a-1)(1-μ) - (b-1)μ = & 0 \
(a-1) - (a-1)μ - (b-1)μ = & 0 \
μ = & \f{a-1}{a+b-2} \
\end{align*}
ディリクレ分布 p.75 (2.38)
\begin{align*}
\Dir(\μ|\α) = & \f{Γ(α_0)}{Γ(α_1) \cdots Γ(α_K)} ∏k=1^K μ_kα_k-1
\end{align*}
ただし以下の制約がある。
\begin{align*}
0 ≦ μ_i ≦ 1 (i = 1,…,K)
∑k=1^M μ_k = 1 \
\end{align*}
\(M-1\)変数の場合に正規化されているとの仮定の下で、 \(M\)変数の場合に正規化されていることを証明する。
\(M\)変数のディリクレ分布から、
\(∑k=1^M μ_k = 1\)の制約を用いて\(μ_M\)を除去すると、
以下の\(M-1\)変数の確率分布が得られる。
\begin{align*}
p_M(μ_1,…,μM-1)
= & C_M ∏k=1M-1 μ_kα_k-1 \l( 1 - ∑j=1M-1 μ_j \r)α_M-1
\end{align*}
ここで
\begin{align*}
C_M = \f{Γ(α_1 + \cdots + α_M)}{Γ(α_1) \cdots Γ(α_M)} \
\end{align*}
ただし以下の制約がある。
\begin{align*}
0 ≦ μ_i ≦ 1 (i = 1,…,M-1) \
∑k=1M-1 μ_k ≦ 1 \
\end{align*}
確率分布\(p_M\)を変数\(μM-1\)で積分すると、\(M-2\)変数の周辺分布が得られる。
\(μM-1\)の積分範囲は、上記の制約により、0から\(1 - ∑j=1M-2 μ_j\)までとなる。
\begin{align*}
& pM-1(μ_1,…,μM-2)
= & ∫_01 - ∑_{j=1M-2 μ_j} p_M(μ_1,…,μM-1) dμM-1 \
= & C_M \l[ ∏k=1M-2 μ_kα_k-1 \r]
∫_01 - ∑_{j=1M-2 μ_j} μM-1α_{M-1-1}
\l( 1 - ∑j=1M-1 μ_j \r)α_M-1 dμM-1 \
\end{align*}
ここで次の変数変換を行う。
\begin{align*}
μM-1 = & t \l( 1 - ∑j=1M-2 μ_j \r) \
\end{align*}
\begin{align*}
1 - ∑j=1M-1 μ_j
= & 1 - ∑j=1M-2 μ_j - μM-1
= & \l( 1 - ∑j=1M-2 μ_j \r) - t \l( 1 - ∑j=1M-2 μ_j \r) \
= & (1 - t) \l( 1 - ∑j=1M-2 μ_j \r) \
\end{align*}
すると
\begin{align*}
& pM-1(μ_1,…,μM-2) \
= & C_M \l[ ∏k=1M-2 μ_kα_k-1 \r]
∫_0^1 \l\{ t \l( 1 - ∑j=1M-2 μ_j \r) \r\}α_{M-1-1}
\l\{ (1 - t) \l( 1 - ∑j=1M-2 μ_j \r) \r\}α_M-1
\l( 1 - ∑j=1M-2 μ_j \r) dt \
= & C_M \l[ ∏k=1M-2 μ_kα_k-1 \r]
\l( 1 - ∑j=1M-2 μ_j \r)α_{M-1+α_M-1}
∫_0^1 tα_{M-1-1} (1 - t)α_M-1 dt \
= & C_M \l[ ∏k=1M-2 μ_kα_k-1 \r]
\l( 1 - ∑j=1M-2 μ_j \r)α_{M-1+α_M-1}
\f{Γ(αM-1)Γ(α_M)}{Γ(αM-1+α_M)} \
\end{align*}
こうして得られた周辺分布\(pM-1(μ_1,…,μM-2)\)は、
\(\α’=(α_1,…,αM-2,αM-1+α_M)^T\)をパラメータとする
\(M-1\)変数のディリクレ分布から変数を一つ除去した確率分布の形をしている。
一方、同じパラメータ\(\α’=(α_1,…,αM-2,αM-1+α_M)^T\)を持つ
\(M-1\)変数のディリクレ分布から、\(∑k=1M-1 μ_k = 1\)の制約を用いて変数を一つ除去すると、
以下の確率分布が得られる。
\begin{align*}
p’M-1(μ_1,…,μM-2)
= & C’M-1 ∏k=1M-2 μ_kα_k-1
\l( 1 - ∑j=1M-2 μ_j \r)α_{M-1+α_M-1}
\end{align*}
ただし
\begin{align*}
C’M-1 = & \f{Γ(α_1 + \cdots + αM-2 + (αM-1+α_M))}
{Γ(α_1) \cdots Γ(αM-2) Γ(αM-1+α_M)} \
\end{align*}
帰納法の仮定により、この確率分布は正規化されている。
上記の\(pM-1\)の定数部分は
\begin{align*}
& C_M \f{Γ(αM-1) Γ(α_M)}{Γ(αM-1 + α_M)}
= & \f{Γ(α_1 + \cdots + α_M)}{Γ(α_1) \cdots Γ(α_M)}
\f{Γ(αM-1) Γ(α_M)}{Γ(αM-1 + α_M)} \
= & \f{Γ(α_1 + \cdots + αM-2 + (αM-1 + α_M))}
{Γ(α_1) \cdots Γ(αM-2) Γ(αM-1 + α_M)} \
= & C’M-1
\end{align*}
よって、\(M\)変数のディリクレ分布は正規化されている。