Skip to content

Latest commit

 

History

History
365 lines (341 loc) · 15.1 KB

ex_02_01-10.org

File metadata and controls

365 lines (341 loc) · 15.1 KB

PRML 第2章 演習 2.1-2.10

PRML 第2章 演習 2.1-2.10

2.1 [www] ベルヌーイ分布が正規化されていること、平均、分散、エントロピー

正規化されていること

\begin{align*} ∑x=0^1 p(x|μ) = p(0|μ) + p(1|μ) = μ + (1 - μ) = 1 \end{align*}

平均

\begin{align*} E[x] = ∑x=0^1 x p(x|μ) = 0 + p(1|μ) = μ \end{align*}

分散

\begin{align*} var[x] = & ∑x=0^1 (x - E[x])^2 p(x|μ)
= & ∑x=0^1 (x - μ)^2 p(x|μ) \ = & (-μ)^2 p(0|μ) + (1 - μ)^2 p(1|μ) \ = & (-μ)^2 (1 - μ) + (1 - μ)^2 μ \ = & μ^2 - μ^3 + μ - 2 μ^2 + μ^3 \ = & μ^2 + μ - 2 μ^2 \ = & μ (1 - μ) \ \end{align*}

エントロピー

\begin{align*} H[x] = & - ∑x=0^1 p(x|μ) ln p(x|μ)
= & - p(0|μ) ln p(0|μ) - p(1|μ) ln p(1|μ) \ = & - (1 - μ) ln (1 - μ) - μ ln μ \ = & - μ ln μ - (1 - μ) ln (1 - μ) \ \end{align*}

2.2 ベルヌーイ分布の\(x ∈ \{-1, 1\}\)を用いた表現

正規化されていること

\begin{align*} & ∑x ∈ \{-1, 1\} p(x|μ)
= & ∑x ∈ \{-1, 1\} \l(\f{1 - μ}{2}\r)(1 - x)/2 \l(\f{1 + μ}{2}\r)(1 + x)/2 \ = & \l(\f{1 - μ}{2}\r)1 \l(\f{1 + μ}{2}\r)0

  • \l(\f{1 - μ}{2}\r)0 \l(\f{1 + μ}{2}\r)1

= & \f{1 - μ}{2} + \f{1 + μ}{2}
= & 1 \ \end{align*}

平均

\begin{align*} E[x] = & ∑x ∈ \{-1, 1\} x p(x|μ)
= & ∑x ∈ \{-1, 1\} x \l(\f{1 - μ}{2}\r)(1 - x)/2 \l(\f{1 + μ}{2}\r)(1 + x)/2 \ = & - \l(\f{1 - μ}{2}\r)1 \l(\f{1 + μ}{2}\r)0

  • \l(\f{1 - μ}{2}\r)0 \l(\f{1 + μ}{2}\r)1

= & - \f{1 - μ}{2} + \f{1 + μ}{2}
= & μ \ \end{align*}

分散

\begin{align*} var[x] = & ∑x ∈ \{-1, 1\} (x - E[x])^2 p(x|μ)
= & ∑x ∈ \{-1, 1\} (x - μ)^2 p(x|μ) \ = & ∑x ∈ \{-1, 1\} (x - μ)^2 \l(\f{1 - μ}{2}\r)(1 - x)/2 \l(\f{1 + μ}{2}\r)(1 + x)/2 \ = & (-1 - μ)^2 \l(\f{1 - μ}{2}\r)1 \l(\f{1 + μ}{2}\r)0

  • ( 1 - μ)^2 \l(\f{1 - μ}{2}\r)0 \l(\f{1 + μ}{2}\r)1

= & (1 + 2 μ + μ^2) \f{1 - μ}{2}

  • (1 - 2 μ + μ^2) \f{1 + μ}{2}

= & \l(\f{1 - μ}{2} + \f{1 + μ}{2}\r)

  • 2 μ \l(\f{1 - μ}{2} - \f{1 + μ}{2}\r)
  • μ^2 \l(\f{1 - μ}{2} + \f{1 + μ}{2}\r)

= & 1 + 2 μ (-μ) + μ^2
= & 1 - μ^2 \ \end{align*}

エントロピー

\begin{align*} H[x] = & - ∑x ∈ \{-1, 1\} p(x|μ) ln p(x|μ)
= & \l(\f{1 - μ}{2}\r)1 \l(\f{1 + μ}{2}\r)0 ln \l(\f{1 - μ}{2}\r)1 \l(\f{1 + μ}{2}\r)0

  • \l(\f{1 - μ}{2}\r)0 \l(\f{1 + μ}{2}\r)1 ln \l(\f{1 - μ}{2}\r)0 \l(\f{1 + μ}{2}\r)1

= & \f{1 - μ}{2} ln \f{1 - μ}{2}

  • \f{1 + μ}{2} ln \f{1 + μ}{2}

= & \f{1 - μ}{2} [ln (1 - μ) - ln 2]

  • \f{1 + μ}{2} [ln (1 + μ) - ln 2]

= & \f{1 - μ}{2} ln (1 - μ)

  • \f{1 + μ}{2} ln (1 + μ) - ln 2

\end{align*}

2.3 [www] 二項分布が正規化されていることの証明

\(\binom{N}{m} + \binom{N}{m-1} = \binom{N+1}{m}\) の証明

二項係数の定義(2.10) \begin{align*} \binom{N}{m} = \f{N!}{(N-m)!m!} \end{align*} より \begin{align*} & \binom{N}{m} + \binom{N}{m-1}
= & \f{N!}{(N-m)!m!} + \f{N!}{(N-m+1)!(m-1)!} \ = & \f{N!(N-m+1)}{(N-m+1)!m!} + \f{N!m}{(N-m+1)!m!} \ = & \f{N!(N+1)}{(N-m+1)!m!} \ = & \f{(N+1)!}{((N+1)-m)!m!} \ = & \binom{N+1}{m} \ \end{align*}

二項定理 \((1+x)^N = ∑m=0^N \binom{N}{m} x^m\) の証明

Nに関する数学的帰納法で証明する。 N=0の場合、両辺とも1となり成り立つ。 次に、Nについて成り立つという仮定のもとでN+1について成り立つことを示す。 \begin{align*} & ∑m=0N+1 \binom{N+1}{m} x^m
= & ∑m=0N+1 \l\{ \binom{N}{m} + \binom{N}{m-1} \r\} x^m \ = & ∑m=0N+1 \binom{N}{m} x^m

  • m=0N+1 \binom{N}{m-1} x^m

= & ∑m=0^N \binom{N}{m} x^m

  • m=0^N \binom{N}{m} xm+1

= & ∑m=0^N \binom{N}{m} x^m

  • x ∑m=0^N \binom{N}{m} x^m

= & (1+x)^N + x (1+x)^N
= & (1+x) (1+x)^N \ = & (1+x)N+1 \ \end{align*} よって、0以上の任意のNについて所要の定理が成り立つ。

\(∑m=0^N \binom{N}{m} μ^m (1-μ)N-m = 1\) の証明

\begin{align*} & ∑m=0^N \binom{N}{m} μ^m (1-μ)N-m
= & (1-μ)^N ∑m=0^N \binom{N}{m} μ^m (1-μ)-m \ = & (1-μ)^N ∑m=0^N \binom{N}{m} \l(\f{μ}{1-μ}\r)^m \ = & (1-μ)^N \l(1 + \f{μ}{1-μ}\r)^N \ = & 1 \ \end{align*}

2.4 二項分布の平均、分散

平均

二項分布が正規化されていることを表す式(2.264)の両辺を\(μ\)で微分する。 \begin{align*} ∑m=0^N \binom{N}{m} μ^m (1-μ)N-m = & 1
\p{}{μ} ∑m=0^N \binom{N}{m} μ^m (1-μ)N-m = & \p{}{μ} 1 \ ∑m=0^N \binom{N}{m} \p{}{μ} \l\{ μ^m (1-μ)N-m \r\} = & 0 \ ∑m=0^N \binom{N}{m} \l\{ \p{}{μ} μ^m (1-μ)N-m + μ^m \p{}{μ} (1-μ)N-m \r\} = & 0 \ ∑m=0^N \binom{N}{m} \l\{ m μm-1 (1-μ)N-m - μ^m (N-m) (1-μ)N-m-1 \r\} = & 0 \ ∑m=0^N \binom{N}{m} μ^m (1-μ)N-m \l\{ m μ-1 - (N-m) (1-μ)-1 \r\} = & 0 \ ∑m=0^N \binom{N}{m} μ^m (1-μ)N-m \l\{ m (1-μ) - (N-m) μ \r\} = & 0 \ ∑m=0^N \binom{N}{m} μ^m (1-μ)N-m \l\{ m - N μ \r\} = & 0 \ \E[m] - N μ = & 0 \ \E[m] = & N μ \ \end{align*}

分散

二項分布が正規化されていることを表す式(2.264)の両辺を\(μ\)で2階微分する。 \begin{align*} ∑m=0^N \binom{N}{m} μ^m (1-μ)N-m = & 1
m=0^N \binom{N}{m} \f{∂^2}{∂ μ^2} μ^m (1-μ)N-m = & 0 \ ∑m=0^N \binom{N}{m} \l\{ m (m-1) μm-2 (1-μ)N-m

  • 2 m (N-m) μm-1 (1-μ)N-m-1
  • (N-m) (N-m-1) μ^m (1-μ)N-m-2 \r\} = & 0

m=0^N \binom{N}{m} μ^m (1-μ)N-m \l\{ m (m-1) μ-2

  • 2 m (N-m) μ-1 (1-μ)-1
  • (N-m) (N-m-1) (1-μ)-2 \r\} = & 0

m=0^N \Bin(m|N,μ) \l\{ m (m-1) (1-μ)^2

  • 2 m (N-m) μ (1-μ)
  • (N-m) (N-m-1) μ^2 \r\} = & 0

m=0^N \Bin(m|N,μ) \l\{ (1-μ)^2 m^2 - (1-μ)^2 m

  • 2μ(1-μ) m^2 - 2Nμ(1-μ) m
  • μ^2 m^2 - (2N-1)μ^2 m + N(N-1)μ^2 \r\} = & 0

m=0^N \Bin(m|N,μ) \l[ \{ (1-μ)^2 + 2μ(1-μ) + μ^2 \} m^2

  • \{ (1-μ)^2 + 2Nμ(1-μ) + (2N-1)μ^2 \} m
  • N(N-1)μ^2 \r] = & 0

m=0^N \Bin(m|N,μ) \l\{ ( 1 - 2μ + μ^2 + 2μ - 2μ^2 + μ^2 ) m^2

  • ( 1 - 2μ + μ^2 + 2Nμ - 2Nμ^2 + 2Nμ^2 - μ^2 ) m
  • N(N-1)μ^2 \r\} = & 0

m=0^N \Bin(m|N,μ) \l\{ m^2 - (1 + 2μ(N-1)) m + N(N-1)μ^2 \r\} = & 0
m=0^N \Bin(m|N,μ) \l\{ (m - Nμ)^2 + (2μ-1)m - Nμ^2 \r\} = & 0 \ ∑m=0^N \Bin(m|N,μ) \l\{ (m - \E[m])^2 + (2μ-1)m - Nμ^2 \r\} = & 0 \ var[m] + (2μ-1)\E[m] - Nμ^2 = & 0 \ var[m] + (2μ-1)Nμ - Nμ^2 = & 0 \ var[m] = & - (2μ-1)Nμ + Nμ^2 \ = & Nμ(1-μ) \ \end{align*}

2.5 [www] ベータ分布が正規化されていることの証明

ガンマ関数の定義 \begin{align*} Γ(a) = & ∫_0^∞ exp(-x) xa-1 dx
\end{align*} より \begin{align*} Γ(a)Γ(b) = & ∫_0^∞ exp(-x) xa-1 dx ∫_0^∞ exp(-y) yb-1 dy \ = & ∫_0^∞ ∫_0^∞ exp(-x-y) xa-1 yb-1 dy dx \ \end{align*} \(t = y + x\)とおく。 \begin{align*} Γ(a)Γ(b) = & ∫_0^∞ ∫_x^∞ exp(-t) xa-1 (t-x)b-1 dt dx \ \end{align*} 積分範囲に注意して積分順序を変更する。 \begin{align*} Γ(a)Γ(b) = & ∫_0^∞ ∫_0^t exp(-t) xa-1 (t-x)b-1 dx dt \ \end{align*} \(x = tμ\)とおく。 \begin{align*} Γ(a)Γ(b) = & ∫_0^∞ ∫_0^1 exp(-t) (tμ)a-1 (t-tμ)b-1 t dμ dt \ = & ∫_0^∞ exp(-t) t(a+b)-1 dt ∫_0^1 μa-1 (1-μ)b-1 dμ \ = & Γ(a+b) ∫_0^1 μa-1 (1-μ)b-1 dμ \ ∫_0^1 μa-1 (1-μ)b-1 dμ = & \f{Γ(a)Γ(b)}{Γ(a+b)} \ \end{align*}

2.6 ベータ分布の平均、分散、モード

平均

\begin{align*} \E[μ] = & ∫_0^1 μ Β(μ|a,b) dμ
= & \f{Γ(a+b)}{Γ(a)Γ(b)} ∫_0^1 μ μa-1 (1-μ)b-1 dμ \ = & \f{Γ(a+b)}{Γ(a)Γ(b)} ∫_0^1 μ^a (1-μ)b-1 dμ \ = & \f{Γ(a+b)}{Γ(a)Γ(b)} \f{Γ(a+1)Γ(b)}{Γ(a+b+1)} \ \end{align*} \(Γ(x+1)=xΓ(x)\)を用いて \begin{align*} \E[μ] = & \f{Γ(a+b)}{Γ(a)Γ(b)} \f{aΓ(a)Γ(b)}{(a+b)Γ(a+b)} \ = & \f{a}{a+b} \ \end{align*}

分散

\begin{align*} var[μ] = & \E[(μ-\E[μ])^2]
= & \E[μ^2] - \E[μ]^2 \ = & \f{Γ(a+b)}{Γ(a)Γ(b)} ∫_0^1 μ^2 μa-1 (1-μ)b-1

  • \E[μ]^2

= & \f{Γ(a+b)}{Γ(a)Γ(b)} ∫_0^1 μa+1 (1-μ)b-1

  • \E[μ]^2

= & \f{Γ(a+b)}{Γ(a)Γ(b)} \f{Γ(a+2)Γ(b)}{Γ(a+b+2)}

  • \E[μ]^2

= & \f{Γ(a+b)}{Γ(a)Γ(b)} \f{(a+1)aΓ(a)Γ(b)}{(a+b+1)(a+b)Γ(a+b)}

  • \E[μ]^2

= & \f{(a+1)a}{(a+b+1)(a+b)} - \f{a^2}{(a+b)^2}
= & \f{(a+1)a(a+b) - a^2(a+b+1)}{(a+b)^2(a+b+1)} \ = & \f{a^3 + a^2b + a^2 + ab - a^3 - a^2b - a^2}{(a+b)^2(a+b+1)} \ = & \f{ab}{(a+b)^2(a+b+1)} \ \end{align*}

モード

\begin{align*} \p{}{μ} Β(μ|a,b) = & 0
\f{Γ(a+b)}{Γ(a)Γ(b)} \p{}{μ} [μa-1 (1-μ)b-1] = & 0 \ \p{}{μ} [μa-1 (1-μ)b-1] = & 0 \ (a-1)μa-2(1-μ)b-1 - (b-1)μa-1(1-μ)b-2 = & 0 \ (a-1)(1-μ) - (b-1)μ = & 0 \ (a-1) - (a-1)μ - (b-1)μ = & 0 \ μ = & \f{a-1}{a+b-2} \ \end{align*}

2.7 事後平均が事前平均と最尤推定量の間の値になることの証明

2.8 周辺分布の平均と分散

2.9 [www] ディリクレ分布が正規化されていることの証明

ディリクレ分布 p.75 (2.38) \begin{align*} \Dir(\μ|\α) = & \f{Γ(α_0)}{Γ(α_1) \cdots Γ(α_K)} ∏k=1^K μ_kα_k-1 \end{align*} ただし以下の制約がある。 \begin{align*} 0 ≦ μ_i ≦ 1 (i = 1,…,K)
k=1^M μ_k = 1 \ \end{align*}

\(M-1\)変数の場合に正規化されているとの仮定の下で、 \(M\)変数の場合に正規化されていることを証明する。

\(M\)変数のディリクレ分布から、 \(∑k=1^M μ_k = 1\)の制約を用いて\(μ_M\)を除去すると、 以下の\(M-1\)変数の確率分布が得られる。 \begin{align*} p_M(μ_1,…,μM-1) = & C_M ∏k=1M-1 μ_kα_k-1 \l( 1 - ∑j=1M-1 μ_j \r)α_M-1
\end{align*} ここで \begin{align*} C_M = \f{Γ(α_1 + \cdots + α_M)}{Γ(α_1) \cdots Γ(α_M)} \ \end{align*} ただし以下の制約がある。 \begin{align*} 0 ≦ μ_i ≦ 1 (i = 1,…,M-1) \ ∑k=1M-1 μ_k ≦ 1 \ \end{align*}

確率分布\(p_M\)を変数\(μM-1\)で積分すると、\(M-2\)変数の周辺分布が得られる。 \(μM-1\)の積分範囲は、上記の制約により、0から\(1 - ∑j=1M-2 μ_j\)までとなる。 \begin{align*} & pM-1(μ_1,…,μM-2)
= & ∫_01 - ∑_{j=1M-2 μ_j} p_M(μ_1,…,μM-1) dμM-1 \ = & C_M \l[ ∏k=1M-2 μ_kα_k-1 \r] ∫_01 - ∑_{j=1M-2 μ_j} μM-1α_{M-1-1} \l( 1 - ∑j=1M-1 μ_j \r)α_M-1M-1 \ \end{align*} ここで次の変数変換を行う。 \begin{align*} μM-1 = & t \l( 1 - ∑j=1M-2 μ_j \r) \ \end{align*}

\begin{align*} 1 - ∑j=1M-1 μ_j = & 1 - ∑j=1M-2 μ_j - μM-1
= & \l( 1 - ∑j=1M-2 μ_j \r) - t \l( 1 - ∑j=1M-2 μ_j \r) \ = & (1 - t) \l( 1 - ∑j=1M-2 μ_j \r) \ \end{align*} すると \begin{align*} & pM-1(μ_1,…,μM-2) \ = & C_M \l[ ∏k=1M-2 μ_kα_k-1 \r] ∫_0^1 \l\{ t \l( 1 - ∑j=1M-2 μ_j \r) \r\}α_{M-1-1} \l\{ (1 - t) \l( 1 - ∑j=1M-2 μ_j \r) \r\}α_M-1 \l( 1 - ∑j=1M-2 μ_j \r) dt \ = & C_M \l[ ∏k=1M-2 μ_kα_k-1 \r] \l( 1 - ∑j=1M-2 μ_j \r)α_{M-1+α_M-1} ∫_0^1 tα_{M-1-1} (1 - t)α_M-1 dt \ = & C_M \l[ ∏k=1M-2 μ_kα_k-1 \r] \l( 1 - ∑j=1M-2 μ_j \r)α_{M-1+α_M-1} \f{Γ(αM-1)Γ(α_M)}{Γ(αM-1+α_M)} \ \end{align*} こうして得られた周辺分布\(pM-1(μ_1,…,μM-2)\)は、 \(\α’=(α_1,…,αM-2M-1+α_M)^T\)をパラメータとする \(M-1\)変数のディリクレ分布から変数を一つ除去した確率分布の形をしている。

一方、同じパラメータ\(\α’=(α_1,…,αM-2M-1+α_M)^T\)を持つ \(M-1\)変数のディリクレ分布から、\(∑k=1M-1 μ_k = 1\)の制約を用いて変数を一つ除去すると、 以下の確率分布が得られる。 \begin{align*} p’M-1(μ_1,…,μM-2) = & C’M-1k=1M-2 μ_kα_k-1 \l( 1 - ∑j=1M-2 μ_j \r)α_{M-1+α_M-1}
\end{align*} ただし \begin{align*} C’M-1 = & \f{Γ(α_1 + \cdots + αM-2 + (αM-1+α_M))} {Γ(α_1) \cdots Γ(αM-2) Γ(αM-1+α_M)} \ \end{align*} 帰納法の仮定により、この確率分布は正規化されている。

上記の\(pM-1\)の定数部分は \begin{align*} & C_M \f{Γ(αM-1) Γ(α_M)}{Γ(αM-1 + α_M)}
= & \f{Γ(α_1 + \cdots + α_M)}{Γ(α_1) \cdots Γ(α_M)} \f{Γ(αM-1) Γ(α_M)}{Γ(αM-1 + α_M)} \ = & \f{Γ(α_1 + \cdots + αM-2 + (αM-1 + α_M))} {Γ(α_1) \cdots Γ(αM-2) Γ(αM-1 + α_M)} \ = & C’M-1 \end{align*} よって、\(M\)変数のディリクレ分布は正規化されている。

2.10 ディリクレ分布の平均、分散、共分散