Skip to content

Latest commit

 

History

History
308 lines (279 loc) · 11.8 KB

ex_01_21-30.org

File metadata and controls

308 lines (279 loc) · 11.8 KB

PRML 第1章 演習 1.21-1.30

PRML 第1章 演習 1.21-1.30

1.21 \(p(\text{誤り})≦∫\{p(x,C_1)p(x,C_2)\}1/2dx\)の証明

\(a≦b\)ならば\(a≦(ab)1/2\)

\begin{align*} a ≦ & b
a^2 ≦ & ab & \text{ \(a\)は非負だから} \ (a^2)1/2 ≦ & (ab)1/2 & \text{ \(f(x) = x1/2\)は単調増加だから} \ a ≦ & (ab)1/2 \ \end{align*}

\(p(\text{誤り})≦∫\{p(x,C_1)p(x,C_2)\}1/2dx\)の証明

誤識別率が最小になるように決定領域を選ぶと、 \begin{align*} x ∈ R_1 ⇒ p(x,C_2) ≦ p(x,C_1) ⇒ p(x,C_2) ≦ \{p(x,C_1)p(x,C_2)\}1/2
x ∈ R_2 ⇒ p(x,C_1) ≦ p(x,C_2) ⇒ p(x,C_1) ≦ \{p(x,C_1)p(x,C_2)\}1/2 \ \end{align*} ここで\(a≦b\)ならば\(a≦(ab)1/2\)を用いている。 それぞれの範囲で\(x\)について積分すると \begin{align*} ∫R_1 p(x,C_2) dx ≦ ∫R_1 \{p(x,C_1)p(x,C_2)\}1/2 dx \ ∫R_2 p(x,C_1) dx ≦ ∫R_2 \{p(x,C_1)p(x,C_2)\}1/2 dx \ \end{align*} 両辺を足して \begin{align*} ∫R_1 p(x,C_2) dx + ∫R_2 p(x,C_1) dx ≦ & ∫R_1 \{p(x,C_1)p(x,C_2)\}1/2 dx + ∫R_2 \{p(x,C_1)p(x,C_2)\}1/2 dx \ p(\text{誤り}) ≦ & ∫ \{p(x,C_1)p(x,C_2)\}1/2 dx \end{align*}

1.22 [www] 損失行列\(Lkj=1-Ikj\)の期待値の最小化と事後確率の最大化

(1.81)で与えられる \begin{align*} ∑_k Lkjp(C_k|x)
\end{align*} この量が最小になるクラス j に x を割り当てるのが 期待損失を最小化する決定規則である。 \(Lkj = 1-Ikj\)を代入すると \begin{align*} ∑_k Lkjp(C_k|x) = & ∑_k (1-Ikj)p(C_k|x) \ = & ∑_k p(C_k|x) - p(C_j|x) \ \end{align*} この量が最小になるという事は、 第1項の和は決定規則によらず一定だから、 第2項\(p(C_j|x)\)が最大になるように割り当てるということである。

この損失行列は、 正解か誤りかのみで損失を評価し、 正解および誤りの内容を評価しない 損失行列であると解釈できる。

1.23 損失行列とクラスの確率分布が与えられたときに期待損失を最小にする決定規準

期待損失 \begin{align*} E[L] = ∑_k ∑_j ∫R_j Lkj p(x,C_k) dx & \text{(1.80)} \end{align*} これを最小化するには、各\(x\)ごとに \begin{align*} ∑_k Lkj p(x,C_k) \end{align*} が最小になる\(j\)を求め、\(R_j\)が\(x\)を含むように\(R_j\)を決めればよい。 乗法定理\(p(x,C_k) = p(x|C_k)p(C_k)\)を用いて \begin{align*} ∑_k Lkj p(x|C_k)p(C_k) \end{align*}

1.24 [www] 棄却オプションがある場合に期待損失を最小とする決定規準

期待損失を最小とする決定規準

与えられた\(x\)に対して 式(1.81)の量\(∑_k Lkj p(C_k|x)\)が最小になるようなクラス\(j\)を見つける。 その量が\(λ\)より小さければ\(x\)をクラス\(j\)に割り当て、 さもなくば棄却する。

\(Lkj=1-Ikj\)ならば、1.5.3節の棄却規準に帰着することの証明

\(Lkj=1-Ikj\)ならば、 式(1.81)の量は以下のように表される。 \begin{align*} & ∑_k Lkj p(C_k|x)
= & ∑_k (1 - Ikj) p(C_k|x) \ = & ∑_k p(C_k|x) - ∑_k Ikj p(C_k|x) \ = & 1 - p(C_j|x) \ \end{align*} この量が最小になる\(j\)は、\(p(C_j|x)\)が最大になる\(j\)である。 期待損失を最小とする決定規準は、 \(1 - p(C_j|x)\)の最小値が\(λ\)より小さければ、 \(x\)をクラス\(j\)に割り当て、さもなくば棄却する、ということになる。 これは、 \(p(C_j|x)\)の最大値が\(1 - λ\)より大きければ、 \(x\)をクラス\(j\)に割り当て、さもなくば棄却する、ということと同値である。 \begin{align*} 1 - p(C_j|x) ≦ & λ \ p(C_j|x) ≧ & 1 - λ \ \end{align*}

\(λ\)と棄却しきい値\(θ\)との関係

\begin{align*} θ = 1 - λ \end{align*}

1.25 [www] 多変数の目的変数の回帰問題

\begin{align*} \newcommand{\x}{{\bf x}} \newcommand{\y}{{\bf y}} \newcommand{\t}{{\bf t}} E[L(\t,\y(\x))] = ∫∫ \|\y(\x)-\t\|^2 p(\x,\t) d\x d\t
\end{align*} 付録Dより、\(F[y]=∫x_1x_2G(y(x),x)dx\)ならば、停留条件は\(\frac{∂G(y(x),x)}{∂y(x)}=0\)。 ここで\(G(\y(\x),\x)=∫\|\y(\x)-\t\|^2p(\x,\t)d\t\)だから、 \begin{align*} \frac{∂}{∂\y(\x)} ∫\|\y(\x)-\t\|^2p(\x,\t)d\t = & 0 \ \frac{∂}{∂y_i(\x)} ∫(∑_j(y_j(\x)-t_j)^2)p(\x,\t)d\t = & 0 \ 2 ∫(y_i(\x)-t_i)p(\x,\t)d\t = & 0 \ ∫(y_i(\x)-t_i)p(\x,\t)d\t = & 0 \ ∫y_i(\x)p(\x,\t)d\t = & ∫t_i p(\x,\t)d\t \ y_i(\x)∫p(\x,\t)d\t = & ∫t_i p(\x,\t)d\t \ y_i(\x)p(\x) = & ∫t_i p(\x,\t)d\t \ y_i(\x) = & ∫t_i \frac{p(\x,\t)}{p(\x)}d\t \ = & ∫t_i p(\x|\t)d\t \ = & E_\t[t_i|\x] \ \y(\x) = & E_\t[\t|\x] \ \end{align*}

1.26 多変数の目的変数の回帰問題

\begin{align*} E[L(\t,\y(\x))] = & ∫∫\|\y(\x)-\t\|^2p(\x,\t)d\x d\t
= & ∫∫(∑_i (y_i(\x)-t_i)^2)p(\x,\t)d\x d\t \ = & ∫∫(∑_i (y_i(\x) - E[t_i|\x] + E[t_i|\x] - t_i)^2)p(\x,\t)d\x d\t \ = & ∫∫(∑_i (A_i^2 + 2A_iB_i + B_i^2))p(\x,\t)d\x d\t \ \end{align*} ここで \begin{align*} A_i = & (y_i(\x) - E[t_i|\x]) \ B_i = & (E[t_i|\x] - t_i) \ \end{align*}

\begin{align*} ∫∫∑_i A_i^2p(\x,\t)d\x d\t = & ∑_i ∫∫A_i^2p(\x,\t)d\x d\t
= & ∑_i ∫∫A_i^2p(\x,\t)d\t d\x \ = & ∑_i ∫A_i^2∫p(\x,\t)d\t d\x \ = & ∑_i ∫A_i^2p(\x)d\x \ \end{align*}

\begin{align*} ∫∫∑_i 2A_iB_ip(\x,\t)d\x d\t = & 2∑_i ∫∫A_iB_ip(\x,\t)d\x d\t
= & 2∑_i ∫∫A_i(E[t_i|\x] - t_i)p(\x,\t)d\t d\x \ = & 2∑_i ∫∫(E[t_i|\x]A_i - t_iA_i)p(\x,\t)d\t d\x \ = & 2∑_i ∫(∫E[t_i|\x]A_ip(\x,\t)d\t - ∫t_iA_ip(\x,\t)d\t)d\x \ = & 2∑_i ∫(E[t_i|\x]A_i∫p(\x,\t)d\t - A_i∫t_ip(\x,\t)d\t)d\x \ = & 2∑_i ∫(E[t_i|\x]A_ip(\x) - A_i∫t_ip(\x,\t)d\t)d\x \ = & 2∑_i ∫(E[t_i|\x]A_ip(\x) - A_i∫t_ip(\t|\x)d\t p(\x))d\x \ = & 2∑_i ∫(E[t_i|\x]A_ip(\x) - A_iE[t_i|\x]p(\x))d\x \ = & 0 \ \end{align*}

\begin{align*} ∫∫∑_i (E[t_i|\x] - t_i)^2p(\x,\t)d\x d\t = & ∑_i ∫∫(E[t_i|\x] - t_i)^2p(\x,\t)d\x d\t
= & ∑_i ∫∫(E[t_i|\x] - t_i)^2p(\x,\t)d\t d\x \ = & ∑_i ∫∫(t_i - E[t_i|\x])^2p(\x,\t)d\t d\x \ = & ∑_i ∫∫(t_i - E[t_i|\x])^2p(\t|\x)p(\x)d\t d\x \ = & ∑_i ∫∫(t_i - E[t_i|\x])^2p(\t|\x)d\t p(\x)d\x \ = & ∑_i ∫var[t_i|\x]p(\x)d\x \end{align*} ここで \begin{align*} var[t_i|\x] = ∫(t_i - E[t_i|\x])^2p(\t|\x)d\t \end{align*} まとめると \begin{align*} E[L(\t,\y(\x))] = & ∑_i ∫(y_i(\x) - E[t_i|\x])^2p(\x)d\x + ∑_i ∫var[t_i|\x]p(\x)d\x \ \end{align*}

期待二乗損失\(E[L(\t,\y(\x))]\)を最小にする\(\y(\x)\)は\(\y(\x) = E[\t|\x]\)である。

1.27 [www] ミンコフスキー損失を用いた回帰

ミンコフスキー損失 \begin{align*} E[L_q] = & ∫∫|y(\x)-t|^qp(\x,t) d\x dt & \text{(1.91)} \end{align*}

\begin{align*} E[L_q] = & ∫∫t< y(\x) (y(\x)-t)^q p(\x,t) d\x dt & - ∫∫t≧y(\x) (y(\x)-t)^q p(\x,t) d\x dt \frac{δE[L_q]}{δy(\x)} = & q ∫∫t< y(\x) (y(\x)-t)q-1 p(\x,t) d\x dt & - q ∫∫t≧y(\x) (y(\x)-t)q-1 p(\x,t) d\x dt \end{align*}

\(q = 1\)の場合。 \begin{align*} E[L_1] = & ∫∫t< y(\x) (y(\x)-t) p(\x,t) d\x dt & - ∫∫t≧y(\x) (y(\x)-t) p(\x,t) d\x dt \frac{δE[L_1]}{δy(\x)} = & ∫∫t< y(\x) p(\x,t) d\x dt & - ∫∫t≧y(\x) p(\x,t) d\x dt δE[L_1]/δy(\x) = & 0
∫∫t< y(\x) p(\x,t) d\x dt - ∫∫t≧y(\x) p(\x,t) d\x dt = & 0 \ ∫∫t< y(\x) p(\x,t) d\x dt = ∫∫t≧y(\x) p(\x,t) d\x dt \end{align*}

\(q = 0\)の場合。 \begin{align*} E[L_0] = & ∫∫ p(\x,t) d\x dt
\frac{δE[L_0]}{δy(\x)} = 0 \ δE[L_1]/δy(\x) = & 0 \ ∫∫t< y(\x) p(\x,t) d\x dt - ∫∫t≧y(\x) p(\x,t) d\x dt = & 0 \ ∫∫t< y(\x) p(\x,t) d\x dt = ∫∫t≧y(\x) p(\x,t) d\x dt \end{align*}

1.28 \(h\)と\(p\)の間の関数関係\(h(p)\)

\begin{align*} p(x,y) = p(x)p(y) ⇒ h(x,y) = h(x) + h(y) \end{align*}

\begin{align*} h(x,y) = & ˜{h}(p(x,y))
h(x) = & ˜{h}(p(x)) \ h(y) = & ˜{h}(p(y)) \ \end{align*}

\(h(p^2) = 2h(p)\)

\begin{align*} h(p^2) = & h(pp)
= & h(p)h(p) \ = & 2h(p) \ \end{align*}

\(h(p^n) = nh(p) ⇒ h(pn+1) = (n+1)h(p)\)

\begin{align*} h(pn+1) = & h(pp^n)
= & h(p)h(p^n) \ = & h(p)nh(p) \ = & (n+1)h(p) \ \end{align*}

\(h(pn/m) = (n/m)h(p)\)

TODO

\(h(p) ∝ ln p\)

TODO

1.29 [www] \(H[x]≦ln M\)の証明

\begin{align*} H[x] = & - ∑i=1^M p(x_i) ln p(x_i)
\end{align*} \(-ln x\)は真に凸な関数だから、イェンセンの不等式を用いて、 \begin{align*} H[x] ≦ & - ln ∑i=1^M p(x_i)^2 \end{align*} ここで\(∑i=1^M p(x_i)^2\)を最大にする\(p(x_i)\)は \begin{align*} \frac{∂}{∂p(x_i)} [∑i=1^M p(x_i)^2 - λ(∑i=1^M p(x_i) - 1)] = & 0 \ 2 p(x_i) - λ = & 0 \ p(x_i) = & λ/2 \ \end{align*} \(∑i=1^M p(x_i) = 1\)より \begin{align*} p(x_i) = 1/M \end{align*} \begin{align*} H[x] ≦ & - ln ∑i=1^M (1/M) (1/M) \ = & ln M \end{align*}

1.30 二つのガウス分布のKLダイバージェンス

\begin{align*} p(x) = & N(x|μ,σ^2) = \frac{1}{(2πσ^2)1/2} exp\{-\frac{1}{2σ^2} (x-μ)^2\}
q(x) = & N(x|m,s^2) = \frac{1}{(2πs^2)1/2} exp\{-\frac{1}{2s^2} (x-m)^2\} \ \end{align*}

\begin{align*} KL(p\|q) = & - ∫ p(x) ln \frac{q(x)}{p(x)} dx
= & - ∫ p(x) ln q(x) dx + ∫ p(x) ln p(x) dx \ \end{align*}

\begin{align*}

  • ∫ p(x) ln q(x) dx

= & - ∫ p(x) ln \left[\frac{1}{(2πs^2)1/2} exp\{-\frac{1}{2s^2} (x-m)^2\}\right] dx
= & - ∫ p(x) \left[ln \frac{1}{(2πs^2)1/2} - \frac{1}{2s^2} (x-m)^2\right] dx \ = & - ∫ p(x) ln \frac{1}{(2πs^2)1/2} dx + ∫ p(x) \frac{1}{2s^2} (x-m)^2 dx \ = & - ln \frac{1}{(2πs^2)1/2} + \frac{1}{2s^2} ∫ p(x) (x-m)^2 dx \ = & \frac{1}{2} ln (2πs^2) + \frac{1}{2s^2} ∫ p(x) (x-m)^2 dx \ = & \frac{1}{2} ln (2πs^2) + \frac{1}{2s^2} ∫ p(x) (x^2 - 2xm + m^2) dx \ = & \frac{1}{2} ln (2πs^2)

  • \frac{1}{2s^2} \{∫ p(x) x^2 dx - 2m ∫ p(x) x dx + m^2 ∫ p(x) dx\}

= & \frac{1}{2} ln (2πs^2) + \frac{1}{2s^2} \{μ^2 + σ^2 - 2mμ + m^2\}
= & \frac{1}{2} ln (2πs^2) + \frac{1}{2s^2} \{(μ - m)^2 + σ^2\} \ \end{align*}

\begin{align*}

  • ∫ p(x) ln p(x) dx

= & \frac{1}{2} ln (2πσ^2) + \frac{1}{2σ^2} \{(μ - μ)^2 + σ^2\}
= & \frac{1}{2} ln (2πσ^2) + \frac{1}{2} \ \end{align*}

\begin{align*} KL(p\|q) = & \frac{1}{2} ln (2πs^2) + \frac{1}{2s^2} \{(μ - m)^2 + σ^2\}

  • (\frac{1}{2} ln (2πσ^2) + \frac{1}{2})

= & \frac{s}{σ} + \frac{1}{2s^2} \{(μ - m)^2 + σ^2\} - \frac{1}{2}
\end{align*}