\begin{align*}
a ≦ & b
a^2 ≦ & ab & \text{ \(a\)は非負だから} \
(a^2)1/2 ≦ & (ab)1/2 & \text{ \(f(x) = x1/2\)は単調増加だから} \
a ≦ & (ab)1/2 \
\end{align*}
誤識別率が最小になるように決定領域を選ぶと、
\begin{align*}
x ∈ R_1 ⇒ p(x,C_2) ≦ p(x,C_1) ⇒ p(x,C_2) ≦ \{p(x,C_1)p(x,C_2)\}1/2
x ∈ R_2 ⇒ p(x,C_1) ≦ p(x,C_2) ⇒ p(x,C_1) ≦ \{p(x,C_1)p(x,C_2)\}1/2 \
\end{align*}
ここで\(a≦b\)ならば\(a≦(ab)1/2\)を用いている。
それぞれの範囲で\(x\)について積分すると
\begin{align*}
∫R_1 p(x,C_2) dx ≦ ∫R_1 \{p(x,C_1)p(x,C_2)\}1/2 dx \
∫R_2 p(x,C_1) dx ≦ ∫R_2 \{p(x,C_1)p(x,C_2)\}1/2 dx \
\end{align*}
両辺を足して
\begin{align*}
∫R_1 p(x,C_2) dx + ∫R_2 p(x,C_1) dx
≦ & ∫R_1 \{p(x,C_1)p(x,C_2)\}1/2 dx +
∫R_2 \{p(x,C_1)p(x,C_2)\}1/2 dx \
p(\text{誤り}) ≦ & ∫ \{p(x,C_1)p(x,C_2)\}1/2 dx
\end{align*}
(1.81)で与えられる
\begin{align*}
∑_k Lkjp(C_k|x)
\end{align*}
この量が最小になるクラス j に x を割り当てるのが
期待損失を最小化する決定規則である。
\(Lkj = 1-Ikj\)を代入すると
\begin{align*}
∑_k Lkjp(C_k|x)
= & ∑_k (1-Ikj)p(C_k|x) \
= & ∑_k p(C_k|x) - p(C_j|x) \
\end{align*}
この量が最小になるという事は、
第1項の和は決定規則によらず一定だから、
第2項\(p(C_j|x)\)が最大になるように割り当てるということである。
この損失行列は、 正解か誤りかのみで損失を評価し、 正解および誤りの内容を評価しない 損失行列であると解釈できる。
期待損失 \begin{align*} E[L] = ∑_k ∑_j ∫R_j Lkj p(x,C_k) dx & \text{(1.80)} \end{align*} これを最小化するには、各\(x\)ごとに \begin{align*} ∑_k Lkj p(x,C_k) \end{align*} が最小になる\(j\)を求め、\(R_j\)が\(x\)を含むように\(R_j\)を決めればよい。 乗法定理\(p(x,C_k) = p(x|C_k)p(C_k)\)を用いて \begin{align*} ∑_k Lkj p(x|C_k)p(C_k) \end{align*}
与えられた\(x\)に対して 式(1.81)の量\(∑_k Lkj p(C_k|x)\)が最小になるようなクラス\(j\)を見つける。 その量が\(λ\)より小さければ\(x\)をクラス\(j\)に割り当て、 さもなくば棄却する。
\(Lkj=1-Ikj\)ならば、
式(1.81)の量は以下のように表される。
\begin{align*}
& ∑_k Lkj p(C_k|x)
= & ∑_k (1 - Ikj) p(C_k|x) \
= & ∑_k p(C_k|x) - ∑_k Ikj p(C_k|x) \
= & 1 - p(C_j|x) \
\end{align*}
この量が最小になる\(j\)は、\(p(C_j|x)\)が最大になる\(j\)である。
期待損失を最小とする決定規準は、
\(1 - p(C_j|x)\)の最小値が\(λ\)より小さければ、
\(x\)をクラス\(j\)に割り当て、さもなくば棄却する、ということになる。
これは、
\(p(C_j|x)\)の最大値が\(1 - λ\)より大きければ、
\(x\)をクラス\(j\)に割り当て、さもなくば棄却する、ということと同値である。
\begin{align*}
1 - p(C_j|x) ≦ & λ \
p(C_j|x) ≧ & 1 - λ \
\end{align*}
\begin{align*} θ = 1 - λ \end{align*}
\begin{align*}
\newcommand{\x}{{\bf x}}
\newcommand{\y}{{\bf y}}
\newcommand{\t}{{\bf t}}
E[L(\t,\y(\x))] = ∫∫ \|\y(\x)-\t\|^2 p(\x,\t) d\x d\t
\end{align*}
付録Dより、\(F[y]=∫x_1x_2G(y(x),x)dx\)ならば、停留条件は\(\frac{∂G(y(x),x)}{∂y(x)}=0\)。
ここで\(G(\y(\x),\x)=∫\|\y(\x)-\t\|^2p(\x,\t)d\t\)だから、
\begin{align*}
\frac{∂}{∂\y(\x)} ∫\|\y(\x)-\t\|^2p(\x,\t)d\t = & 0 \
\frac{∂}{∂y_i(\x)} ∫(∑_j(y_j(\x)-t_j)^2)p(\x,\t)d\t = & 0 \
2 ∫(y_i(\x)-t_i)p(\x,\t)d\t = & 0 \
∫(y_i(\x)-t_i)p(\x,\t)d\t = & 0 \
∫y_i(\x)p(\x,\t)d\t = & ∫t_i p(\x,\t)d\t \
y_i(\x)∫p(\x,\t)d\t = & ∫t_i p(\x,\t)d\t \
y_i(\x)p(\x) = & ∫t_i p(\x,\t)d\t \
y_i(\x) = & ∫t_i \frac{p(\x,\t)}{p(\x)}d\t \
= & ∫t_i p(\x|\t)d\t \
= & E_\t[t_i|\x] \
\y(\x) = & E_\t[\t|\x] \
\end{align*}
\begin{align*}
E[L(\t,\y(\x))] = & ∫∫\|\y(\x)-\t\|^2p(\x,\t)d\x d\t
= & ∫∫(∑_i (y_i(\x)-t_i)^2)p(\x,\t)d\x d\t \
= & ∫∫(∑_i (y_i(\x) - E[t_i|\x] + E[t_i|\x] - t_i)^2)p(\x,\t)d\x d\t \
= & ∫∫(∑_i (A_i^2 + 2A_iB_i + B_i^2))p(\x,\t)d\x d\t \
\end{align*}
ここで
\begin{align*}
A_i = & (y_i(\x) - E[t_i|\x]) \
B_i = & (E[t_i|\x] - t_i) \
\end{align*}
\begin{align*}
∫∫∑_i A_i^2p(\x,\t)d\x d\t
= & ∑_i ∫∫A_i^2p(\x,\t)d\x d\t
= & ∑_i ∫∫A_i^2p(\x,\t)d\t d\x \
= & ∑_i ∫A_i^2∫p(\x,\t)d\t d\x \
= & ∑_i ∫A_i^2p(\x)d\x \
\end{align*}
\begin{align*}
∫∫∑_i 2A_iB_ip(\x,\t)d\x d\t
= & 2∑_i ∫∫A_iB_ip(\x,\t)d\x d\t
= & 2∑_i ∫∫A_i(E[t_i|\x] - t_i)p(\x,\t)d\t d\x \
= & 2∑_i ∫∫(E[t_i|\x]A_i - t_iA_i)p(\x,\t)d\t d\x \
= & 2∑_i ∫(∫E[t_i|\x]A_ip(\x,\t)d\t - ∫t_iA_ip(\x,\t)d\t)d\x \
= & 2∑_i ∫(E[t_i|\x]A_i∫p(\x,\t)d\t - A_i∫t_ip(\x,\t)d\t)d\x \
= & 2∑_i ∫(E[t_i|\x]A_ip(\x) - A_i∫t_ip(\x,\t)d\t)d\x \
= & 2∑_i ∫(E[t_i|\x]A_ip(\x) - A_i∫t_ip(\t|\x)d\t p(\x))d\x \
= & 2∑_i ∫(E[t_i|\x]A_ip(\x) - A_iE[t_i|\x]p(\x))d\x \
= & 0 \
\end{align*}
\begin{align*}
∫∫∑_i (E[t_i|\x] - t_i)^2p(\x,\t)d\x d\t
= & ∑_i ∫∫(E[t_i|\x] - t_i)^2p(\x,\t)d\x d\t
= & ∑_i ∫∫(E[t_i|\x] - t_i)^2p(\x,\t)d\t d\x \
= & ∑_i ∫∫(t_i - E[t_i|\x])^2p(\x,\t)d\t d\x \
= & ∑_i ∫∫(t_i - E[t_i|\x])^2p(\t|\x)p(\x)d\t d\x \
= & ∑_i ∫∫(t_i - E[t_i|\x])^2p(\t|\x)d\t p(\x)d\x \
= & ∑_i ∫var[t_i|\x]p(\x)d\x
\end{align*}
ここで
\begin{align*}
var[t_i|\x] = ∫(t_i - E[t_i|\x])^2p(\t|\x)d\t
\end{align*}
まとめると
\begin{align*}
E[L(\t,\y(\x))] = & ∑_i ∫(y_i(\x) - E[t_i|\x])^2p(\x)d\x +
∑_i ∫var[t_i|\x]p(\x)d\x \
\end{align*}
期待二乗損失\(E[L(\t,\y(\x))]\)を最小にする\(\y(\x)\)は\(\y(\x) = E[\t|\x]\)である。
ミンコフスキー損失 \begin{align*} E[L_q] = & ∫∫|y(\x)-t|^qp(\x,t) d\x dt & \text{(1.91)} \end{align*}
\begin{align*} E[L_q] = & ∫∫t< y(\x) (y(\x)-t)^q p(\x,t) d\x dt & - ∫∫t≧y(\x) (y(\x)-t)^q p(\x,t) d\x dt \frac{δE[L_q]}{δy(\x)} = & q ∫∫t< y(\x) (y(\x)-t)q-1 p(\x,t) d\x dt & - q ∫∫t≧y(\x) (y(\x)-t)q-1 p(\x,t) d\x dt \end{align*}
\(q = 1\)の場合。
\begin{align*}
E[L_1] = & ∫∫t< y(\x) (y(\x)-t) p(\x,t) d\x dt
& - ∫∫t≧y(\x) (y(\x)-t) p(\x,t) d\x dt
\frac{δE[L_1]}{δy(\x)}
= & ∫∫t< y(\x) p(\x,t) d\x dt
& - ∫∫t≧y(\x) p(\x,t) d\x dt
δE[L_1]/δy(\x) = & 0
∫∫t< y(\x) p(\x,t) d\x dt - ∫∫t≧y(\x) p(\x,t) d\x dt = & 0 \
∫∫t< y(\x) p(\x,t) d\x dt = ∫∫t≧y(\x) p(\x,t) d\x dt
\end{align*}
\(q = 0\)の場合。
\begin{align*}
E[L_0] = & ∫∫ p(\x,t) d\x dt
\frac{δE[L_0]}{δy(\x)} = 0 \
δE[L_1]/δy(\x) = & 0 \
∫∫t< y(\x) p(\x,t) d\x dt - ∫∫t≧y(\x) p(\x,t) d\x dt = & 0 \
∫∫t< y(\x) p(\x,t) d\x dt = ∫∫t≧y(\x) p(\x,t) d\x dt
\end{align*}
\begin{align*} p(x,y) = p(x)p(y) ⇒ h(x,y) = h(x) + h(y) \end{align*}
\begin{align*}
h(x,y) = & ˜{h}(p(x,y))
h(x) = & ˜{h}(p(x)) \
h(y) = & ˜{h}(p(y)) \
\end{align*}
\begin{align*}
h(p^2) = & h(pp)
= & h(p)h(p) \
= & 2h(p) \
\end{align*}
\begin{align*}
h(pn+1) = & h(pp^n)
= & h(p)h(p^n) \
= & h(p)nh(p) \
= & (n+1)h(p) \
\end{align*}
TODO
TODO
\begin{align*}
H[x] = & - ∑i=1^M p(x_i) ln p(x_i)
\end{align*}
\(-ln x\)は真に凸な関数だから、イェンセンの不等式を用いて、
\begin{align*}
H[x] ≦ & - ln ∑i=1^M p(x_i)^2
\end{align*}
ここで\(∑i=1^M p(x_i)^2\)を最大にする\(p(x_i)\)は
\begin{align*}
\frac{∂}{∂p(x_i)} [∑i=1^M p(x_i)^2 - λ(∑i=1^M p(x_i) - 1)] = & 0 \
2 p(x_i) - λ = & 0 \
p(x_i) = & λ/2 \
\end{align*}
\(∑i=1^M p(x_i) = 1\)より
\begin{align*}
p(x_i) = 1/M
\end{align*}
\begin{align*}
H[x] ≦ & - ln ∑i=1^M (1/M) (1/M) \
= & ln M
\end{align*}
\begin{align*}
p(x) = & N(x|μ,σ^2) = \frac{1}{(2πσ^2)1/2} exp\{-\frac{1}{2σ^2} (x-μ)^2\}
q(x) = & N(x|m,s^2) = \frac{1}{(2πs^2)1/2} exp\{-\frac{1}{2s^2} (x-m)^2\} \
\end{align*}
\begin{align*}
KL(p\|q) = & - ∫ p(x) ln \frac{q(x)}{p(x)} dx
= & - ∫ p(x) ln q(x) dx + ∫ p(x) ln p(x) dx \
\end{align*}
\begin{align*}
- ∫ p(x) ln q(x) dx
= & - ∫ p(x) ln \left[\frac{1}{(2πs^2)1/2} exp\{-\frac{1}{2s^2} (x-m)^2\}\right] dx
= & - ∫ p(x) \left[ln \frac{1}{(2πs^2)1/2} - \frac{1}{2s^2} (x-m)^2\right] dx \
= & - ∫ p(x) ln \frac{1}{(2πs^2)1/2} dx + ∫ p(x) \frac{1}{2s^2} (x-m)^2 dx \
= & - ln \frac{1}{(2πs^2)1/2} + \frac{1}{2s^2} ∫ p(x) (x-m)^2 dx \
= & \frac{1}{2} ln (2πs^2) + \frac{1}{2s^2} ∫ p(x) (x-m)^2 dx \
= & \frac{1}{2} ln (2πs^2) + \frac{1}{2s^2} ∫ p(x) (x^2 - 2xm + m^2) dx \
= & \frac{1}{2} ln (2πs^2)
- \frac{1}{2s^2} \{∫ p(x) x^2 dx - 2m ∫ p(x) x dx + m^2 ∫ p(x) dx\}
= & \frac{1}{2} ln (2πs^2) + \frac{1}{2s^2} \{μ^2 + σ^2 - 2mμ + m^2\}
= & \frac{1}{2} ln (2πs^2) + \frac{1}{2s^2} \{(μ - m)^2 + σ^2\} \
\end{align*}
\begin{align*}
- ∫ p(x) ln p(x) dx
= & \frac{1}{2} ln (2πσ^2) + \frac{1}{2σ^2} \{(μ - μ)^2 + σ^2\}
= & \frac{1}{2} ln (2πσ^2) + \frac{1}{2} \
\end{align*}
\begin{align*} KL(p\|q) = & \frac{1}{2} ln (2πs^2) + \frac{1}{2s^2} \{(μ - m)^2 + σ^2\}
- (\frac{1}{2} ln (2πσ^2) + \frac{1}{2})
= & \frac{s}{σ} + \frac{1}{2s^2} \{(μ - m)^2 + σ^2\} - \frac{1}{2}
\end{align*}