はじめに
\(\boldsymbol{X}\)が\(p\)次元確率変数、\(\boldsymbol{\mu}\)が\( \boldsymbol{X} \)の平均ベクトル、\(\boldsymbol{\Sigma}\)が\( \boldsymbol{X} \)の分散共分散行列で、\( \boldsymbol{X} \sim N( \boldsymbol{\mu}, \boldsymbol{\Sigma} )\)と\( \boldsymbol{X} \)が\(p\)変量正規分布に従うとき、モーメント母関数は以下のように表されます。
$$\displaystyle M(\boldsymbol{t})=\exp \left(\boldsymbol{\mu}^T \boldsymbol{t}+\frac{1}{2} \boldsymbol{t}^T \boldsymbol{\Sigma} \boldsymbol{t} \right)$$
この記事で多変量正規分布のモーメント母関数を1階微分することが出来ました。
1階微分は以下のようになります。
\(\displaystyle \frac{\partial}{\partial \boldsymbol{t}}M(\boldsymbol{t})= M(\boldsymbol{t}) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t})\)
2階微分を求めたいので、この式をもう一回微分します。
調べてみるとベクトルの2階微分は\(\displaystyle \frac{\partial^2}{\partial \boldsymbol{t}^2} \)ではなく、\( \displaystyle \frac{\partial^2}{\partial \boldsymbol{t}\partial \boldsymbol{t}^T} \)らしいので、これに従って微分していきます。
なので今回の目標は、\(\displaystyle \frac{\partial}{\partial \boldsymbol{t}^T} M(\boldsymbol{t}) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) \)を計算することです。
2階微分
\( \displaystyle \frac{\partial^2}{\partial \boldsymbol{t}\partial \boldsymbol{t}^T} M(\boldsymbol{t})\)
\(\displaystyle = \frac{\partial}{\partial \boldsymbol{t}^T} M(\boldsymbol{t}) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) \)
\(\displaystyle =\left( \frac{\partial}{\partial t_1} \cdots \frac{\partial}{\partial t_p} \right) M(\boldsymbol{t}) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) \)
\(n\)番目の偏微分について計算していきます。
\(\displaystyle \frac{\partial}{\partial t_n} M(\boldsymbol{t}) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) \)
\(\displaystyle = \left(\frac{\partial}{\partial t_n} M(\boldsymbol{t}) \right) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) \)\(\displaystyle + M(\boldsymbol{t}) \frac{\partial}{\partial t_n} (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) \)
\(\displaystyle \frac{\partial}{\partial t_n} M(\boldsymbol{t}) \)に関しては、1階微分の導出過程で出てくる形で、
\(\displaystyle \frac{\partial}{\partial t_n} M(\boldsymbol{t}) \)
\(\displaystyle = M(\boldsymbol{t}) \left(\mu_n+\sum^p_{i=1}\Sigma_{ni}t_i \right) \)
となります。
積の微分の後半部分に関しては、
\(\displaystyle \frac{\partial} {\partial t_n}(\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) \)
\(\displaystyle = \frac{\partial} {\partial t_n} \)\(\displaystyle \left( \begin{pmatrix}\mu_1 \\ \vdots \\ \mu_p \end{pmatrix} + \begin{pmatrix}\Sigma_{11}t_1+\cdots +\Sigma_{1p}t_p \\ \vdots \\ \Sigma_{p1}t_1+\cdots +\Sigma_{pp}t_p \end{pmatrix} \right)\)
\(\displaystyle =\begin{pmatrix}\Sigma_{1n} \\ \vdots \\ \Sigma_{pn} \end{pmatrix} \)
ここまでをまとめると、
\( \displaystyle \frac{1}{M(\boldsymbol{t})} \frac{\partial}{\partial t_n} M(\boldsymbol{t}) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) \)
\( \displaystyle =\left(\mu_n+\sum^p_{i=1}\Sigma_{ni}t_i \right) ( \boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t} )\)\(\displaystyle + \begin{pmatrix}\Sigma_{1n} \\ \vdots \\ \Sigma_{pn} \end{pmatrix} \)
\(=a_n\)とすると、
今、計算したい微分\(\displaystyle \frac{1}{M(\boldsymbol{t})} \frac{\partial}{\partial \boldsymbol{t}^T} M(\boldsymbol{t})(\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) \)は、\((a_1\cdots a_p)\)のような\((p\times p)\)行列で表されます。
\(a_n\)の二項目に関しては、\((a_1\cdots a_p)\)のように並べると、
\(\displaystyle \left( \begin{pmatrix}\Sigma_{11} \\ \vdots \\ \Sigma_{p1} \end{pmatrix} \cdots\begin{pmatrix}\Sigma_{1p} \\ \vdots \\ \Sigma_{pp} \end{pmatrix} \right)\)
\(=\boldsymbol{\Sigma}\)
となります。
次は\(a_n\)の一項目に関して、\( \displaystyle \left(\mu_n+\sum^p_{i=1}\Sigma_{ni}t_i \right) ( \boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t} ) \)を\( (a_1\cdots a_p) \)のように並べることを考えます。
分かりやすいように、\( \displaystyle \left(\mu_n+\sum^p_{i=1}\Sigma_{ni}t_i \right)=b_n\)、\( ( \boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t} ) =\boldsymbol{c}\)と置くと、
\( \displaystyle \left(\mu_n+\sum^p_{i=1}\Sigma_{ni}t_i \right) ( \boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t} ) \)
\(\displaystyle = b_n\begin{pmatrix}c_1 \\ \vdots \\c_p \end{pmatrix}\)
これを\( (a_1\cdots a_p) \)のように並べると、
\(\displaystyle \left(b_1\begin{pmatrix}c_1 \\ \vdots \\c_p \end{pmatrix} \cdots b_p\begin{pmatrix}c_1 \\ \vdots \\c_p \end{pmatrix}\right) \)
\(\displaystyle =\begin{pmatrix}c_1b_1 & \cdots & c_1b_p \\ \vdots & \ddots & \vdots \\c_pb_1&\cdots &c_pb_p \end{pmatrix} \)
\(\displaystyle =\begin{pmatrix}c_1\\ \vdots \\ c_p \end{pmatrix}\)\( (b_1 \cdots b_p ) \)
\(\displaystyle = \boldsymbol{c} \begin{pmatrix}b_1\\ \vdots \\ b_p \end{pmatrix}^T \)
\(\displaystyle \begin{pmatrix}b_1\\ \vdots \\ b_p \end{pmatrix}^T \)は、1階微分の導出過程で出てきたものを利用して、\((\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t})^T\)となります。
よって、
\( \displaystyle \boldsymbol{c} \begin{pmatrix}b_1\\ \vdots \\ b_p \end{pmatrix}^T \)
\(\displaystyle = (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) ^T\)
以上より、
\( \displaystyle \frac{1}{M(\boldsymbol{t})} \frac{\partial}{\partial \boldsymbol{t}^T} M(\boldsymbol{t}) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) \)
\(\displaystyle = (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) ^T \)\(+\boldsymbol{\Sigma}\)
となり、\(M(\boldsymbol{t})\)の2階微分は
$$ \displaystyle \frac{\partial^2}{\partial \boldsymbol{t}\partial \boldsymbol{t}^T} M(\boldsymbol{t}) $$
$$ \displaystyle =M(\boldsymbol{t}) ( (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) (\boldsymbol{\mu}+\boldsymbol{\Sigma}\boldsymbol{t}) ^T +\boldsymbol{\Sigma} ) $$
というように計算することが出来ました。
また、
\(V[\boldsymbol{X}]\)
\(=E[ \boldsymbol{XX^T} ]-E[ \boldsymbol{X} ]E[ \boldsymbol{X^T} ]\)
\(=\displaystyle \frac{\partial^2}{\partial \boldsymbol{t}\partial \boldsymbol{t}^T} M(\boldsymbol{0})\)\(- \displaystyle \frac{\partial}{\partial \boldsymbol{t}} M(\boldsymbol{0}) \frac{\partial}{\partial \boldsymbol{t}} M(\boldsymbol{0}) ^T \)
\( \displaystyle = (\boldsymbol{\mu} \boldsymbol{\mu} ^T+ \boldsymbol{\Sigma}) – \boldsymbol{\mu} \boldsymbol{\mu} ^T \)
\(= \boldsymbol{\Sigma} \)
モーメント母関数から導出した分散が1変数の時と同じような公式でも成り立つことが分かりました。
まとめ
多変量正規分布のモーメント母関数の2階微分を計算することが出来ました。
しかし、\(b_n,\boldsymbol{c}\)と置いた所などは数学的な厳密さに欠けると思います。
感覚的な理解をする助けになれれば嬉しいです。
また、間違いありましたらご指摘お願いします。
コメント