統計検定 1級 2021年 統計応用(理工学) 問4 解答 解説

スポンサーリンク

[1]

公式の解答を参照。

[2]

[2-1]

\(p_1+\cdots p_K=1\)の条件の下での\(p_1^2+\cdots +p_K^2\)の最大最小を考える。

最小値はシュワルツの不等式により、

\(p_1+\cdots+p_K \leq (1^2+\cdots +1^2)(p_1^2+\cdots+p_K^2)\)

なので、

\(1 \leq K(p_1^2+\cdots+p_K^2)\)

より、

\(p_1^2+\cdots+p_K^2\geq \displaystyle \frac{1}{K}\)

最小値は\(\displaystyle \frac{1}{K}\)で、等号成立は\(p_1=\cdots = p_K= \displaystyle \frac{1}{K}\)の時である。

最大値は、

\(p_1^2+\cdots+p_K^2\)\(\displaystyle =(p_1+\cdots+p_K)^2-2\sum_{i<j}p_ip_j \)

\(\displaystyle = 1-2\sum_{i<j}p_ip_j\)\(\leq 1\)

最大値は\(1\)で、等号成立は\(\displaystyle \sum_{i<j}p_ip_j=0\)の時である。

これは任意の\((i,j)\)の組に対して\(p_ip_j=0\)となる場合で、\(K-1\)個の\(p_k\)が\(0\)すなわち、ある1つのみが\(p_k=1\)となる場合である。

少なくとも1つの\(p_k\)が\(1\)となるので、\(\displaystyle \prod_{k=1}^K(p_k-1)=0\)だと書くことも出来る。

以上より、Giniの最大値は\(1-\displaystyle \frac{1}{K}\)(\(p_1=\cdots=p_K=\displaystyle \frac{1}{K}\)の時)、最小値は\(0\)(\(\displaystyle \prod_{k=1}^K(p_k-1)=0\)の時)である。

[2-2]

余事象「個体が元のカテゴリーに移動する確率」を考える。

第\(k\)カテゴリーに分類された個体の比率は\(p_k\)なので、ランダムに個体を選んだ場合、第\(k\)カテゴリーの個体である確率は\(p_k\)となる。

ここからカテゴリー\(k\)に移動する確率は\(p_k\)なので、ランダムに個体を選んだ場合、第\(k\)カテゴリーの個体であり、カテゴリー\(k\)に移動する確率は\(p_k^2\)となる。

全ての\(k\)についての確率を\(1\)から引くことで、求める確率は、

\(\displaystyle Gini = 1-\sum_{k=1}^K p_k^2\)

[2-3]

準良品と良品のカテゴリーをそれぞれカテゴリー1、カテゴリー2とする。

(1)式を下に計算すると、

\(Gini=1-p_1^2-p_2^2\)

\(=1-\displaystyle \left(\frac{30}{50}\right)^2-\left(\frac{20}{50}\right)^2\)

\(\displaystyle =\frac{12}{25}\)

[3]

\(Gini(t) \displaystyle =\frac{12}{25}\)

最初に\(X\)で分割した場合、

\(Gini_X(t_L)\)\(=1-\displaystyle \left(\frac{30}{40}\right)^2-\left(\frac{10}{40}\right)^2\)

\(\displaystyle = \frac{3}{8}\)

\(Gini_X(t_R)\)\(=1-\displaystyle \left(\frac{0}{10}\right)^2-\left(\frac{10}{10}\right)^2\)

\(\displaystyle = 0\)

\(Gain_X=\displaystyle \frac{12}{25}-\frac{40}{50}\frac{3}{8}-\frac{10}{50}\cdot 0\)

\(\displaystyle =\frac{9}{50}\)

最初に\(Y\)で分割した場合、

\(Gini_Y(t_L)\)\(=1-\displaystyle \left(\frac{30}{35}\right)^2-\left(\frac{5}{35}\right)^2\)

\(\displaystyle = \frac{12}{49}\)

\(Gini_Y(t_R)\)\(=1-\displaystyle \left(\frac{0}{15}\right)^2-\left(\frac{15}{15}\right)^2\)

\(\displaystyle = 0\)

\(Gain_Y=\displaystyle \frac{12}{25}-\frac{35}{50}\frac{12}{49}-\frac{15}{50}\cdot 0\)

\(\displaystyle =\frac{54}{175}\)

\(Gain_X < Gain_Y\)なので最初に\(Y\)で分割する方が分割効率が良い。

[4]

公式の解答および以下のサイトを参照。

【機械学習】ランダムフォレストを理解する - Qiita
#1.目的機械学習をやってみたいと思った場合、scikit-learn等を使えば誰でも比較的手軽に実装できるようになってきています。但し、仕事で成果を出そうとしたり、より自分のレベルを上げていく…

コメント

タイトルとURLをコピーしました