[1]
公式の解答を参照。
[2]
[2-1]
\(p_1+\cdots p_K=1\)の条件の下での\(p_1^2+\cdots +p_K^2\)の最大最小を考える。
最小値はシュワルツの不等式により、
\(p_1+\cdots+p_K \leq (1^2+\cdots +1^2)(p_1^2+\cdots+p_K^2)\)
なので、
\(1 \leq K(p_1^2+\cdots+p_K^2)\)
より、
\(p_1^2+\cdots+p_K^2\geq \displaystyle \frac{1}{K}\)
最小値は\(\displaystyle \frac{1}{K}\)で、等号成立は\(p_1=\cdots = p_K= \displaystyle \frac{1}{K}\)の時である。
最大値は、
\(p_1^2+\cdots+p_K^2\)\(\displaystyle =(p_1+\cdots+p_K)^2-2\sum_{i<j}p_ip_j \)
\(\displaystyle = 1-2\sum_{i<j}p_ip_j\)\(\leq 1\)
最大値は\(1\)で、等号成立は\(\displaystyle \sum_{i<j}p_ip_j=0\)の時である。
これは任意の\((i,j)\)の組に対して\(p_ip_j=0\)となる場合で、\(K-1\)個の\(p_k\)が\(0\)すなわち、ある1つのみが\(p_k=1\)となる場合である。
少なくとも1つの\(p_k\)が\(1\)となるので、\(\displaystyle \prod_{k=1}^K(p_k-1)=0\)だと書くことも出来る。
以上より、Giniの最大値は\(1-\displaystyle \frac{1}{K}\)(\(p_1=\cdots=p_K=\displaystyle \frac{1}{K}\)の時)、最小値は\(0\)(\(\displaystyle \prod_{k=1}^K(p_k-1)=0\)の時)である。
[2-2]
余事象「個体が元のカテゴリーに移動する確率」を考える。
第\(k\)カテゴリーに分類された個体の比率は\(p_k\)なので、ランダムに個体を選んだ場合、第\(k\)カテゴリーの個体である確率は\(p_k\)となる。
ここからカテゴリー\(k\)に移動する確率は\(p_k\)なので、ランダムに個体を選んだ場合、第\(k\)カテゴリーの個体であり、カテゴリー\(k\)に移動する確率は\(p_k^2\)となる。
全ての\(k\)についての確率を\(1\)から引くことで、求める確率は、
\(\displaystyle Gini = 1-\sum_{k=1}^K p_k^2\)
[2-3]
準良品と良品のカテゴリーをそれぞれカテゴリー1、カテゴリー2とする。
(1)式を下に計算すると、
\(Gini=1-p_1^2-p_2^2\)
\(=1-\displaystyle \left(\frac{30}{50}\right)^2-\left(\frac{20}{50}\right)^2\)
\(\displaystyle =\frac{12}{25}\)
[3]
\(Gini(t) \displaystyle =\frac{12}{25}\)
最初に\(X\)で分割した場合、
\(Gini_X(t_L)\)\(=1-\displaystyle \left(\frac{30}{40}\right)^2-\left(\frac{10}{40}\right)^2\)
\(\displaystyle = \frac{3}{8}\)
\(Gini_X(t_R)\)\(=1-\displaystyle \left(\frac{0}{10}\right)^2-\left(\frac{10}{10}\right)^2\)
\(\displaystyle = 0\)
\(Gain_X=\displaystyle \frac{12}{25}-\frac{40}{50}\frac{3}{8}-\frac{10}{50}\cdot 0\)
\(\displaystyle =\frac{9}{50}\)
最初に\(Y\)で分割した場合、
\(Gini_Y(t_L)\)\(=1-\displaystyle \left(\frac{30}{35}\right)^2-\left(\frac{5}{35}\right)^2\)
\(\displaystyle = \frac{12}{49}\)
\(Gini_Y(t_R)\)\(=1-\displaystyle \left(\frac{0}{15}\right)^2-\left(\frac{15}{15}\right)^2\)
\(\displaystyle = 0\)
\(Gain_Y=\displaystyle \frac{12}{25}-\frac{35}{50}\frac{12}{49}-\frac{15}{50}\cdot 0\)
\(\displaystyle =\frac{54}{175}\)
\(Gain_X < Gain_Y\)なので最初に\(Y\)で分割する方が分割効率が良い。
[4]
公式の解答および以下のサイトを参照。
コメント