[1]
公式の解答を参照。
[2]
[2-1]
\(p_1+\cdots p_K=1\)の条件の下での\(p_1^2+\cdots +p_K^2\)の最大最小を考える。
最小値はシュワルツの不等式により、
\(p_1+\cdots+p_K \leq (1^2+\cdots +1^2)(p_1^2+\cdots+p_K^2)\)
なので、
\(1 \leq K(p_1^2+\cdots+p_K^2)\)
より、
\(p_1^2+\cdots+p_K^2\geq \displaystyle \frac{1}{K}\)
最小値は\(\displaystyle \frac{1}{K}\)で、等号成立は\(p_1=\cdots = p_K= \displaystyle \frac{1}{K}\)の時である。
最大値は、
\(p_1^2+\cdots+p_K^2\)\(\displaystyle =(p_1+\cdots+p_K)^2-2\sum_{i<j}p_ip_j \)
\(\displaystyle = 1-2\sum_{i<j}p_ip_j\)\(\leq 1\)
最大値は\(1\)で、等号成立は\(\displaystyle \sum_{i<j}p_ip_j=0\)の時である。
これは任意の\((i,j)\)の組に対して\(p_ip_j=0\)となる場合で、\(K-1\)個の\(p_k\)が\(0\)すなわち、ある1つのみが\(p_k=1\)となる場合である。
少なくとも1つの\(p_k\)が\(1\)となるので、\(\displaystyle \prod_{k=1}^K(p_k-1)=0\)だと書くことも出来る。
以上より、Giniの最大値は\(1-\displaystyle \frac{1}{K}\)(\(p_1=\cdots=p_K=\displaystyle \frac{1}{K}\)の時)、最小値は\(0\)(\(\displaystyle \prod_{k=1}^K(p_k-1)=0\)の時)である。
[2-2]
余事象「個体が元のカテゴリーに移動する確率」を考える。
第\(k\)カテゴリーに分類された個体の比率は\(p_k\)なので、ランダムに個体を選んだ場合、第\(k\)カテゴリーの個体である確率は\(p_k\)となる。
ここからカテゴリー\(k\)に移動する確率は\(p_k\)なので、ランダムに個体を選んだ場合、第\(k\)カテゴリーの個体であり、カテゴリー\(k\)に移動する確率は\(p_k^2\)となる。
全ての\(k\)についての確率を\(1\)から引くことで、求める確率は、
\(\displaystyle Gini = 1-\sum_{k=1}^K p_k^2\)
[2-3]
準良品と良品のカテゴリーをそれぞれカテゴリー1、カテゴリー2とする。
(1)式を下に計算すると、
\(Gini=1-p_1^2-p_2^2\)
\(=1-\displaystyle \left(\frac{30}{50}\right)^2-\left(\frac{20}{50}\right)^2\)
\(\displaystyle =\frac{12}{25}\)
[3]
\(Gini(t) \displaystyle =\frac{12}{25}\)
最初に\(X\)で分割した場合、
\(Gini_X(t_L)\)\(=1-\displaystyle \left(\frac{30}{40}\right)^2-\left(\frac{10}{40}\right)^2\)
\(\displaystyle = \frac{3}{8}\)
\(Gini_X(t_R)\)\(=1-\displaystyle \left(\frac{0}{10}\right)^2-\left(\frac{10}{10}\right)^2\)
\(\displaystyle = 0\)
\(Gain_X=\displaystyle \frac{12}{25}-\frac{40}{50}\frac{3}{8}-\frac{10}{50}\cdot 0\)
\(\displaystyle =\frac{9}{50}\)
最初に\(Y\)で分割した場合、
\(Gini_Y(t_L)\)\(=1-\displaystyle \left(\frac{30}{35}\right)^2-\left(\frac{5}{35}\right)^2\)
\(\displaystyle = \frac{12}{49}\)
\(Gini_Y(t_R)\)\(=1-\displaystyle \left(\frac{0}{15}\right)^2-\left(\frac{15}{15}\right)^2\)
\(\displaystyle = 0\)
\(Gain_Y=\displaystyle \frac{12}{25}-\frac{35}{50}\frac{12}{49}-\frac{15}{50}\cdot 0\)
\(\displaystyle =\frac{54}{175}\)
\(Gain_X < Gain_Y\)なので最初に\(Y\)で分割する方が分割効率が良い。
[4]
公式の解答および以下のサイトを参照。
![](https://qiita-user-contents.imgix.net/https%3A%2F%2Fcdn.qiita.com%2Fassets%2Fpublic%2Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png?ixlib=rb-4.0.0&w=1200&mark64=aHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUUzJTgwJTkwJUU2JUE5JTlGJUU2JUEyJUIwJUU1JUFEJUE2JUU3JUJGJTkyJUUzJTgwJTkxJUUzJTgzJUE5JUUzJTgzJUIzJUUzJTgzJTgwJUUzJTgzJUEwJUUzJTgzJTk1JUUzJTgyJUE5JUUzJTgzJUFDJUUzJTgyJUI5JUUzJTgzJTg4JUUzJTgyJTkyJUU3JTkwJTg2JUU4JUE3JUEzJUUzJTgxJTk5JUUzJTgyJThCJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0wY2NhNGRkNzVhYWEwODU2MDYwMGI1Yzk0YTYxYTdhYQ&mark-x=142&mark-y=112&blend64=aHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwSGF3YWlpJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzImdHh0LWFsaWduPWxlZnQlMkN0b3Amcz01Njc4YzVlZjE2NmJhY2Q2YWQwZTcwMzAxN2EyYmQ3OA&blend-x=142&blend-y=491&blend-mode=normal&s=47057876370f812fa51b76abca92b78a)
コメント