この記事は『数学ガールの秘密ノート/やさしい統計』として書籍化されています。
僕とテトラちゃんそれにミルカさんは《コインを $10$ 回投げるときに表が出る回数》について話している。 確率母関数で平均と分散を求めたところ。
ミルカ「ここまで出たら、さらに《次の一歩》が楽しみだな」
テトラ「さらに……次の一歩?」
僕「何?」
ミルカ「君なら《次の一歩》はどうする?」
僕「そうだなあ……そうか《変数の導入による一般化》がすぐにできそうだね」
テトラ「変数の導入による一般化……表が出る確率を $p$ とする、とかでしょうか」
ミルカ「それもある」
僕「回数もあるね。コイン投げの回数を $n$ とする」
ミルカ「ふうん……」
僕「だから、《次の一歩》はこの問題だよ」
問題1
表が出る確率が $p$ になっているコインを $n$ 回投げたとする。
このとき、表が出る回数を表す確率変数 $X$ の平均 $E(X)$ と分散 $V(X)$ を求めよ。
テトラ「これも、確率母関数で?」
僕「うん、求められるよ。さっきは $p = \frac12$ で $n = 10$ だったわけだよね。 そのときの考え方をそのまま使える(第129回参照)」
テトラ「なるほどです」
僕「表が出る確率が $\frac12$ のコインを $1$ 回投げたときの確率母関数は、 $\frac12 + \frac12x$ で、最初の $\frac12$ は裏が出る確率で、 二つ目の $\frac12$ は表が出る確率」
テトラ「はい、そうですね。ということは表が出る確率が $p$ なら、 確率母関数はこうなる……んですよね?」
表が出る確率が $p$ であるコインを $1$ 回投げたときの確率母関数 $$ (1-p) + px $$
僕「そうだね。裏が出る確率が $1-p$ だから。 そしてこれを $n$ 回投げるときの確率母関数 $f(x)$ は $n$ 乗すればいい」
表が出る確率が $p$ であるコインを $n$ 回投げたときの確率母関数 $$ f(x) = \left((1-p) + px\right)^n $$
テトラ「平均と分散もさきほどと同じように確率母関数を微分して得られますね」
僕「そうだね。だから、 $f'(x)$ と $f''(x)$ を求めておこう」
$$ \begin{align*} f'(x) &= n\left((1-p) + px\right)^{n-1} \cdot p \\ &= np\left((1-p) + px\right)^{n-1} \\ f''(x) &= n(n-1)p\left((1-p) + px\right)^{n-2} \cdot p \\ &= n(n-1)p^2\left((1-p) + px\right)^{n-2} \\ \end{align*} $$テトラ「あとは公式のままですね」
$$ \begin{align*} E(X) &= f'(1) \\ &= np \\ V(X) &= f''(1) + f'(1) - f'(1)^2 \\ &= n(n-1)p^2 + np - n^2p^2 \\ &= -np^2 + np \\ &= np - np^2 \\ &= \REMTEXT{えっと……} \\ \end{align*} $$テトラ「えっと……これでいいんでしょうか。 平均は $E(X) = np$ で、分散は $V(X) = np - np^2$ で」
僕「いいと思うけど?」
ミルカ「$np$ でくくる」
テトラ「$np$ でくくると、 $np - np^2 = np(1-p)$ となります」
僕「へえ、そうか。分散は、投げる回数×表が出る確率×裏が出る確率になるんだね」
解答1
表が出る確率が $p$ であるコインを $n$ 回投げる。
表が出る回数を表す確率変数を $X$ としたときの平均 $E(X)$ と分散 $V(X)$ は次の通り。
$$ \left\{\begin{array}{llll} E(X) &= np \\ V(X) &= np(1-p) \\ \end{array}\right. $$
僕「一般化できたね。平均が $np$ というのは、 直観的にもよくわかるなあ。回数 $n$ に、表が出る確率 $p$ を掛けた回数だけ、 表が出ることが期待できるということだから」
テトラ「分散の方はどう使うんでしょう」
ミルカ「標準偏差にした方が使いやすい」
僕「標準偏差 $\sigma = \sqrt{V(X)}$ だから、 $n$ 回コインを投げたときに表が出る確率変数 $X$ の標準偏差は $\sqrt{np(1-p)}$ だね」
表が出る確率が $p$ であるコインを $n$ 回投げる
表が出る回数を表す確率変数を $X$ としたときの標準偏差 $\sigma$ は次の通り。
$$ \sigma = \sqrt{np(1-p)} $$
テトラ「……」
僕「どうしたの?」
テトラ「……あのですね。確率母関数もだいぶ慣れましたし、 $n$ 回投げたら $np$ 回表が出そうというのもわかるんですが、 でも、いまの $\sigma = \sqrt{np(1-p)}$ はどう納得したらいいんでしょう」
ミルカ「テトラの納得とは?」
テトラ「す、すみません。変な話かもしれないんですが…… 式変形をずっとしてきました。 そして結果がわかりました。 そのとき《求められたなあ》とは思えるんですが、 《なるほど、そうなんだ》とは思えなくて……」
僕「でもさっきは納得してたみたいだけど」
テトラ「ええとですね……はい。 確率 $\frac12$ のコインを $10$ 回投げたときは、 あたし、標準偏差を手で計算しましたよね。 その結果と一致したので、それで、納得できたんだと思います。 でも、一般化したあとの標準偏差が $\sqrt{np(1-p)}$ と言われましても、何をどう考えればいいのか……」
ミルカ「ふむ」
僕「じゃ、具体的な値で計算してみようよ。 たとえば、 $n = 100$ で $p = \frac12$ だとしたらこうだよ」
$$ \left\{\begin{array}{llll} E(X) &= np = 50 \\ V(X) &= np(1-p) = 25 \\ \sigma &= \sqrt{np(1-p)} = \sqrt{25} = 5 \\ \end{array}\right. $$
僕「ね?」
テトラ「あ、はい」
ミルカ「テトラは、 $\sigma$ の使いどころがわかっていないのでは?」
テトラ「$\sigma$ の使いどころ……標準偏差の使いどころ?」
ミルカ「そう」
テトラ「標準偏差は、散らばりの度合いである分散と同じですよね。 ただ、分散は $2$ 乗したものの平均なので、標準偏差はルートを取っていますけれど。 でも、そこから何に使うのでしょう」
ミルカ「テトラは忘れてしまったようだな。分散を知ると何がうれしいのだろう。 散らばりの度合いが大きいとか小さいとかを論じることにどんな意義があるのだろう。 標準偏差を知ることも同じ」
テトラ「……あっ! そうでした。平均からのずれがわかる……そうです、そうです。 《驚きの度合い》がわかるんでしたっ!(第123回参照)」
僕「そういえば、チェビシェフの不等式があったね。 《分布に寄らず、 $\mu - 2\sigma < x < \mu + 2\sigma$ を満たすデータ $x$ は全体の $\frac34$ より多い》(第124回参照)」
チェビシェフの不等式
いかなる分布でも、 $$ \mu - c\sigma < x < \mu + c\sigma $$ を満たすデータ $x$ の個数の割合は、 $1 - \dfrac{1}{c^2}$ より大きい。
ただし $\mu$ は平均点、 $\sigma$ は標準偏差、 $c$ は任意の正の定数である。
テトラ「ということは、先ほどの先輩がおっしゃった例ですと、 たとえば、 $n = 100$ で $p = \frac12$ だとしたら、平均が $50$ で標準偏差が $5$ でしたから……」
コインを $100$ 回投げた例に、チェビシェフの不等式を適用
$$ \mu - c\sigma < x < \mu + c\sigma $$ すなわち、 $100$ 回コインを投げたときコインが表になる回数 $x$ が、 $$ 50 - 5c < x < 50 + 5c $$ を満たす割合は、 $1 - \dfrac{1}{c^2}$ より大きい。
たとえば $c = 2$ とすると、 $$ 40 < x < 60 $$ を満たす割合は、 $\frac34$ より大きい。
テトラ「なるほどです……平均がいくらというだけではなく、 標準偏差 $\sigma$ がわかることで《幅》がわかる感じですね」
ミルカ「そう。 二項分布を仮定すればもっと強い主張がいえるけれど、 チェビシェフの不等式だけでも味わい深い」
僕「確かに」
ミルカ「しかし、ここでもう一歩進めそうだ」
僕「というと?」
ミルカ「せっかく $n$ と $p$ で一般化したのだ。 $n$ が非常に大きいときにどうなるかが気になる……だろう?」
僕「$n$ が非常に大きいとき?」
ミルカ「こんな問題を考えてみよう」
問題2
表が出る確率が $p$ であるコインを $n$ 回投げる。
$n$ 回のうち表の出る回数をあらわす確率変数を $X$ として、 新たな確率変数 $Y$ を $$ Y = \frac{X}{n} $$ として定義する。 このとき、 $Y$ の平均 $E(Y)$ と分散 $V(Y)$ を求めよ。
無料で「試し読み」できるのはここまでです。 この続きをお読みになるには「読み放題プラン」へのご参加が必要です。
ひと月500円で「読み放題プラン」へご参加いただきますと、 435本すべての記事が読み放題になりますので、 ぜひ、ご参加ください。
参加済みの方/すぐに参加したい方はこちら
結城浩のメンバーシップで参加 結城浩のpixivFANBOXで参加(2015年9月4日)
この記事は『数学ガールの秘密ノート/やさしい統計』として書籍化されています。
書籍化にあたっては、加筆修正をたくさん行い、 練習問題や研究問題も追加しました。
どの巻からでも読み始められますので、 ぜひどうぞ!