この記事は『数学ガールの秘密ノート/やさしい統計』として書籍化されています。
登場人物紹介
僕:数学が好きな高校生。
テトラちゃん:僕の後輩。好奇心旺盛で根気強い《元気少女》。
ミルカさん:数学が好きな高校生。僕のクラスメート。長い黒髪の《饒舌才媛》。
僕「……という話をユーリとしゃべってたんだよ」
テトラ「すごいですね……あたし、いつも思うんですけれど、 ユーリちゃんは中学生じゃないみたいです」
僕「あれで意外とわかってなかったりするんだけどね」
テトラ「いえいえ違います。発想といいますか、 着眼点といいますか、そういうところが中学生じゃないみたいです。 分散の話を聞いて、そんなふうにパッと発想をひろげられるなんて……(第122回参照)」
僕「ああ、確かにそれはいえるね。 ユーリはパッとわからないと気がすまない性格。 めんどくさがりで飽きっぽいから、一回で把握したいんだろうなあ」
テトラ「あの……先輩?」
僕「え?」
テトラ「先輩とユーリちゃんの話をお聞きしていて、 何だか、あたしは不安になってきました」
僕「不安というと?」
テトラ「あたしは《分散》ということがほんとうにわかっているのだろうか……という不安です」
僕「なるほど。分散はかんたんにいえば『散らばりの度合い』のことだよ」
テトラ「あ、いえいえ。すみません。いちおうあたしも分散の定義は知っていますし、 計算も……ええと、たぶん、できると思います。 それから授業でも『散らばりの度合い』というような説明を聞いた記憶があります」
僕「うんうん」
テトラ「でも、あたしが不安になっているのは、 それでもやっぱり「ほんとうにほんとうのところ」はわかってないように思うんです」
僕「へえ、そうかなあ。 僕は『分散は散らばりの度合い』や『分散が大きい方がばらけている』という説明で納得しちゃったんだけど」
テトラ「あ、あたしはとろいので……それとも、 定義もわかっていて、計算もできるけれど、わかってないと考えることがそもそもまちがいなんでしょうか」
僕「いや、そんなことはないよ。 たいていの場合は、何か納得いかないときにはそこに大事なことが隠れているものだからね。 数学では特に、じっくり時間を掛けて考えてみることは必要だと思うな。 それに、テトラちゃんはそういう考え方が得意みたいだしね」
テトラ「はい?」
僕「ほら、テトラちゃんは『自分がわかっていないのはどこか』や『自分はいまどう考えていて、 どこにひっかかっているか』を表現するのがとてもうまいんだよ。 つまり、自分の理解を客観的に見ることができているんだね。 ユーリはまだあまりそういうのは得意じゃないみたいだ。何を考えているか、 話していてもユーリが何を言いたいのかわからないこともあるし」
テトラ「……あたし、そんなに自分のこと客観的に見ることできてません。 でも、ほんとうに、ちゃんとわかりたい、とは思っています」
僕「分散のことも」
テトラ「はい、そうですっ!」
僕「そうだね。ちゃんと数式で書いてみるとこうかな。まずは平均値から」
平均値
$n$ 個の数値があるとしよう。この $n$ 個の数値のまとまりをデータと呼ぶ。 データに含まれている $n$ 個の数値を $x_1, x_2, \ldots, x_n$ と表すことにする。
このとき、 $$ \dfrac{x_1 + x_2 + \cdots + x_n}{n} $$ を、このデータの平均値と呼ぶ。
テトラ「はい、これは大丈夫ですし、あまり不安にはなりません」
僕「それから、分散はこうだね」
分散
データ $x_1, x_2, \ldots, x_n$ の平均値を $m$ で表すことにする。
数値 $x_1$ と平均値 $m$ の差、すなわち、 $$ x_1 - m $$ を、 $x_1$ の偏差と呼ぶ。 $x_1$ の偏差と同様に、 $x_2$ の偏差、 $x_3$ の偏差などを考えることができる。
$x_1, x_2, \ldots, x_n$ の偏差をそれぞれ $2$ 乗した値の平均値を分散と呼ぶ。 すなわち分散は、
$$ \dfrac{(x_1 - m)^2 + (x_2 - m)^2 + \cdots + (x_n - m)^2}{n} $$
である。
テトラ「はい、これは分散の定義ですね」
僕「うん、そうだよ。……それで、何がわからないんだろう」
テトラ「ええとですね。この分散というのは、一つの数ですよね」
僕「そうだね」
テトラ「あたしは、『散らばり』という言葉にひっかかっているみたいです。 あたしは『散らばり』と聞くと『たくさんのものがある』とイメージしてしまうんです。 だって、たった一つしかなかったら散らばりようがありませんから」
僕「うんうん、それは正しいと思う」
テトラ「でも、先ほどお尋ねしたように、分散は一つの数ですよね。 それがちょっと……」
僕「あれ、そこに引っかかっていたの? それは単純な勘違いかもしれないよ。 データにはたくさんの数値が含まれている。一つ一つの数値を見たとき、 平均値と一致してるものもあるけれど、ずれているものもある」
テトラ「はい」
僕「そのずれを表しているのが偏差だね。たとえば数値 $x_1$ の偏差は $x_1 - m$ で表す。 偏差は正の数になることもあれば、負の数になることもあるし、 $0$ のこともある。でも偏差を $2$ 乗すれば必ず $0$ 以上になる」
テトラ「はい、大丈夫です。 あれ、もしかすると、偏差ってたくさんありますか? それだと、 偏差の散らばりが、あれれ?」
僕「落ち着いて落ち着いて。 データが $n$ 個の数値を含んでいるなら、偏差は $n$ 個あるよ。 それから偏差の $2$ 乗も $n$ 個あるね」
$$ \begin{array}{c|ccc} & \REMTEXT{データ} & \REMTEXT{偏差} & \REMTEXT{偏差の$2$乗} \\ \hline 1 & x_1 & x_1 - m & (x_1 - m)^2 \\ 2 & x_2 & x_2 - m & (x_2 - m)^2 \\ 3 & x_3 & x_3 - m & (x_3 - m)^2 \\ \vdots & \vdots & \vdots & \vdots \\ n & x_n & x_n - m & (x_n - m)^2 \\ \end{array} $$テトラ「……」
僕「《偏差の $2$ 乗》は平均値からのずれの大きさを表現している。数値ごとにね。 《偏差の $2$ 乗》が $n$ 個も集まると多くて扱いにくい。 だからこそ……ここが大事なんだけど、 たくさんある《偏差の $2$ 乗》を使って、その平均値を求めるんだよ。 《偏差の $2$ 乗》を平らに均したとき、どのくらいになるかを考えるんだね」
テトラ「あ……」
僕「たくさんある《偏差の $2$ 乗》そのものじゃなく、《偏差の $2$ 乗》の平均値。 それが分散。分散は一つの数値に過ぎないんだけど、 いま注目しているデータでは《偏差の $2$ 乗》が、平均的にどれくらいの大きさになるかがわかる。 分散という一つの数値でわかるわけだ」
テトラ「納得してきました! あのですね、あたしの誤解がわかりました。 あたしは散らばっているものでなければ、散らばりがわからないと思っていたんです。 分散は一つの数値だから散らばれないのに、 どうして散らばりがわかるんだろうとフワフワ考えてしまって…… あたしが気付いていなかったのは、 《偏差の $2$ 乗》がたくさんあったら扱いにくいという点でした」
僕「うんうん」
テトラ「分散というのは、《偏差の $2$ 乗》に対する平均値という代表値だったんですね!」
僕「そうだね。たくさんあると扱いにくい、だから代表値を取る。代表値として平均値を選んだ。 分散は《偏差の $2$ 乗の平均値》とひとことでいえる。数式を並べて書くとよくわかるかも」
平均値
$$ \begin{array}{c} x_1, x_2, \ldots, x_n \qquad \REMTEXT{たくさんの数値} \\ \downarrow \\ \dfrac{x_1 + x_2 + \cdots + x_n}{n} \REMTEXT{平均値} \\ \end{array} $$
分散
$$ \begin{array}{c} (x_1 - m)^2, (x_2 - m)^2, \ldots, (x_n - m)^2 \qquad \REMTEXT{たくさんの数値(偏差の$2$乗)} \\ \downarrow \\ \dfrac{(x_1 - m)^2 + (x_2 - m)^2 + \cdots + (x_n - m)^2}{n} \qquad \REMTEXT{平均値(分散)} \\ \end{array} $$
テトラ「うわ……何だか納得してしまうと、当たり前すぎて恥ずかしいです」
僕「いやいや、納得するまで考え続けるのは大事だとおもうよ。ちっとも恥ずかしいことじゃない。 うん、たとえば、こんなふうに考えるともっとわかりやすいかも。あのね、 $$ \begin{align*} y_1 &= (x_1 - m)^2 \\ y_2 &= (x_2 - m)^2 \\ &\vdots \\ y_n &= (x_n - m)^2 \\ \end{align*} $$ のように名前を付け替えるんだよ。 $x_k$ から $y_k$ に。 そうすると、平均値と分散がどちらも《平均値を求める》という同じ計算をしていることがよくわかる」
平均値と分散
$y_k = (x_k - m)^2$ と置く($k = 1, 2, \ldots, n$)。 $$ \begin{array}{cc} \REMTEXT{平均値} & \REMTEXT{分散} \\ \dfrac{x_1 + x_2 + \cdots + x_n}{n} & \dfrac{y_1 + y_2 + \cdots + y_n}{n} \\ \end{array} $$
テトラ「確かにそうですね……」
テトラ「あのですね、先輩はこのようにさささっと数式をお書きになります」
僕「でも、これは単なる平均を求める式なんだからそれほど難しくないよね」
テトラ「そうなんですが、難しいかどうかというよりも、 《数式を書いた方が整理できる》や《数式で表した方が理解できる》という発想に、 どうもあたしは切り換えられなくて……」
僕「それは慣れているかどうかが大きいと思うよ。 慣れていればさっと出てくるし、いつも見ているものなら《見たことある》とわかるし、書いていても楽しい。 そうだ。たとえば、こんな数式を考えてみようよ」
$$ (a - b)^2 = \textbf{?} $$テトラ「はあ……これはさすがに $a^2 - 2ab + b^2$ とわかります」
$$ (a - b)^2 = a^2 - 2ab + b^2 $$僕「じゃあ、この計算はどう?」
$$ \dfrac{(a - \tfrac{a + b}{2})^2 + (b - \tfrac{a + b}{2})^2}{2} = \REMTEXT{?} $$テトラ「ややこしく見えますけれど、このくらいなら、大丈夫です」
$$ \begin{align*} & \dfrac{(a - \tfrac{a + b}{2})^2 + (b - \tfrac{a + b}{2})^2}{2} \\ &= \dfrac{(\tfrac{2a}{2} - \tfrac{a + b}{2})^2 + (\tfrac{2b}{2} - \tfrac{a + b}{2})^2}{2} \\ &= \dfrac{(\tfrac{a - b}{2})^2 + (\tfrac{-a + b}{2})^2}{2} \\ &= \dfrac{(\tfrac{a - b}{2})^2 + (\tfrac{a - b}{2})^2}{2} \\ &= \left(\dfrac{a - b}{2}\right)^2 \\ &= \dfrac{a^2 - 2ab + b^2}{4} \\ \end{align*} $$僕「じゃ、これは?」
$$ \dfrac{a^2 + b^2}{2} - \left(\dfrac{a + b}{2}\right)^2 = \REMTEXT{?} $$テトラ「形が似てますけど、負けませんよ……」
$$ \begin{align*} & \dfrac{a^2 + b^2}{2} - \left(\dfrac{a + b}{2}\right)^2 \\ &= \dfrac{a^2 + b^2}{2} - \dfrac{a^2 + 2ab + b^2}{4} \\ &= \dfrac{2a^2 + 2b^2}{4} -\dfrac{a^2 + 2ab + b^2}{4} \\ &= \dfrac{a^2 - 2ab + b^2}{4} \\ & \REMTEXT{あ、あれれ?!} \\ \end{align*} $$テトラ「あれれ?! さっきの計算結果と同じになっちゃいました!」
無料で「試し読み」できるのはここまでです。 この続きをお読みになるには「読み放題プラン」へのご参加が必要です。
ひと月500円で「読み放題プラン」へご参加いただきますと、 434本すべての記事が読み放題になりますので、 ぜひ、ご参加ください。
参加済みの方/すぐに参加したい方はこちら
結城浩のメンバーシップで参加 結城浩のpixivFANBOXで参加(2015年7月17日)
この記事は『数学ガールの秘密ノート/やさしい統計』として書籍化されています。
書籍化にあたっては、加筆修正をたくさん行い、 練習問題や研究問題も追加しました。
どの巻からでも読み始められますので、 ぜひどうぞ!