この記事は『数学ガールの秘密ノート/やさしい統計』として書籍化されています。
登場人物紹介
僕:数学が好きな高校生。
テトラちゃん:僕の後輩。好奇心旺盛で根気強い《元気少女》。
ミルカさん:数学が好きな高校生。僕のクラスメート。長い黒髪の《饒舌才媛》。
僕とテトラちゃんとミルカさんは「分散」について話している。
ミルカ「いま彼が説明してくれた通りだ(第123回参照)。 分散を知っていれば、 ある一つの数値をピックアップしたときにそれが《ありふれた数値》なのか、 《めずらしい数値》なのか、それがわかるのだ」
僕「なるほどなあ……」
テトラ「なるほどです。だから《すごさの度合い》《驚きの度合い》《めずらしさの度合い》がわかると……」
ミルカ「そう」
僕「分散が大きいとしたら、平均値から大きくずれた数値が選ばれても驚くことじゃないんだ。 ありふれた数値なんだから。確かに、平均値だけからはその《驚きの度合い》はわからないね。なるほど!」
テトラ「自分が平均点よりもすごく大きな点数を取っても、 分散がわからなければ、その点数のほんとうの価値はわからないんですね……」
ミルカ「その発想から一歩進めば偏差値に至る」
テトラ「偏差値?」
ミルカ「うん? テトラは偏差値を知らないのか」
テトラ「いえいえっ! そんなことはありません。 もちろん高校生として偏差値は知っていますが」
ミルカ「では、テトラは偏差値の定義を述べる」
ミルカさんは、そういってテトラちゃんを指さした。
テトラ「えっ、あっ、えっと、偏差値の定義……そういう意味ではなくてですね。 偏差値という言葉は知っていますが、偏差値の定義は知りませんでした。すみません」
ミルカ「言葉は知っているが、定義は知らないと」
テトラ「えっと、あの……そうですね。 考えてみると、変な話ですね。テストを受けるとき、受験を考えるとき、 いつも気にしている数値なのに定義を知らないなんて……」
ミルカ「代わりに、君が偏差値の定義を述べる」
ミルカさんは、今度は僕を指さした。
僕「確か、こうだったかな」
偏差値の定義
あるテストを受けた人が $n$ 人いて、 それぞれの得点を $x_1, x_2, \ldots, x_n$ と表すことにする。
得点の平均値を $\mu$(ミュー)とする。
得点の標準偏差を $\sigma$(シグマ)とする。
そのとき、そのテストにおける得点 $x_k$ の偏差値を $$ 50 + 10 \times \dfrac{x_k - \mu}{\sigma} $$ と定義する。
テトラ「ええと……標準偏差?」
僕「標準偏差は分散のルートを取ったものだよ、テトラちゃん。 つまり、平方根のうち正のもの……あ、 $0$ の場合もあるか……負でない平方根。 分散を $V$ とすると標準偏差 $\sigma$ は $\sigma = \sqrt{V}$ だね」
テトラ「標準偏差は……偏差とも、偏差値とも違うんですよね」
ミルカ「定義を再確認」
僕「そうだね」
平均値
$n$ 個の数値があるとしよう。この $n$ 個の数値のまとまりをデータと呼ぶ。 データに含まれている $n$ 個の数値を $x_1, x_2, \ldots, x_n$ と表すことにする。
このとき、 $$ \mu = \dfrac{x_1 + x_2 + \cdots + x_n}{n} $$ を、このデータの平均値と呼ぶ。
テトラ「はい、すみません……」
分散
データ $x_1, x_2, \ldots, x_n$ の平均値を $\mu$ で表すことにする。
数値 $x_1$ と平均値 $\mu$ の差、すなわち、 $$ x_1 - \mu $$ を、 $x_1$ の偏差と呼ぶ。 $x_1$ の偏差と同様に、 $x_2$ の偏差、 $x_3$ の偏差などを考えることができる。
$x_1, x_2, \ldots, x_n$ の偏差をそれぞれ $2$ 乗した値の平均値を分散と呼ぶ。 すなわち分散 $V$ は、
$$ V = \dfrac{(x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2}{n} $$
である。
テトラ「はい、これも大丈夫です。確認ですけれど、 $x_k$ の偏差は $x_k - \mu$ でいいんですよね?」
僕「そうだね。それでいいよ。そして、標準偏差はこう」
標準偏差
分散が $V$ のとき、平方根のうち負でないほうを標準偏差という。 標準偏差を $\sigma$ で表すと、 $$ \sigma = \sqrt{V} $$ である。
テトラ「偏差、標準偏差……そして、偏差値ですね?」
僕「そうそう」
偏差値の定義
あるテストを受けた人が $n$ 人いて、 それぞれの得点を $x_1, x_2, \ldots, x_n$ と表すことにする。
得点の平均値を $\mu$ とする。
得点の標準偏差を $\sigma$ とする。
そのとき、そのテストにおける得点 $x_k$ の偏差値を $$ 50 + 10 \times \dfrac{x_k - \mu}{\sigma} $$ と定義する。
テトラ「はい、偏差値の定義はわかりました。 いえ、わかりましたというか、得点から平均点が計算できて、 得点と平均点から分散が計算できて、 分散から標準偏差が計算できて、 そして、そこから偏差値が計算できる……ということまではわかりました」
$$ \begin{align*} x_1, x_2, x_3, \ldots, x_n &\to \mu && \REMTEXT{得点から平均値} \\ x_1, x_2, x_3, \ldots, x_n, \mu & \to V && \REMTEXT{得点と平均値から分散} \\ V & \to \sigma && \REMTEXT{分散から標準偏差} \\ x_k, \mu, \sigma & \to \REMTEXT{$x_k$の偏差値} && \REMTEXT{得点$x_k$と平均値と標準偏差から$x_k$の偏差値} \\ \end{align*} $$
僕「うん」
テトラ「でも、偏差値が何なのかはわかりません……」
僕「得点の偏差値は、平均値を $50$ にそろえた場合の得点に相当するんだよ。 ほら、テストって難しいとき・易しいとき、いろいろあるよね。 そういうときは、平均点が動いちゃう」
テトラ「それはそうですね。難しいテストは平均点が低くなります」
僕「あるとき《テストAで $70$ 点とった》として、 しばらくして《テストBで $70$ 点とった》とする。 単純に得点を比較すると、実力は $70$ 点から変わっていないように見える」
テトラ「はい。テストAよりもテストBのほうが難しかったら、 同じ $70$ 点でも実力はアップしていたかもしれない……ということですよね。 偏差値は《平均値を $50$ 点にそろえた》ものなので、 得点を比較するより偏差値を比較した方が、 実力アップしたかどうかはっきりわかる……?」
僕「そうだね」
ミルカ「付帯条件が付くからそう単純でもないが」
僕「え?」
ミルカ「そもそも、偏差値の平均値が $50$ になることを、 テトラは納得したんだろうか」
テトラ「ええっと……いえ、まだです」
僕「証明は簡単だよ」
問題(偏差値の平均値)
あるテストを受けた人が $n$ 人いて、 得点がそれぞれ $x_1, x_2, \ldots, x_n$ であるとする。
このテストにおける各人の偏差値を $y_1, y_2, \ldots, y_n$ としたとき、 以下が成り立つことを示せ。
$$ \dfrac{y_1 + y_2 + \cdots + y_n}{n} = 50 $$
テトラ「$k$ さんの偏差値を $y_k$ とするのですね。 はい、偏差値の定義を使って根気よく計算すれば、 きっと証明できるような気がします!」
僕「根気はそれほどいらないと思うよ」
(あなたは、気付きましたか?)
テトラ「ともかく、やってみます」
$$ \begin{align*} \dfrac{y_1 + y_2 + \cdots + y_n}{n} &= \dfrac{\left(50 + 10 \times \dfrac{x_1 - \mu}{\sigma}\right) + \REMTEXT{うわわわ……}}{n} \end{align*} $$テトラ「うわわわ……いっぺんに計算するのはさすがに大変ですので、 得点が $x_k$ になっている $k$ さんの偏差値 $y_k$ をまず書いてみます」
$$ y_k = 50 + 10 \times \dfrac{x_k - \mu}{\sigma} \qquad \REMTEXT{$x_k$の偏差値} $$テトラ「そして、平均値 $\mu$ は定義から $\dfrac{x_1 + \cdots + x_n}{n}$ ですので……」
$$ y_k = 50 + 10 \times \dfrac{x_k - \frac{x_1 + x_2 + \cdots + x_n}{n}}{\sigma} $$僕「いや、ここでは $\mu$ のまま進んだ方がいいよ。 まず、 $y_k$ の和を求めようよ。こうだね」
$$ \begin{align*} & y_1 + y_2 + \cdots + y_n \\ &= \left(50 + 10 \times \dfrac{x_1 - \mu}{\sigma} \right) + \left(50 + 10 \times \dfrac{x_2 - \mu}{\sigma} \right) \\ & \qquad \qquad + \cdots + \left(50 + 10 \times \dfrac{x_n - \mu}{\sigma} \right) \\ &= 50n + \dfrac{10}{\sigma}\times \left((x_1-\mu)+(x_2-\mu)+\cdots+(x_n-\mu)\right) \\ &= 50n + \dfrac{10}{\sigma}\times \left(x_1+x_2+\cdots+x_n - n\mu\right) \\ \end{align*} $$僕「これをよく見ると、 $n\mu$ というのは《$n$ 倍した平均値》だから、 これは得点の総和のこと。つまり $x_1 + x_2 + \cdots + x_n$ に等しいよね。 つまり……」
$$ \begin{align*} y_1 + y_2 + \cdots + y_n & = 50n + \dfrac{10}{\sigma} \times \left(x_1+x_2+\cdots+x_n - n\mu\right) \\ & = 50n + \dfrac{10}{\sigma} \times 0 \\ & = 50n \\ \end{align*} $$テトラ「すごいです! 一気に $50n$ だけになりました」
僕「$y_1,\ldots,y_n$ の総和が $50n$ なんだから、平均値は $50$ だね」
ミルカ「偏差の総和を考えればいい」
僕「そうそう。ミルカさんのいう通り。《偏差値》の定義をよく見ると、 定義の中に《偏差》が出てきているのに気付くよ」
$$ \REMTEXT{$x_k$の偏差値} = 50 + 10 \times \dfrac{\overbrace{x_k - \mu}^{\REMTEXT{$x_k$の偏差}}}{\sigma} $$テトラ「ははあ……確かに $x_k - \mu$ が偏差ですね。 $x_k$ から平均値を引いてますから」
僕「そして、偏差の総和は当然 $0$ だよね。さっきも出てきたけど」
偏差の総和は $0$ に等しい
$$ \begin{align*} & (x_1 - \mu) + (x_2 - \mu) + \cdots + (x_n - \mu) \\ &= (x_1 + x_2 + \cdots + x_n) - n\mu \\ &= (x_1 + x_2 + \cdots + x_n) - (x_1 + x_2 + \cdots + x_n) \\ &= 0 \\ \end{align*} $$
テトラ「ああ! そういえばそうですね。 だったら、偏差値の平均値が $50$ になるのって当然じゃないですか!」
ミルカ「そうなるように定義」
僕「だから、偏差値の定義の $50 + \cdots$ の部分は、 偏差値の平均値を $50$ にするという意図を表しているんだね」
テトラ「なるほどです」
僕「逆にいえば、《偏差値が $50$ の人は平均点を取っている》ともいえるんだよ」
ミルカ「《偏差値の平均値》が $50$ なのは、偏差値の定義からすぐわかる。 では《偏差値の分散》は?」
僕「そういえば、どうなるんだろう」
ミルカ「その答えは驚きだな」
テトラ「偏差値の平均値は $50$ で、分散は……何になるんですか?」
ミルカ「計算すればすぐにわかる」
テトラ「計算……」
問題(偏差値の分散)
あるテストを受けた人が $n$ 人いて、 得点がそれぞれ $x_1, x_2, \ldots, x_n$ であるとする。
このテストにおける各人の偏差値を $y_1, y_2, \ldots, y_n$ としたとき、 $y_1, y_2, \ldots, y_n$ の分散を求めよ。
(あなたは、計算できますか?)
僕「これこそ、定義式から計算すればすぐ出そうだなあ」
テトラ「あ、あたしも計算します! まずは、定義から」
$$ \begin{align*} \REMTEXT{《偏差値の分散?》} &= \dfrac{(y_1 - \mu)^2 + (y_2 - \mu)^2 + \cdots + (y_n - \mu)^2}{n} \\ &= \cdots \\ \end{align*} $$ミルカ「定義が違う」
テトラ「え? でも、分散は、平均値を引いて $2$ 乗した値を平均すればいいんですよね?」
ミルカ「省略しすぎ」
テトラ「?」
ミルカ「《何の平均値》なのかを意識する」
テトラ「何の平均値か……でも、平均値を $\mu$ としたのですから……あっ、ちがいました。 $\mu$ は得点の平均値でした。偏差値の分散を考えるんですから、 偏差値の平均値を引くんですね。すみません。 偏差値の平均値は $50$ ですから、こうですか」
$$ \begin{align*} \REMTEXT{《偏差値の分散》} &= \dfrac{(y_1 - 50)^2 + (y_2 - 50)^2 + \cdots + (y_n - 50)^2}{n} \\ &= \cdots \\ \end{align*} $$テトラ「あれ? $y_1 - 50$ って、 $10\times\dfrac{x_1 - \mu}{\sigma}$ ですか?」
僕「そうだね。あ、わかった」
テトラ「だめです、だめです! 先に暗算しないでくださいよう!」
$$ \begin{align*} \REMTEXT{《偏差値の分散》} &= \dfrac{(y_1 - 50)^2 + (y_2 - 50)^2 + \cdots + (y_n - 50)^2}{n} \\ &= \dfrac{\left(10\times\frac{x_1 - \mu}{\sigma}\right)^2 + \left(10\times\frac{x_2 - \mu}{\sigma}\right)^2 + \cdots + \left(10\times\frac{x_n - \mu}{\sigma}\right)^2}{n} \\ &= \dfrac{10^2}{n\sigma^2}\times\left((x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2\right) \\ &= \REMTEXT{あとは$2$乗を展開して……} \\ \end{align*} $$僕「そっちに進むんじゃないよ、テトラちゃん。そっちは沼地だよ」
テトラ「沼地?」
僕「計算の泥沼に入っちゃうってことだよ。 いまの計算で、テトラちゃんは $\dfrac{10^2}{n\sigma^2}$ をくくりだしたけど、 $n$ は残しておいたほうがいいよ」
テトラ「ということは、こうですか?」
$$ \begin{align*} \REMTEXT{《偏差値の分散》} &= \cdots \\ &= \dfrac{10^2}{\sigma^2}\times\dfrac{(x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2}{n} \\ \end{align*} $$ミルカ「一目瞭然」
テトラ「?」
無料で「試し読み」できるのはここまでです。 この続きをお読みになるには「読み放題プラン」へのご参加が必要です。
ひと月500円で「読み放題プラン」へご参加いただきますと、 440本すべての記事が読み放題になりますので、 ぜひ、ご参加ください。
参加済みの方/すぐに参加したい方はこちら
結城浩のメンバーシップで参加 結城浩のpixivFANBOXで参加(2015年7月24日)
この記事は『数学ガールの秘密ノート/やさしい統計』として書籍化されています。
書籍化にあたっては、加筆修正をたくさん行い、 練習問題や研究問題も追加しました。
どの巻からでも読み始められますので、 ぜひどうぞ!