基準化変量

よく受験で「偏差値」が出てくるけど、そもそも偏差値ってなんなのかよく理解している人はいないと思います。

なんとなく、平均なら偏差値は50で、偏差値70はすごくて、偏差値30はやばいといった感じで理解していのではないでしょうか?

というのもしょうがなくて、偏差値は大学の統計学の授業で習います。

ここでは、このよくわからない偏差値について解説します。

 

平均値をゼロになるように変数を設定したい

株価の時系列が

101,100,99,96,104

と100円近くでばらついているとします。

このとき、株価が上がるか下がるかというばらつきを理解したいですね。

そこで、平均値100円を引いて

1,0,-1,-4,4

という風に平均値で引きます。こうするとばらつき具合がよくわかっていいですね。

 

この例のように、あるnこの数値データ

 x_{1},x_{2},\dots,x_{n}

があるとき、平均値を

 \displaystyle\bar{x}=\frac{x_{1}+x_{2}+\dots+x_{n}}{n}

とします。そして変数

 \displaystyle z_{i}=x_{i}-\bar{x}

を導入すれば、変数z_{i}の平均値は0となります。

 \displaystyle\bar{z}=\frac{z_{1}+z_{2}+\dots+z{n}}{n}\\=\frac{(x_{1}-\bar{x})+(x_{2}-\bar{x})+\dots+(x_{n}-\bar{x})}{n}\\=\frac{x_{1}+x_{2}+\dots+x_{n}}{n}-\bar{x}\\=0

 標準偏差を1になるような変数を設定したい

こうして株価のばらつき具合を0円付近でとらえることができるようになりました。こうして0円付近で株価をみているとあるとき

-5円

となりました。これは平均より5円安いので今が買い時かもしれません。でも、もっと安くなるかもしれません。

-1,1,0,0,1,-1

なら-5円のときに買ったほうがよさそうです。でも

-1000,1100,400,-200

なら、-5円でかうよりもっと低いときに買ったほうがよさそうです。

 

上記のように、ばらつきの大きさによって、株の買い時がかわりそうです。

よって、ばらつきを標準化した変数へ変えましょうと考えるようになります。

 

いま、nこのデータx_{1},\dots,x_{n}があったとします。この平均値を

 \bar{x}

とします。平均値を0にしたいので、変数を

 x_{i}-\bar{x}

とします。あとは、ばらつきを変数のばらつきに依存しないようにしたいので、標準偏差

 \displaystyle\sigma=\sqrt{\frac{(x_{1}-\bar{x})^{2}+\dots+(x_{n}-\bar{x})}{n}}

でわります。こうして変数

 \displaystyle z_{i}=\frac{x_{i}-\bar{x}}{\sigma}

が得られます。こうして得られた変数は平均0で標準偏差が1となります。これを基準化変量といいます。

 

この変数を使って、株価を見ていて、

-3

となれば標準偏差1から3も離れているのでめったに起こらない事象なので買いです。

一方、

-0.1

ならさほど珍しくないので買わなくてもOKです。

で、偏差値ってなに?

上記の話を試験に応用します。試験があって、自分がどれくらいの場所に位置するかを知りたいとします。

ちなみに100点満点中23点でした。なんか点数低くてできが悪そうですね。

まわりの人もできていないのではないかと考えて平均点を見ると

15点

でした。平均より8点高いのでいい結果ととらえてよさそうです。さらに、どれくらいいいのかを知りたいですね。もしかしたら、

0,30,10,20,

なら、あまりたいしたことないし

0,0,0,0,90,0

なら23点はすごそうです。そこで、標準偏差を見てみると

20点

でした。平均との差は+8点で標準偏差が20点なので、あまり大したことがないことがわかりました。

 

上記の方法だと、

  1. 自分の点と平均点を引く
  2. その値と標準偏差を比べる

という面倒な作業をする必要があります。そこで、平均値を50点、標準偏差を10点となるように変数を設定します。そして、自分の点数もこの設定した変数へ変換します。この値を偏差値といいます。

この偏差値のおかげで、偏差値53となれば、標準偏差が10で平均との差が3なので、あまりたいしたことないなとなりますし、

偏差値が-10となれば、平均との差が-60で標準偏差の6倍なので奇跡的な結果であるといえます。

ちなみにこのような値を出すには、ほぼ全員100点をとれるテストで0点をとるなどのことをする必要があります。

負の偏差値はなかなかとれないので、積極的に狙っていきましょう。

いい記念になると思います。

 

なぜ偏差値は平均値を50、標準偏差を10にしたのか?

当然疑問に思うのが、別に基準化変量でいいのではということです。

平均0、標準偏差1でいいじゃんということです。

ここからは推測になります。

平均値を50にした理由

テストは100点満点なので、50にしたのでしょう。

ここを0にすると、偏差値-3なども出てきて、生徒がショックを受けてしまいます。

たいはんの生徒は負の値をとることになるので、生徒の性格が暗くなるのを恐れたのでしょう。

逆に100にすると、大半の生徒は偏差値110となります。

100を超えているので、問題ないだろうと勘違いする生徒がでて勉強しなくなります。

これらのことから50を平均としたのだと思います。

 

標準偏差を10にした理由

1だと、偏差値がほとんど50付近になるので、みんな同じような偏差値になり競争心がなくなります。

一方、標準偏差を100にすると、負の偏差値をとる生徒が結構出てくるので、根暗の生徒が増える危険性がでてきます。

以上のことから、標準偏差を10にしたのでしょう。

 

平均値50で標準偏差10なら100を超えたり、0を下回ることはあまりないのでちょうどいいのでしょう。

 

結局、偏差値っていらないよね

どうせ偏差値を理解している人はいないので、偏差値を導入する意味がわかりません。

平均値、順位、ヒストグラムで十分な気がします。

なぜ、一般の人が正しく理解していない偏差値を導入するのか疑問でなりません。

著者:安井 真人(やすい まさと)