分散と標準偏差

分散と標準偏差とは、データのばらつきを表すパラメータの一つです。

平均では、中央の値がわかりますが、データがどれくらいばらついているかわかりません。

たとえば、

A: 10,10,10,10,10

B: 0,0,10,20,20

ならどちらも平均は10です。一方、Aにはばらつきはありませんが、Bにはばらつきがあります。このばらつきを分散や標準偏差といわれる量で表現します。

分散

では、分散から説明します。

データのばらつきを知りたい場合、平均とデータの差をとればよさそうです。

そこで、

A: 10,10,10,10,10

B: 0,0,10,20,20

に対して、平均との差をとってみると

A: 0,0,0,0,0

B: -10,-10,0,10,10

となります。ばらつきのないAではすべて0となっており、平均をとって0と評価すればよさそうです。しかし、同様にばらつきのあるBで平均をとると同様に0になってしまいます。

どうやら、ただ単に平均をとってもだめそうです。というのも、-10と10がキャンセルしてしまうからです。

そこで、二乗してマイナスを消すと

A: 0,0,0,0,0

B: 100,100,0,100,100

となります。これの平均をとるとAが0でBが80となります。たしかにばらつきのあるBが大きい値をとります。そこで、これらの量を分散とよびます。

 

以上のことをまとめると、データd_{1},d_{2},\cdots,d_{N}の平均をdとした場合の分散は

\displaystyle\frac{1}{N}\sum_{i=1}^{N}(d_{i}-d)^{2}

となります。

標準偏差

分散の場合は、平均との差の二乗に対して平均をとっています。

二乗しているので、単位も二乗されます。

例えば、あるお金に関するデータがあったとしたら、平均における単位は「円」ですが、分散の場合は「円2」となります。

単位は二乗されていると分かりにくいので、単位をそろえたいですね。

そこで、

分散にルートをつけて単位をそろえます

この考え方が標準偏差です。たとえば

A: 10,10,10,10,10

B: 0,0,10,20,20

なら、分散が

A: 0

B: \displaystyle\frac{1}{5}\left((0-10)^{2}+(0-10)^{2}+(10-10)^{2}+(20-10)^{2}+(20-10)^{2}\right)=80

なので、標準偏差は

A: 0

B: \sqrt{80}=4\sqrt{5}

となります。

 

標準偏差はばらつきがどの程度なのかを、おおよそ理解できるのでよく使用します。

著者:安井 真人(やすい まさと)