分散と標準偏差
カテゴリ:確率・統計学
分散と標準偏差とは、データのばらつきを表すパラメータの一つです。
平均では、中央の値がわかりますが、データがどれくらいばらついているかわかりません。
たとえば、
A: 10,10,10,10,10
B: 0,0,10,20,20
ならどちらも平均は10です。一方、Aにはばらつきはありませんが、Bにはばらつきがあります。このばらつきを分散や標準偏差といわれる量で表現します。
分散
では、分散から説明します。
データのばらつきを知りたい場合、平均とデータの差をとればよさそうです。
そこで、
A: 10,10,10,10,10
B: 0,0,10,20,20
に対して、平均との差をとってみると
A: 0,0,0,0,0
B: -10,-10,0,10,10
となります。ばらつきのないAではすべて0となっており、平均をとって0と評価すればよさそうです。しかし、同様にばらつきのあるBで平均をとると同様に0になってしまいます。
どうやら、ただ単に平均をとってもだめそうです。というのも、-10と10がキャンセルしてしまうからです。
そこで、二乗してマイナスを消すと
A: 0,0,0,0,0
B: 100,100,0,100,100
となります。これの平均をとるとAが0でBが80となります。たしかにばらつきのあるBが大きい値をとります。そこで、これらの量を分散とよびます。
以上のことをまとめると、データの平均を
とした場合の分散は
となります。
標準偏差
分散の場合は、平均との差の二乗に対して平均をとっています。
二乗しているので、単位も二乗されます。
例えば、あるお金に関するデータがあったとしたら、平均における単位は「円」ですが、分散の場合は「円2」となります。
単位は二乗されていると分かりにくいので、単位をそろえたいですね。
そこで、
分散にルートをつけて単位をそろえます
この考え方が標準偏差です。たとえば
A: 10,10,10,10,10
B: 0,0,10,20,20
なら、分散が
A: 0
B:
なので、標準偏差は
A: 0
B:
となります。
標準偏差はばらつきがどの程度なのかを、おおよそ理解できるのでよく使用します。
著者:安井 真人(やすい まさと)
@yasui_masatoさんをフォロー