度数分布とヒストグラム
カテゴリ:確率・統計学

ある組織の男性の身長がどのようになっているか知りたいとします。
たとえば、その組織には10人いたとします。
10人くらいなら一人づつ身長を測ればよさそうですね。
そこで、実際に身長を計測することにしました。すると以下のような結果になりました。
男性の番号 | 身長[cm] |
1 | 170 |
2 | 160 |
3 | 161 |
4 | 160 |
5 | 179 |
6 | 163 |
7 | 174 |
8 | 175 |
9 | 172 |
10 | 164 |
このデータから、何かの規則がないかを見つけたいとします。
そのとき、今のままの順ではわかりにくいので小さい順に並び替えてみます。
男性の番号 | 身長[cm] |
2 | 160 |
4 | 160 |
3 | 161 |
6 | 163 |
10 | 164 |
1 | 170 |
9 | 172 |
7 | 174 |
8 | 175 |
5 | 179 |
この表を見ると、一番背が高いのがNo5の男性で、一番背の低い男性はNo2,4の男性であることがわかります。
さて、今度は身長の分布がどうなっているか調べます。このときに使用するのが度数分布表(どすうぶんぷひょう)です。度数分布表では、
- 160-164までの人
- 165-169までの人
- 170-174までの人
- 175-179までの人
のようにまとめて表にする方法です。この度数分布表を使えば先ほどの身長は
階級 | 度数[人] | 相対度数 | 累積相対度数 |
159cm以下 | 0 | 0 | 0 |
160-164cm | 5 | 0.5 | 0.5 |
165-169cm | 0 | 0 | 0.5 |
170-174cm | 3 | 0.3 | 0.8 |
175-179cm | 2 | 0.2 | 1 |
180以上 | 0 | 0 | 1 |
合計 | 10 | 1 |
とまとめることができます。
ここで、相対度数とは度数を合計数で割った値のことです。式にすると
相対度数=度数/合計
となります。また、累積相対度数とは、ある階級以下の相対度数をすべて足した値です。
さて、表を見ると、背の低い層(160-164cm)と背の高い層(170-179)があることがわかります。
なぜ、165-169cmにいないかが不思議ですね。
では続いて、度数分布表を図に表示します。すると以下のようになります。
このように度数分布表を棒グラフにしたものをヒストグラムといいます。
ヒストグラムを使うと、得られたデータの性質がよくわかりますね。
ヒストグラムの例:年収の分布
ヒストグラムの例として日本の年収(世帯)の分布を紹介します。
ここで紹介する分布は「厚生労働省」のホームページ
http://www.mhlw.go.jp/toukei/saikin/hw/k-tyosa/k-tyosa10/2-2.html
にのっているものを掲載しています。平成22年のものです。
パーセント表示なので、相対度数でヒストグラムを表示していることがわかります。
また、200-300万円の世帯がもっとも多いことがわかります。
この世帯が多いのは
- 若者の一人暮らし
- お年寄り
といったところでしょうか。200-300万円だと、月に16-25万円という計算になりますね。
さらに、分布をみると100万円未満の世帯や1000万円以上の世帯は少ないということがわかります。
もしもお金のやりとりがサイコロのようにランダムに行われていると、指数関数のように裾の尾が長い分布になることが計算から導かれます。
このことから、1000万円以上の世帯が少ないのは納得できます。
しかし、平等にお金のやり取りがされているなら100万円未満の世帯がもっとも多くなるはずですが、そうではありません。
これは、法律など社会の制度によって、収入の少ない人を援助していることを意味します。まあ、簡単なことですね。
ヒストグラムの例:日本の人口
続いて、日本の人口を見てみましょう。
これは総務省の平成22年の国勢調査の結果です。
http://www.stat.go.jp/data/kokusei/2010/kouhou/useful/u01_z19.htm
ヒストグラムが縦で表示されていますね。縦軸が年齢です。
これを見ると60歳くらいの年齢の人が多くいることがわかります。そして、次に40歳くらいの人が多いですね。40歳くらいの年齢の人が多いのはおそらく60歳の人の子供が生まれたからでしょう。その証拠に28歳くらいの層もやや多いですね。
このグラフで気になったのは、45歳くらいの層が一つだけ小さいということです。気になったので調べてみると、
「丙午の迷信により、子供をもうけるのを避けたり妊娠中絶を行った夫婦が多かった。(Wikipedia「人口ピラミッド」より)」
だそうです。
ちなみに65歳付近の減少は戦争によるものです。
それから、若い世代がどんどん減っているのが気になります。35歳が100万人で、0歳が50万人であり、グラフを見たかんじだと直進で近似できそうです。ということは、あと、35年したら0歳の人口が0人になるという計算になりますね。だれがこの国を支えるのかが心配になります。
さらに、男女を見ると、若い世代では若干女性の方が少ないですね。もしも、カップルを無理やり作ったら数万人の男性は相手がいないことになります。
また、高齢者になると女性の数が多いことがわかります。女性のほうが長生きするということでしょうね。高齢者になれば、女性が多くなるので、無理やりカップルをつくれば、男性は必ず相手だいることになります。
最後に
さて、今回はヒストグラムについて説明しました。ヒストグラムを使えば、
- 多数のデータを整理できる
- データの構造が一目でわかる
などのメリットがあります。もし、データを理解したい場合はとりあえずヒストグラムをつくってみることから始めるといいでしょう。
著者:安井 真人(やすい まさと)
@yasui_masatoさんをフォロー