Rを使って統計データを解析してみる

Rを使って統計データを解析してみます。

適当な統計データがないか探してみた結果,統計局ホームページ

「産業、学歴、年齢階級月刊現金給与額(平成23年)」

というデータがありました。これを解析することにします。この中から、男性のデータの一部の以下のデータを使用します。

業種 学歴 勤続年数(年) 給与額(万円)
製造業-生産 中卒 19.8 29.2
製造業-生産 高卒以上 13.1 31.3
製造業-管理・事務・技術 中卒 26.7 35.7
製造業-管理・事務・技術 高卒以上 20.6 38.5
卸売 中卒 14.6 27.8
卸売 高卒以上 14.8 31.4
金融 中卒 10.3 30.7
金融 高卒以上 20.2 44.4
複合サービス 中卒 16.5 25.3
複合サービス 高卒以上 19.5 33.1

 dat

 

では、解析します。まずは、

A<-read.table(“data.dat”,header=TRUE)

によりデータを読み込みます。次に基本統計量を計算させます。

summary(A)

すると、

業種 学歴 勤続年数 給与額
卸売:2 高卒以上:5 Min.:10.30 Min.:25.30
金融:2 中卒:5 1st Qu.:14.65 1st Qu.:29.57
製造業-管理・事務・技術:2 Median:18.00 Median:31.35
製造業-生産:2 Mean:17.61 Mean:32.74
複合サービス;2 3rd Qu.:20.10 3rd Qu.:35.05
Max.:26.70 Max.:44.40

 という結果が得られます。業種や学歴では、項目の個数が表示されています。勤続年数や給与額では

  • 最小値:Min
  • 1/4、1/2、3/4における値:1st Qu.、Median、3rd Qu.
  • 平均値:Mean
  • 最大値:Max.

が得られます。大体、一度勤めたら18年くらいは勤め、給与は月々32万円くらいだということがわかります。

 

続いて、学歴ごとの基本統計量を表示してみましょう。

tapply(A$給与額,A$学歴,summary)

により

学歴別給与額

が得られます。結果を見てわかる通り、高卒以上の方が給与額は高いことがわかります。高い給料が欲しい方は、高校を卒業することをお勧めします。

ただ、よく見ると中卒でも高卒の中央値を上回ることができることがわかります。それは、製造の管理・事務・技術です。よって、

中卒で高い給与を得るには製造業の管理・事務・技術を狙え

ということになります。逆に

高卒以上でも製造業の生産は給与が低い

ということもわかります。就職の際の参考にしてください。

 

続いて、学歴別の勤続年数の基本情報を計算します。

学歴と勤続年数

平均的には学歴は関係なさそうです。ただし、最大値と最小値の幅が中卒の方が大きいことがわかります。

 

では、勤続年数と給与額との間に関係性があるのかを調べます。そこで、

plot(A$勤続年数,A$給与額)

としてグラフをかくと

勤続年数と給与額

となります。なんとなく正の相関がありそうです。そこで、相関係数を計算すると

相関係数

となり、0.4914758と確かに正の相関があります。

転職よりも、ずっと同じ会社に勤めたほうが給与がいい

という結論になりますね。

 

以上のようにRを使えば、簡単に複雑な統計処理ができます。

また、グラフの表示も簡単なので使いこなせるようになるとなにかと便利です。

著者:安井 真人(やすい まさと)