データ分析

ヒストグラムで傾向をつかんでからデータ分析を

データを分析する上で、基本となるのが度数(頻度)分布です。
お客様の累計売上金額別にグループ分けするなどの前に、全体の傾向をつかむために利用されます。
この度数(頻度)分布は、ヒストグラムというグラフにすることで視覚的に分かりやすくなります。

<スポンサードリンク>



ヒストグラムとは?

縦軸に度数、横軸に階級をとった縦棒グラフのことです。
と言っても「度数」とか「階級」って何のことか、良く分かりませんね。。
具体例を見た方がはやいでしょう。

ある中学校の男子生徒の身長と、その人数をグラフ化しました。

ここで身長(例:145cm~150cm)に相当するものが「階級」です。
人数(例:3人)に相当するものが「度数」です。
このように横軸に階級、縦軸に度数を示した棒グラフがヒストグラムです。

この例では、165cm~170cmの人が多く、かつそこを中心になだらかに分布していることが分かります。
ヒストグラムは視覚的にデータの数を把握するのに便利です。

  • お客様毎の累計売上
  • 購買頻度
  • 故障や不良品の発生頻度

など、細かく分析したい対象を、まずはヒストグラムで大まかに分析するのをお勧めしています。
大まかな傾向が分かれば、細かく分析するときの「視点」が得られるからです。

ヒストグラムでトライアスロンのレースを分析してみた

さて、ここからは趣味と仕事を兼ねまして・・(笑)
トライアスロンのレース結果を分析してみました。

ともに私が参加したレースです。

  • スタンダードディスタンス(2018年:東扇島)
  • ロングディスタンス(2018年:五島)

トライアスロンのレース結果は、以下のような情報がネット上でオープンになっています。
そのうち個人情報の問題で、オープンにならなくなるような気がしますが・・

  • 氏名
  • 性別
  • 年齢区分
  • タイム(総合・スイム・バイク・ラン)

どちらのレース結果もファイル形式がPDFでした。
データを分析するために、まずは PDF→Excelにデータ変換します。

こちらのようなサービスを利用すれば、すぐに変換できます。
変換後、タイムの表示形式がちゃんと「時間」になっていたので、この変換サービス優れているなぁ~と。

ヒストグラムを作成するまでの手順は別の記事でご紹介するとして、まずは結果を。

男女・年齢・種目別関係なく、完走者全体の総合タイムを分析対象としました。
(リタイアした人のタイムは含まず)

2018年:東扇島(スタンダードディスタンス)

まずはスタンダードディスタンス(スイム1.5km、バイク40km、ラン10km)の東扇島から。

階級の読み方は「〇〇未満」です。
例えば、最も人数の多い「3:00:00(3時間)」は、「2:50:00以上、3:00:00未満」を示しています。

完走者は383人。
平均タイムは2時間47分13秒。中央値は2時間46分19秒。
余談ですが、標準偏差は19分46秒です。
私のタイムは2時間40分53秒だったので、ほぼ真ん中くらいです。

  • ある程度の正規分布になっている(平均タイム周辺の人数が多い)
  • ただ、早い方よりも、遅い方への変化がなだらか(ロングテール)になっている

人数の山が、2時間40分未満と3時間未満と2つあります。
私の推測ですが、ある程度トレーニングを積んでいる人は前者の山よりも前にゴールしているはずです。

一方、3時間を超えるような人達は、おそらく完走目的での参加でしょう。
(トライアスロンに初チャレンジするような人達)
スタンダードディスタンスでまともに戦うなら、前者の山が1つの目標値になりそうです。

ただ、トライアスロンは波や風、地形、気候によってタイムは大幅に変わります。
なので単純なタイムでは実力は測れません。
ここがマラソンと異なり難しいところです。

2018年:五島(ロング・ディスタンス)

続いてロングディスタンス(スイム:3.8km、バイク:180.2km、ラン:42.2km)の五島です。

同じく、完走者 565人のみデータ化の対象にしています。
東扇島と全く傾向が異なりますね!

平均タイムは13時間15分26秒、中央値は13時間22分27秒です。
同じく参考情報ですが、標準偏差は1時間12分23秒。
私のタイムは14時間15分42秒だったので、だいぶ遅い方・・ということになります。

  • 平均値や中央値は、あまり意味をなさない(正規分布ではない)
  • 完走目的の参加者が全体の3分の1を占める

東扇島は平均の周辺に人数が多かったのですが、五島は平均値・中央値がヒストグラム上は分かりません。

時間制限(15時間)ギリギリにゴールしている人が多いです。
後ろに行くほど人数が増えていますので。
数字で確かめてみると、ラスト1時間(14時間~15時間)にゴールしている人が195人、全体の34.5%にもなります。

オマケですが、ラスト1時間だけを 5分刻みにしてヒストグラムにしてみました。

やはり全体的には後ろの方が人数が多いです。
制限時間15時間のレースで、ラスト5分に駆け込んでいる人が10人もいます(笑)

このようにロングディスタンスになると、「タイム」よりも「とりあえず完走」を目的にしている人が多いのでしょう。
実際、過去4回参加した私は、「とりあえず完走」組でした。。
次に参加するときには、もう少しタイムを狙いたいところです。

他のレースも分析してみたいですが、これを見る限りロングを完走するためには、スタンダードで平均くらいには入らないと厳しそうです。
ロングでタイムを狙うためには、一層のトレーニングが必要ということですね。

次回は、全体の傾向をつかんだ後、もう少し掘り下げることを行ってみます。

ヒストグラムで気になるところを掘り下げる(階級→小さく、ジャンル別etc)全体の傾向をつかみ、気になるところで階級を小さくして細かく傾向を見ることが、ヒストグラムで可能です。また、顧客別・商品別などに分割することで、別視点での傾向を探れます。仮説を立てるためには、データ分析スキルの前にビジネスの経験が重要です。...
まとめ
  • ヒストグラムは度数と階級を視覚化した棒グラフ
  • ビジネスの様々なシーンで、傾向を把握するのに使える
  • トライアスロンのレース結果を分析してみた(笑)



【編集後記】
このデータ分析、やり始めると面白くて夜更かししそうです。。
なので「今日はここまで!」と決めてやるようにしています。


メルマガ『経営は100種競技!』を毎日配信しています。
マーケティングやITを身につけたい。
ビジネスを楽しみたい。
変化・成長したいというビジネスパーソンにお読みいただいています。

渋屋 隆一
プロフィール
マーケティングとIT、そしてデータを使った「売れ続ける仕組みづくり」「業務改善」が得意。コンサルティングや研修・セミナーで中小企業の経営支援をしています。元IT企業でエンジニア→マーケティング。中小企業診断士。
\ Follow me /