データ分析

ヒストグラムで気になるところを掘り下げる(階級→小さく、ジャンル別etc)

細かなデータ分析を行う前に、全体の傾向をつかむのに便利なヒストグラム。
前回はトライアスロンのレース2つのゴールタイムを元に、具体例を示しました。

ヒストグラムで傾向をつかんでからデータ分析をヒストグラムは度数と階級を視覚化した棒グラフです。お客様毎の累計売上や購入頻度、あるいは生産現場における故障発生頻度など、ビジネスの様々なシーンで、傾向を大まかな把握するのに使える便利な方法です。具体例としてトライアスロンのレース結果を分析してみました。...

今回も同じデータの分析を通じて、ヒストグラムの活用方法をお伝えします。

<スポンサードリンク>



全体の傾向から気になるところを深掘りする

前回、東扇島(スタンダード)と五島(ロング)のデータを元に、

  • ゴールタイム(階級)
  • 人数(度数)

のヒストグラムを作成しました。

東扇島は概ね釣鐘のような形をした分布(正規分布)になっていました。

一方、五島は後半に行くほど人数が多くなっていました。

同じトライアスロンのレースであるにも関わらず、分布の形が全く異なったのです。
そこで私は五島のラスト1時間が気になったので、さらに深掘りして5分刻みのヒストグラムを作成しました。

全体のうち、ラスト1時間(全体の34.5%)を抽出して、さらに細かく分析してみました。
全体の傾向とほぼ変わらず、制限時間ギリギリになるほど、人数が多そうだという仮説が確認できました。

このようにヒストグラムで、まず全体の傾向を把握しつつ、気になったところの階級(この例ではゴールタイム)を細かくして、さらに分析することが可能です。
別の分析手段を持ち出す前に、軽く傾向をつかむのに使えます。

例えば、顧客をいくつかのグループに分けて、グループごとにコミュニケーション方法を変えることがあります。

  • 潜在顧客(まだ購入したことのない顧客)
  • 初回購入顧客
  • 優良顧客

etc

しかし、最初にこのようなグループ分けをする基準をつくるのが大変です。
その際、この例のようにヒストグラムを利用して、過去の累積売上・購入頻度・最新購入日からの経過日数などの基準を探ることが可能です。

データ分析は数字だけではなく、ビジネス経験が必要

ここまでは純粋にデータを元にヒストグラムを作成しただけですが、「なぜ分布の形が異なるのだろう?」という理由を追求するためには、データだけを頼りにすることはできません。また上述のような、何かグループ分けするための基準をつくるにも、データだけ見ていても判断できません。

ビジネスにおいて「なぜだろう?」と疑問を感じ、「ひょっとして、こういうことかな?」と仮説を立てるためには、そのビジネスの経験が必要になります。
そして、仮説を確かめるために、またデータ分析を行います。

私のこれまでの経験では、データ分析スキルよりも、ビジネス経験の方が非常に重要です。
少なくとも高度な分析スキルを身につける前に、仮説を立てられるくらいビジネスに精通している方が、何倍も役立ちます。

データ分析は定量的な営みだけではなく、定性的(ビジネス的)な思考もセットです。

種目別の傾向

さて、またしても私の趣味(トライアスロン)に戻りまして・・(笑)

ヒストグラムでゴールタイム(スイム・バイク・ランの合計タイム)の傾向は分かりました。今度はもう少し細かくして、種目別の傾向を見てみます。

東扇島(スタンダード)の場合

東扇島はゴールタイム(合計タイム)は、釣鐘型の分布(正規分布)に近い形をしていました。
3種目それぞれでヒストグラムを作成すると、次のようになりました。

全体のグラフと、個々の種目のグラフが、同じような形をしています。
ちなみに平均値・中央値・標準偏差は以下の通りです。

総合 スイム バイク ラン
平均値 2:47:13 0:32:55 1:22:02 0:52:16
中央値 2:46:19 0:32:55 1:21:15 0:51:33
標準偏差 0:19:46 0:05:24 0:09:06 0:08:57

五島(ロング)の場合

五島はゴールタイム(合計タイム)は、制限時間(15時間)が迫るほど、人数が多くなっていました。
3種目それぞれでヒストグラムを作成すると、次のようになりました。

面白いことに、種目別に見ると、釣鐘型の分布(正規分布)に近づきます。
私の推測では、特に最後のランは、もっと後半になるほど人数が増えて、全体と同じような形になるのでは?と思っていましたが、そうでもありませんでした。

実際、バイクからランに変わるタイミングは人によって大きく違います。
ギリギリの15時間でゴールしたとしても、ランのタイムはバラバラになります。

参加者それぞれが自分の得意な種目で力を発揮して、何とかゴールにたどり着いた。
そう読み取ると良いのかもしれません。

また、東扇島(スタンダード)は、遅い時間に向けて、ややロングテールな分布になっています。
一方、五島はそういう傾向はありません。(ランは少し傾向が見られます)
遅いと制限時間に引っ掛かって競技停止されてしまうからなのか、ある程度、力を持った人が集まっているからなのか、直接の原因はヒストグラムだけでは分かりません。

同じく数値を挙げておきます。

総合 スイム バイク ラン
平均値 13:15:26 1:17:53 7:00:03 4:57:30
中央値 13:22:27 1:16:55 7:01:00 4:59:59
標準偏差 1:12:23 0:10:06 0:37:18 0:39:58

分析には目的がある

ちなみに今さらですが、データ分析するには目的があります。
ヒストグラムでザックリと傾向をつかむことも同様です。

この分析をした私の目的は、五島でより速く完走するための糸口を探ることでした。
まだ2レースしか分析していませんし、ヒストグラムで傾向を見ただけですので、大したことは言えません。

ただ、今まで体感的に感じていた以下の点をデータから裏付けすることができました。

  • スイムは戦えるゾーンには入っている
  • バイクが遅すぎて、全体の脚を引っ張っている(スタンダード・ロング共に)
  • スタンダードのランは悪くないのに、ロングのランは悪い
  • それは10時間以上レースの補給や体調マネジメントが出来ていないから

ということで、今までと変わらず、トレーニングの目標を以下のように設定します。

  1. バイクはトレーニングの中心。基礎力を上げつつ、LSDも取り入れて全身持久力向上も兼ねる
  2. ランはスピード系を中心に、サブ3.5くらいの走力を目指す
  3. スイムは優先度を落としつつ回復に利用、技術トレーニング中心に行う

と、趣味を兼ねたヒストグラムの話でした(笑)

まとめ
  • ヒストグラムで全体の傾向をつかむ
  • 気になるところで階級を小さくして、細かく傾向を見る
  • 種目別などに分割することで、別視点での傾向を探る
  • ビジネスの経験が最も重要



【編集後記】
分析はしてみましたが、自分がやるべきトレーニングは変わらない・・と。
実際のビジネスでも良くあることです(笑)


メルマガ『経営は100種競技!』を毎日配信しています。
マーケティングやITを身につけたい。
ビジネスを楽しみたい。
変化・成長したいというビジネスパーソンにお読みいただいています。

渋屋 隆一
プロフィール
マーケティングとIT、そしてデータを使った「売れ続ける仕組みづくり」「業務改善」が得意。コンサルティングや研修・セミナーで中小企業の経営支援をしています。元IT企業でエンジニア→マーケティング。中小企業診断士。
\ Follow me /