細かなデータ分析を行う前に、全体の傾向をつかむのに便利なヒストグラム。
前回はトライアスロンのレース2つのゴールタイムを元に、具体例を示しました。
今回も同じデータの分析を通じて、ヒストグラムの活用方法をお伝えします。
<スポンサードリンク>
全体の傾向から気になるところを深掘りする
前回、東扇島(スタンダード)と五島(ロング)のデータを元に、
- ゴールタイム(階級)
- 人数(度数)
のヒストグラムを作成しました。
東扇島は概ね釣鐘のような形をした分布(正規分布)になっていました。
一方、五島は後半に行くほど人数が多くなっていました。
同じトライアスロンのレースであるにも関わらず、分布の形が全く異なったのです。
そこで私は五島のラスト1時間が気になったので、さらに深掘りして5分刻みのヒストグラムを作成しました。
全体のうち、ラスト1時間(全体の34.5%)を抽出して、さらに細かく分析してみました。
全体の傾向とほぼ変わらず、制限時間ギリギリになるほど、人数が多そうだという仮説が確認できました。
このようにヒストグラムで、まず全体の傾向を把握しつつ、気になったところの階級(この例ではゴールタイム)を細かくして、さらに分析することが可能です。
別の分析手段を持ち出す前に、軽く傾向をつかむのに使えます。
例えば、顧客をいくつかのグループに分けて、グループごとにコミュニケーション方法を変えることがあります。
- 潜在顧客(まだ購入したことのない顧客)
- 初回購入顧客
- 優良顧客
etc
しかし、最初にこのようなグループ分けをする基準をつくるのが大変です。
その際、この例のようにヒストグラムを利用して、過去の累積売上・購入頻度・最新購入日からの経過日数などの基準を探ることが可能です。
データ分析は数字だけではなく、ビジネス経験が必要
ここまでは純粋にデータを元にヒストグラムを作成しただけですが、「なぜ分布の形が異なるのだろう?」という理由を追求するためには、データだけを頼りにすることはできません。また上述のような、何かグループ分けするための基準をつくるにも、データだけ見ていても判断できません。
ビジネスにおいて「なぜだろう?」と疑問を感じ、「ひょっとして、こういうことかな?」と仮説を立てるためには、そのビジネスの経験が必要になります。
そして、仮説を確かめるために、またデータ分析を行います。
私のこれまでの経験では、データ分析スキルよりも、ビジネス経験の方が非常に重要です。
少なくとも高度な分析スキルを身につける前に、仮説を立てられるくらいビジネスに精通している方が、何倍も役立ちます。
データ分析は定量的な営みだけではなく、定性的(ビジネス的)な思考もセットです。
種目別の傾向
さて、またしても私の趣味(トライアスロン)に戻りまして・・(笑)
ヒストグラムでゴールタイム(スイム・バイク・ランの合計タイム)の傾向は分かりました。今度はもう少し細かくして、種目別の傾向を見てみます。
東扇島(スタンダード)の場合
東扇島はゴールタイム(合計タイム)は、釣鐘型の分布(正規分布)に近い形をしていました。
3種目それぞれでヒストグラムを作成すると、次のようになりました。
全体のグラフと、個々の種目のグラフが、同じような形をしています。
ちなみに平均値・中央値・標準偏差は以下の通りです。
総合 | スイム | バイク | ラン | |
平均値 | 2:47:13 | 0:32:55 | 1:22:02 | 0:52:16 |
中央値 | 2:46:19 | 0:32:55 | 1:21:15 | 0:51:33 |
標準偏差 | 0:19:46 | 0:05:24 | 0:09:06 | 0:08:57 |
五島(ロング)の場合
五島はゴールタイム(合計タイム)は、制限時間(15時間)が迫るほど、人数が多くなっていました。
3種目それぞれでヒストグラムを作成すると、次のようになりました。
面白いことに、種目別に見ると、釣鐘型の分布(正規分布)に近づきます。
私の推測では、特に最後のランは、もっと後半になるほど人数が増えて、全体と同じような形になるのでは?と思っていましたが、そうでもありませんでした。
実際、バイクからランに変わるタイミングは人によって大きく違います。
ギリギリの15時間でゴールしたとしても、ランのタイムはバラバラになります。
参加者それぞれが自分の得意な種目で力を発揮して、何とかゴールにたどり着いた。
そう読み取ると良いのかもしれません。
また、東扇島(スタンダード)は、遅い時間に向けて、ややロングテールな分布になっています。
一方、五島はそういう傾向はありません。(ランは少し傾向が見られます)
遅いと制限時間に引っ掛かって競技停止されてしまうからなのか、ある程度、力を持った人が集まっているからなのか、直接の原因はヒストグラムだけでは分かりません。
同じく数値を挙げておきます。
総合 | スイム | バイク | ラン | |
平均値 | 13:15:26 | 1:17:53 | 7:00:03 | 4:57:30 |
中央値 | 13:22:27 | 1:16:55 | 7:01:00 | 4:59:59 |
標準偏差 | 1:12:23 | 0:10:06 | 0:37:18 | 0:39:58 |
分析には目的がある
ちなみに今さらですが、データ分析するには目的があります。
ヒストグラムでザックリと傾向をつかむことも同様です。
この分析をした私の目的は、五島でより速く完走するための糸口を探ることでした。
まだ2レースしか分析していませんし、ヒストグラムで傾向を見ただけですので、大したことは言えません。
ただ、今まで体感的に感じていた以下の点をデータから裏付けすることができました。
- スイムは戦えるゾーンには入っている
- バイクが遅すぎて、全体の脚を引っ張っている(スタンダード・ロング共に)
- スタンダードのランは悪くないのに、ロングのランは悪い
- それは10時間以上レースの補給や体調マネジメントが出来ていないから
ということで、今までと変わらず、トレーニングの目標を以下のように設定します。
- バイクはトレーニングの中心。基礎力を上げつつ、LSDも取り入れて全身持久力向上も兼ねる
- ランはスピード系を中心に、サブ3.5くらいの走力を目指す
- スイムは優先度を落としつつ回復に利用、技術トレーニング中心に行う
と、趣味を兼ねたヒストグラムの話でした(笑)
- ヒストグラムで全体の傾向をつかむ
- 気になるところで階級を小さくして、細かく傾向を見る
- 種目別などに分割することで、別視点での傾向を探る
- ビジネスの経験が最も重要
[the_ad id=”2141″]
【編集後記】
分析はしてみましたが、自分がやるべきトレーニングは変わらない・・と。
実際のビジネスでも良くあることです(笑)
メルマガ『経営は100種競技!』を毎日配信しています。
マーケティングやITを身につけたい。
ビジネスを楽しみたい。
変化・成長したいというビジネスパーソンにお読みいただいています。