要因分析におけるグラフの選択方法 1

新卒入社3年目の寺内と申します。 私は、データ可視化系の案件を担当する分析官です。

データ可視化をしたことがある人であれば、テーマがあった時、どんなグラフを選択するか悩むことはあると思います。 そこで、自分含めた同じような悩みを持つ人が、より良いグラフの選択ができるようになることを目的とし、自分の考えを共有する記事を書くことにしました。何本かの記事に分けて投稿します。

記事で題材とする可視化のテーマ

可視化で使うデータ

SuperStoreのデータとします。

可視化のテーマ

議論しやすさのために、具体的なテーマを定めようと思います。

丁度最近、データ可視化ツールTableauの社内勉強会があり、要因分析をテーマとして可視化する機会がありました。 一口に要因分析と言っても、人によって異なるグラフを選択したのが、非常に興味深かったです。 この勉強会で考えたことを流用したいので、今回は要因分析を題材とします。

より具体的には、

  • SuperStoreにおいて、2021/01に比べて2021/02の売上が低く、その要因を知りたい f:id:gri-blog:20210519044137p:plain

  • (様々原因は考えられるが、その一環として、)製品のサブカテゴリをセグメントとして使って分析したい

という状況でのグラフの選択をテーマとします。

改めて書くと、本記事では、このような状況で、

  • どんなグラフが候補として挙がるか

  • それらの候補を比較したとき、どんなグラフがより良いか

  • また、その理由は何か

ということを自分なりにまとめていきます。 皆さんも一緒に考えて頂けたら幸いです。

可視化の前提(簡略化)

要因を知るときには、よく対照実験のようなことを考えます。

つまり、原因か確かめたい条件がある場合、それ以外の条件は揃えた上で、確かめたい条件を満たす群、満たさない群を作り、それらの群で比較します。

しかし、ここでは、グラフの選択に焦点を当てたいので、簡略化のために、2021/01と2021/02で、

  • 日数が、3日間異なること(※本当は、日数が(31-28)/31=約10%違う)

  • 曜日や祝日の日数が、異なること

などの、製品サブカテゴリ以外の条件について、一旦無視して議論を進めていきます。

グラフの候補のリスト

グラフの候補のリストとして、私が思い付いたものを、片っ端から作り、下記に貼ってみました。 (※グラフ形式以外のデザイン、例えば、タイトル、色、ソート、ヘッダの配置、背景色などは、荒いままです。)

作ったものを大まかに分けると、下記があります。

  • bar chart
  • bar in bar chart
  • dumbbell chart
  • diverging bar chart
bar chart

f:id:gri-blog:20210519044102p:plain f:id:gri-blog:20210519044059p:plain f:id:gri-blog:20210519044110p:plain f:id:gri-blog:20210519044106p:plain

bar in bar chart

f:id:gri-blog:20210519044115p:plain f:id:gri-blog:20210519044118p:plain

dumbbell chart

f:id:gri-blog:20210519044140p:plain f:id:gri-blog:20210519044147p:plain f:id:gri-blog:20210519044144p:plain

diverging bar chart

f:id:gri-blog:20210519044122p:plain f:id:gri-blog:20210519044126p:plain f:id:gri-blog:20210519044130p:plain f:id:gri-blog:20210519044134p:plain

最後に

本記事では、

  • SuperStoreにおいて、2021/01に比べて2021/02の売上が低く、その要因を知りたい

  • (様々原因は考えられるが、その一環として、)製品のサブカテゴリをセグメントとして使って分析したい

という状況でのグラフの選択をテーマとし、

  • どんなグラフが候補として挙がるか

というところまで書きました。次の記事では、

  • それらの候補を比較したとき、どんなグラフがより良いか

  • また、その理由は何か

という部分について書きます。