要因分析におけるグラフの選択方法 1
新卒入社3年目の寺内と申します。 私は、データ可視化系の案件を担当する分析官です。
データ可視化をしたことがある人であれば、テーマがあった時、どんなグラフを選択するか悩むことはあると思います。 そこで、自分含めた同じような悩みを持つ人が、より良いグラフの選択ができるようになることを目的とし、自分の考えを共有する記事を書くことにしました。何本かの記事に分けて投稿します。
記事で題材とする可視化のテーマ
可視化で使うデータ
SuperStoreのデータとします。
可視化のテーマ
議論しやすさのために、具体的なテーマを定めようと思います。
丁度最近、データ可視化ツールTableauの社内勉強会があり、要因分析をテーマとして可視化する機会がありました。 一口に要因分析と言っても、人によって異なるグラフを選択したのが、非常に興味深かったです。 この勉強会で考えたことを流用したいので、今回は要因分析を題材とします。
より具体的には、
SuperStoreにおいて、2021/01に比べて2021/02の売上が低く、その要因を知りたい
(様々原因は考えられるが、その一環として、)製品のサブカテゴリをセグメントとして使って分析したい
という状況でのグラフの選択をテーマとします。
改めて書くと、本記事では、このような状況で、
どんなグラフが候補として挙がるか
それらの候補を比較したとき、どんなグラフがより良いか
また、その理由は何か
ということを自分なりにまとめていきます。 皆さんも一緒に考えて頂けたら幸いです。
可視化の前提(簡略化)
要因を知るときには、よく対照実験のようなことを考えます。
つまり、原因か確かめたい条件がある場合、それ以外の条件は揃えた上で、確かめたい条件を満たす群、満たさない群を作り、それらの群で比較します。
しかし、ここでは、グラフの選択に焦点を当てたいので、簡略化のために、2021/01と2021/02で、
日数が、3日間異なること(※本当は、日数が(31-28)/31=約10%違う)
曜日や祝日の日数が、異なること
などの、製品サブカテゴリ以外の条件について、一旦無視して議論を進めていきます。
グラフの候補のリスト
グラフの候補のリストとして、私が思い付いたものを、片っ端から作り、下記に貼ってみました。 (※グラフ形式以外のデザイン、例えば、タイトル、色、ソート、ヘッダの配置、背景色などは、荒いままです。)
作ったものを大まかに分けると、下記があります。
- bar chart
- bar in bar chart
- dumbbell chart
- diverging bar chart
bar chart
bar in bar chart
dumbbell chart
diverging bar chart
最後に
本記事では、
SuperStoreにおいて、2021/01に比べて2021/02の売上が低く、その要因を知りたい
(様々原因は考えられるが、その一環として、)製品のサブカテゴリをセグメントとして使って分析したい
という状況でのグラフの選択をテーマとし、
- どんなグラフが候補として挙がるか
というところまで書きました。次の記事では、
それらの候補を比較したとき、どんなグラフがより良いか
また、その理由は何か
という部分について書きます。