意外と知らない⁉ 箱ひげ図の描き方

こんにちは!
分析官の望月です。

皆さんどうですか?
最近、箱ひげ図、使ってますか?

箱ひげ図をご存じでない方のために簡単に説明させていただくと、 データのばらつきを分かりやすく表現するための方法の1つであり、 "箱"とその両端にある"ひげ"で表現されることからこの名がついています。

見たことあるよという方でもどういうロジックで箱やひげが描かれているか説明できる方は案外少ないのではないでしょうか? 実は箱ひげ図の描き方はいくつか存在します。 本記事では箱ひげ図の描き方の1種(オーソドックスな作成方法の1つ)を可視化ツールのTableauを使って簡単に説明したいと思います。

箱ひげ図の構成

先述した通り、箱ひげ図は"箱"と"ひげ"で構成されています。

"箱"は第一四分位数(データを小さい順に並べて、小さい方から全体の25%にあたる値)から 第三四分位数(データを小さい順に並べて、小さい方から全体の75%にあたる値)までの範囲(四分位範囲)を表現しています。
※箱の中に線が描かれることが多いのですが、これは中央値(データを小さい順に並べて、小さい方から全体の50%にあたる値)を意味しています。

一方"ひげ"はTableauの場合ですと、第一四分位数および第三四分位数から四分位範囲×1.5の範囲に収まる点の内、最小, 最大となる点に描かれます。
https://help.tableau.com/current/pro/desktop/en-gb/buildexamples_boxplot.htm
※その他にも最小値, 最大値に描く場合や5パーセンタイル(データを小さい順に並べて、小さい方から全体の5%にあたる値), 95パーセンタイル(データを小さい順に並べて、小さい方から全体の95%にあたる値)に描く場合もあります。

Tableauで箱ひげ図を確認

以下のようなサンプルのデータを用意しました。

ID X
1 1
2 4
3 6
4 9
5 13
6 17
7 20
8 21
9 25
10 50

以下、Xの箱ひげ図です。
※Tableauでの箱ひげ図の作成方法はこちらの記事がわかりやすいです! https://webtan.impress.co.jp/e/2020/04/14/35385

f:id:gri-blog:20210628160306p:plain

濃いグレーと薄いグレーの境界が中央値を意味しています。 Tableauの場合、 レコード数nが奇数であれば(1+n)/2番目の値、 レコード数nが偶数であればn/2番目の値とn/2+1番目の値の平均を中央値としているようなので、 今回だと(13+17)÷2=15となります。

第一四分位数と第三四分位数は中央値をもとにデータを2分割してできるそれぞれのグループの中央値としているようなので、 今回だと第一四分位数は6(下から3番目の値), 第三四分位数は21(下から7番目の値)となります。

四分位範囲は21-6=15なので、この結果からひげは1(下から1番目の値)と25(下から9番目の値)に描かれています。 一番大きな50という値は21(第三四分位数)+15(四分位範囲)*1.5=43.5の値を上回っているため外れ値とみなされているということになるわけです。

さいごに

TableauではPERCENTILE関数を使うことで第一四分位数や第三四分位数を算出することができます。 例)第一四分位数:PERCENTILE([X],0.25)

以下、PERCENTILE関数の出力です。

f:id:gri-blog:20210628171701p:plain

「あれ?さっきは第一四分位数が6, 第三四分位数が21って話だったのに、ちょっと違う値になってる。どういうこと?」
と思われた方。
次回の記事では四分位数のちょっとディープな世界にご招待します。