データの誤った解釈について考えさせられたこと

『「誤差」「大間違い」「ウソ」を見分ける統計学』, 2021, 共立出版 では、データを扱う中で、思わず勘違いしたり、ミスを犯したりするような場面が取り上げられています。読みやすくて、データ分析の実務に携わる方が一度は目を通しておくとよい本だと思います。

本書から、「そういえばこういう問題点があったなあ」と考えさせられたポイントを本記事で共有したいと思います。

「誤差」「大間違い」「ウソ」を見分ける統計学 / デイヴィッド・サルツブルグ 著 竹内 惠行 濵田 悦生 訳 | 共立出版

良い推定量とは何か

私たちが扱うデータは「観察できるもの」に限られます。これは母集団から抽出されたサンプルです。サンプルを使って母集団について「推定」を行います。つまり母集団の性質を「統計量」の算出を通じて知ろうとします。「よい推定量」とは、「どれくらい真の母集団を正確に表しているのか」と解釈することができます。一般的に「よい推定量」を得られるためには、サンプル数または試行回数を増やすことが考えられます。とはいえ、真の母集団を本当の意味で完全に知ることは出来ませんよね。

定量の「良さ」を表す用語として以下がよく使われます。

  • 一致性=平均が真の値に収束

  • 不偏性=期待値が真の値に収束

  • 効率性=他の推定量よりも分散が小さい

中心極限定理

実験データを解析する時は、当たり前のように「中心極限定理」を受け止めてしまうことがありますよね。昔の著名論文の中に、中心極限定理に従う分布として正規分布が挙げられていますので、その影響なのか、今ではよく考えずに正規分布に近似してしまうことがあります。しかし、使っているモデルは正規分布に近似してよいかどうかは注意しなければいけません。

個人的な話で恐縮ですが、私の博士過程の研究の一部として、粒子ビームの信号を測定器で測定していました。その信号の強さに相当する電圧値が測定対象でした。この測定値には誤差が必ず付き、その誤差を精密に評価することが私の研究の最も核心的な内容の1つでした。「一般的な見解」によると、実験で取得したサンプル数は十分に多かったので、周囲は「これは当然正規分布に従う誤差」とみなしていいでしょう... という風潮がありました。しかしそのうち、測定器の性質ゆえに、測定量の誤差はt-分布に従うことが判明しました。

(参考)https://www.icepp.s.u-tokyo.ac.jp/download/doctor/phD2014_yan.pdf

数学的な証明では、中心極限定理を受け入れるためには、「Liapunov条件」などの一定の条件が必要で、実際のデータがそのような条件を満たしているかどうかは不明ですし、手軽に証明することも難しいです。

因果と相関

「相関関係があるからといって因果関係があるとは限らない」とは良く言われるが、「因果」はそもそも定義が困難であることに注意が必要です。もちろん「原因と結果」という説明は可能だが、「原因」という単語を使わず、どういう条件を満たせば、「因果関係がある」と言えるのかという基準が必ずしも明確ではありません。

以下は因果関係を定義しようとした方々の発言例です。

  • 「時間的にAがBに先行している」(哲学者のヒューム)⇨ 暫定的な定義であり、断定はできない  

  • 「ある意図的な力によってもたらされた結果」⇨ 限定的な条件下でのみ成立

  • ランダム化実験によって証明できる原因と結果 ⇨ランダム化実験でないと証明できない(例えば飲酒とガンの因果関係はこのような実験ができませんね)

  • 記号論理学:「事象Aが起こらないときに事象Bが起こり得ない」

書籍の中で面白かったコメントとしては、「因果関係が確認されていません」と公で言い逃げする方には、「あなたによって因果関係は何ですか?」と聞いてみるといいですね。

統計量における外れ値の扱い方

トリム平均 * データを大きい順に並べて、中央のX%だけを採用して平均をとる。

  • 中央値は、トリム平均の最も極端な例

考え方は理解できるが、これを自信を持って使えるのは限定的な場面でしょう。外れ値をたやすく切り捨てられている不安が残りますね。

ウィンザー平均 * データを大きい順に並べて、上側と下側のX%をそれぞれ、その境界に最も近い値に書き換えて、平均をとる

これはトリム平均に比べては、一応外れ値のサンプルの存在自体を数えているけど、それでも強引に丸められています。

ランダム化回答法

アンケート/調査では、違法行為や反社会的行為の経験など(例:万引きしたことがありますか)は答えにくいので正確な調査結果をなかなか得られません。こういう答えにくいYES/NO質問に対して、「質問への回答者しか結果がわからない」ようなランダムな方法(コイン等)で2つの質問から質問が決定され、それに対して回答者は正直に答えてくれるのだろう。質問の分配率から、本人を特定することなく、答えにくい質問にYESと答えた割合を推定する。

例えば、以下のような手順です。

  1. まず、回答者にコインを投げてもらい表か裏か確認してもらう

  2. 表が出た人は、自分の答えがどちらであろうと「はい」と答える

  3. 裏面が出た人は、質問に対して正直に「はい」か「いいえ」を答える

  4. 「はい」と答えた人数から、回答者全員の半数を引いた値を推定値とする

データ = 真実を与えてくれるもの ではない

これは本当に当然のことですが、統計データを使用する上での大きな危険は、そのデータを取得するのにあたって、手順や測定法が遵守されていないなどで、正しくない方法で得られた値が混ざっていることを疑わないことです。書籍の中では、「暗いところでの温度測定を行う人が暗くて見えないからといってその場では数値を読む代わりに部屋に戻ってから数値を読み取っていた」が例として挙げられました。 まとめると、信頼できる分析結果を提供するためには、そのデータが取得された方法の適切さまで遡らないといけません。

データ捏造の発覚

捏造されたデータにおいて、羅列された数値の分散が、極端に揃っていることが多いそうです。1~9の数値の頻度が大きく異なる傾向にあります(特に最も最小桁の数値は完全にランダムになるはず)。ただし、実データをもとに偽造されたデータは、その点に気づかれにくくなります。また、ゴーストライターを用いた書物では、前置詞、形容詞、接続詞の使われる頻度を分析すると、違いが見えることが多いですとか。

担当者:ヤン ジャクリン(分析官・講師)