第２４号　膨大なデータを用いた統計的予測の功罪

医学の地平線

第２４号　膨大なデータを用いた統計的予測の功罪

アメリカ合衆国で大統領選挙が行われ、オバマ氏が再選を果たした。事前の予想では接戦という意見が多かったが、実際には選挙人の数ではかなりの差が出たようである。世界に最も影響力の大きな国の選挙という事でテレビでも盛んに選挙結果を予測する番組が放映されていた。

選挙後の報道によると、ネイト・シルバーという選挙予測の専門家は、大統領選の勝敗を全50州で的中させたそうである。その一方で、いわゆる政治専門家たちの予想はほとんどが外れた。どこが違うのであろう。

ネイト・シルバーは膨大なデータを解析する数理予測モデルによる予測を行う。しかし、その他の政治専門家は勘やありきたりの統計による予測を行う。今回の結果は、前者による予測が後者による予測より圧倒的に優れていたことを証明している。

このような膨大なデータを用いた統計解析による予測は勘や簡単な統計を用いた予測よりはるかにすぐれている。この方法は今や色々な分野で力を発揮している。グーグルは膨大な数のインターネットユーザーのクリックデータから、個人の見たいホームページを予測して提示する。また、世界中の端末のユーザーの地球上の位置から道路の渋滞情報なども知ることができる。ゲノムの膨大なデータから疾患や薬物反応性を予測するのも類似した数理予測モデルを使う。

しかし問題は、数理モデルがこれほど有効だとしてもテレビの視聴者はシルバーの解説を聞くのを望むであろうか。内容を説明しようとすれば、彼の解析は難解で、視聴者には頭痛の種であるに違いない。視聴率は低くなり、プロデューサーは二度と彼を使いたいとは思わないであろう。予測がはずれたとしても、おもしろおかしく解説ができる政治専門家のほうが喜ばれるであろう。全然はずれない選挙予測など、全く面白くは無い。適当に外してこそ面白味も出てくる。

しかし、命がかかわる場合は話しが違う。例えば、薬の認可や薬の反応性予測などは面白おかしくなどの要件は考えるべきではない。予測は正しければ正しいほどよい。政策なども同じであろう。重大な政策決定に面白さは必要ない。それが成功する事を最大の目標にすべきである。

つまり、医学や医療については予測は正確でなければならず、そのためには膨大なデータを用いた洗練された予測モデルが必要なのである。日本ではこのような場合でも、そんな方法は面白くないという意見が出ないか心配である。

HOME » 医学の地平線 » 第２４号　膨大なデータを用いた統計的予測の功罪

医学の地平線