HOME » 医学の地平線 » 第121号 生物における因果と統計学

医学の地平線

第121号 生物における因果と統計学

情報はデータそのものではなく、データから抽出された有用な内容ですが、情報の中でも最も重要なものは「.因果関係」です。因果関係がわかれば我々は予測ができ、行動により、結果を望む方向に導くことができます。

しかし、生物のように多様性に富む対象では因果の確認は容易ではありません。多様で不確実なデータを解析する手法は統計学です。しかし、統計学そのものが因果を検出できるわけではありません。例えば単なる症例報告はおろか、観察により得られたデータを統計学手法で解析しても因果関係を求めることは困難であるとされています。ただし、臨床医学ではrandomized controlled trial (RCT)により得られたデータを統計的手法で解析した結果が因果関係を保証する結論を与えるとされます。能動的に介入を行うことにより結果が変化すれば、それはその介入によるものであると推定されるわけです。

しかし、そもそも統計学(特に推計統計学)の重要な概念が因果関係を前提に定義されたことはあまり知られていません。例えば、回帰、多変量線形モデル、最尤法などの概念は因果が明らかな現実データをもとに定義されています。回帰、最尤法は人工知能の主流である深層学習の中心を占める概念です。

回帰は二変数の値である多数のデータをもとに、二変数の間の関係を説明する一次式を求めることを目的として考案された手法です。回帰の概念を提案したのはGaltonですが、この時用いたのは親子のデータです。例えば、親の身長(実際には両親の平均)と子の身長を変数としました。この二つの変数は対称ではありません。親が原因、子は結果という、明確な因果関係があります。Y=aX+b、とし、Xを親の身長、Yを子の身長とすると、XとYの間には明確な因果関係があります。この因果関係は数学だけを考えていると忘れがちですが、現実問題に帰ると明確です。

次に、統計学で最もしばしば用いられる手法の一つが多変量解析でしょう。この手法はFisherによる次の式にさかのぼります。P=G+E、の式の中で、Pは表現型値、Gは遺伝型値、Eは環境値です。ここでも、数学的には因果関係は明確ではありませんが、歴史に立ち返ると因果は明確です。回帰の式と同様に、右辺が原因で左辺は結果です。右辺の中でも特に遺伝型は他の変数と明確に区別されるものです。Fisherはこのモデルを提案する時、分散の概念を同時に提案しています。それぞれの変数の値だけではなく、ばらつきも重要であり、それは互いに加えることが可能な分散の大きさの比較により可能であるというアイデアです。

更にFisherは回帰の概念を発展させ、最尤法の手法を発表しています。彼がこの概念をショウジョウバエの連鎖解析のアイデアから思いついたことは特記すべきことです。連鎖解析こそ、まさに親子の因果と、遺伝型と表現型の因果の両方を用いたものなのです。つまり、遺伝子が先祖から子孫に次々に伝達され、それぞれの個体が伝達された遺伝型に基づいて表現型を発現する確率を計算し、それを表現型関連遺伝子の位置を変数とする尤度関数とします。その尤度を数理的、または数値的に最大化します。このように、回帰、多変量解析(分散分析も)、最尤法などの推計統計学、更には人工知能において重要な概念は、生物の因果を基に定義されたものです。

最近ではこれらの概念は単に数学的に教育されることが多く、現実世界の対象物と対応させにくいことが多いものです。しかし、歴史に立ち返れば、これらの概念が確かな因果関係を持つ現実問題に発することは明らかです。私は、これらの概念を歴史に立ち返って、現実問題に対応させて教育する事が、純粋数学的にではなく、現実のデータを解析する手法としての統計学、人工知能を理解する上で有用だと考えています。また、この教育は特に我が国にとって極めて重要であり、日常生活において、人々が膨大なデータにまどわされず、適切に対処するために、更には次世代の知的産業を発展させるためにも最重要の課題であると考えています。

HOME » 医学の地平線 » 第121号 生物における因果と統計学

PageTop