第114号　データサイエンスの4つの時代｜公益財団法人痛風・尿酸財団

医学の地平線

第114号　データサイエンスの4つの時代

モノを対象とする限り、比較的確実な予想が可能です。しかし、一旦、生き物が介在すると予測は格段に困難になります。モノづくり産業に比較したサービス産業の難しさもここにあります。後者の場合、結局、直感に頼るしか無いと言うのが実際のところでした。

19世紀になって、不確実な生き物の予測に数学を介在させるという試みが始まります。ある程度理論的予測が可能なのは、親から子の予測です。しかし、それでもなお不確実性は残ります。ゴールトンは親の身長から子の身長を予測するために「回帰」という概念を導入します。これが、多様な実際のデータを数学を用いて分析した最初の例と言われています。データサイエンスの開始と言えるでしょう。ゴールトンの弟子ピアソンは相関、モーメント、主成分分析などの手法を導入し、この分野を発展させますが、飛躍的な進歩をもたらしたのはメンデルの法則の再発見です。フィッシャーは、メンデルの法則に基づき分散、尤度などの概念を導入し、この分野の発展に尽くします。

この分野を遺伝学から大きく飛躍させたのはネイマンです。彼は、尤度比の概念を用い、現在の検定、推定理論を再構築します。ここで、データサイエンスの分野は遺伝学から統計学へと大きく移行したと言えます。

その後の展開にはご存知の通り、コンピュータが大きな役割を果たしました。研究者の多くが統計学の重要性を認識するようになり、検定や推定、更には多変量解析もパソコンのソフトで簡単に行えるようになりました。EMアルゴリズム、隠れマルコフ法、モンテカルロ法やマルコフ連鎖モンテカルロ法なども開発され、情報学の時代が訪れたと言えます。しかし、今また、データサイエンスはビッグデータと人工知能の時代を迎えたと言えるのでは無いでしょうか。
つまり、データサイエンスは4つの時代を経て発展してきたと言えます。遺伝学の時代、統計学の時代、情報学の時代、そして人工知能の時代です。今はまさに情報学の時代から人工知能の時代に移りつつあります。

ここで問題となるのは、日本のこの分野の弱さです。不確実性と多様性への対応の弱さの一部が言語構造にあるのでは無いかと言う私の仮説は以前述べた通りです（https://www.tufu.or.jp/bbs/2014/817.html）。もう一つの要素は、我が国における4つの時代の不連続性です。欧米では、時代の移行の実行者は前の時代の人々の一部であり、旧勢力と闘いながら新しい分野を切り開いてきました。しかし、日本では4つ時代が分断されています。

その大きな理由は、日本では新しい分野は旧勢力との闘いを通じて始まるのではなく、欧米からの輸入によって始まるためです。これは欧米に遅れを取らないという点では優れた方法ですが、科学としての深みが決定的に不足する原因となっています。

例えば統計について言えば、殆どの人々は本質的にそれを理解しているわけではなく、本に書いてあるとおり、あるいは他人に教えられたとおり実行しているにすぎません。そうすることにより論文が通り、皆に評価されるというわけです。このことは、次の人工知能の時代になると更に深刻な事態を引き起こす可能性があります。つまり、多くの人々は、教えられた通りやってみたらうまく行った、というレベルに留まる可能性があります。本質的な理解はすべて欧米に委ねるというわけです。こうなれば、人工知能が社会に深く浸透する時代には、社会の中枢部分を他国に支配される可能性があります。それが我が国に深刻な影響を与える事は明らかです（既に統計学、情報学を通じて、それに似たような事態は起きています）。

次回は、引き続き、そもそも日本がデータサイエンスの開始に失敗したという事実の説明から始めたいと思います。

HOME » 医学の地平線 » 第114号　データサイエンスの4つの時代

医学の地平線