第138号　日本の最近の科学の低迷は、情報の弱さにある：情報能力を高めるには？

医学の地平線

第138号　日本の最近の科学の低迷は、情報の弱さにある：情報能力を高めるには？

日本社会、更には日本の産業界の「情報」の弱さが現在の日本の様々な低迷の原因となっている事はこれまでに何度も指摘しました。

例えば、我が国は世界の産業の新しい潮流である情報産業やバイオ産業の活性化に乗り遅れており、そのため世界経済の中での存在感を急速に失いつつあります。モノを造ることだけでなく、モノの利用法にも価値があるという変化についていけてないのです。モノの優れた利用法を知るには情報が必要です。また、過去には太平洋戦争においても、暗号解読など情報に関する我が国の弱さが敗戦の大きな要因として挙げられます。更に、最近の世界の潮流である社会のデジタル化についても、アジアの諸外国に比較しても乗り遅れています。

今回は、我が国の情報の弱さが科学の競争力の低下の原因ともなっていることを指摘したいと思います。世界の科学雑誌における日本の科学者の貢献が急速に低下していることは広く知られている通りです。その原因として、諸外国に比較した我が国の科学予算額の低迷や、中国を始めとしたアジアの国々の躍進が挙げられています。

それに加え、私は世界の科学の質の変化を挙げたいと思います。つまり、以前はモノを対象とした科学が主流だったのが、情報を多く含むように急速に変わってきたという変化です。例えば、医学・生物学の分野では生化学や分子主体から、遺伝学や臨床医学重視に変わってきたという変化です。遺伝学も、DNAというモノではなく、配列情報をもとにした遺伝統計学の重要性が増しています。臨床医学でも個々の患者データの記載より、統計学や人工知能を用いた解析が重視されるようになっています。モノだけではなく、モノとモノの間の関係やモノの利用法に焦点が移っています。モノとモノとの関係、モノの利用法を論理建てて記述するには、多くの場合数学を必要とします。

科学分野が情報を必要としてくる中で、日本の弱点が明らかになってきています。日本の科学者は、純粋数学は強いのですが、現実世界の対象物を用いた応用数学が弱いのです。中でも対象物が生物や人である場合に弱いといえます。物理学や化学のように、応用数学でもモノが対象の場合は強いのです。これは、後者が生物のような不確実性と多様性に乏しいことによります。

遺伝学はもともと応用数学が重要な役割を果たしてきた分野ですが、なぜか日本ではそれが認識されていません。メンデルの法則が知られる前の遺伝学は生物計測学（バイオメトリクス）と呼ばれ、まさに記述統計学を始めた人々により開発された分野ですが、日本ではなぜかそれが知られていません。例えば「回帰」は親子の身長の関係を解析したゴールトンが始めた概念です。更に、フィッシャーに始まる推計統計学はメンデルの法則を基礎に発達しましたが、何故か日本ではそれを意図的にスルーしているようにも見えます。尤度、最尤法の概念のもととなった連鎖解析は、近年の遺伝病の解明に大きく貢献したのですが日本ではほとんど知られていません。臨床研究で初めてビッグデータを応用したGWAS（genome-wide association study）は世界に先駆け日本で中村祐輔氏らが開始したのですが、日本では海外と違ってなぜか評価が高いとは言えません。

そのため、英国の人類遺伝学者、ハーパーはShort History of Medical Geneticsと題した自著の中で「Japan provides an unusual situation, for medical and human genetics have here been particularly weak, despite highly developed scientific, technological, and medical traditions.」と書いています。「日本は科学・技術、更には医学の伝統があるのに、医科遺伝学と人類遺伝学が極端に弱いという尋常ではない状態を呈している」。これを日本の人類遺伝学者に紹介しても、「何のことを言ってるんでしょうね？」という返答でした。脳内に情報を捉えるフレームワークが出来ていないと、その部分は認識できないのです。

日本の科学は明らかに「モノ」を捉える能力は優れているが「情報」を捉える能力が劣っているのです。そのため、遺伝学の中の「情報」を含んだ部分が見えないのです。臨床統計学についても、人工知能についても同じことが言えます。遺伝学、統計学、情報学、人工知能は、この順に、前の分野を引き継いで発達してきたので、遺伝学に弱ければ統計学に弱く、統計学に弱ければ、それを引きついだ情報学にも、人工知能にも弱いのです。これをどう克服するかについて、私は何度も同じことを言っていますが、もう一度、繰り返したいと思います。情報に強い人材を育てるには「教育改革」が必要です。

情報を理解するには、現実世界の対象物を数と対応させる方法を知る必要があります。ある意味では、この方法は「デジタル化」の技術と言えます（一般社会で使われるデジタル化の意味とはちょっと違います）。私は、日本はこのデジタル化の技術が不得意であるため、情報の能力が低いと考えています。デジタル化は情報の基礎の基礎であるため、デジタル化ができないと情報全体ができないことになります。なぜデジタル化が不得意かというと、それは教育されていないためです。統計学、情報学、人工知能の教育の中で、この部分の教育が抜けているのです。

デジタル化の原点は「ランダム変数」の概念にあります。しかし、面倒なことに日本のほとんどの統計学の本ではランダム変数を「確率変数」と誤って訳しています。「確率」はランダム変数やその範囲の関数として出てくる概念です。そのため、ランダム変数を確率変数と訳すと混乱してしまいます。

ランダム変数や確率の概念は公理的確率論の中で定義されますが、最初の標本空間（Ω）の理解が重要です。標本空間は「すべての結果の集合」として定義されます。まず、一つの試行（実験）を定義し、その試行によるすべての結果の集合が標本空間です。そして、結果の集合が出来事となり、出来事の関数が確率です。しかし、この定義は日本人には理解が容易ではありません。なぜなら、日本語の名詞には冠詞が無いからです。そのため、日本語の教科書では公理的的確率論の部分が省略されているか、純粋な数式の記述だけにとどまっています。その理由は簡単で、日本語では文章による説明が難しいためです。

一般的に日本の統計学や確率論の教科書は、英語で書かれたものに比較して数式が多く、文章が非常に少ないのが特徴です。これは、日本語の名詞に冠詞が無いため文章での説明が困難なためです。ここで、英語の冠詞の用法について考えてみます。

次は英語で書かれた資料、「The Basics of Article Usage in English: A, An, and The」からの引用に私が解釈を加えたものです。

この図にあるように、まずモノを呼ぶとき（名詞）、それが1. 集合内の特定の要素、なのか、2. 集合内の任意の要素、なのか、3. 集合全体をさすのかを認識する必要があります。そして、それが数えられるものか、数えられず量で評価するものなのか（mass noun）区別する必要があります。それができて初めて、どの冠詞を付けるか（あるいは付けないか）がきまります。これは実は集合論の本質的な概念です。

多くのゾウの中の特定の1匹のゾウ（the elephant）、その中の任意の1匹のゾウ（an elephant）、あるいはゾウ全体（the elephant; そもそもゾウなるものは）を区別して認識しなければなりません。

これを前述のランダム変数に適用すると、”A random variable is a function of an outcome.”ということになりますが、「ランダム変数は結果の関数である」と記述すると、an outcomeとthe outcomeの区別がつかないことになります。An outcomeの関数は確かにランダム変数ですが、the outcomeに対応するのは「値」であって、変数ではありません。確率に適用すると、”A probability is a function of an event.”です。確率はan eventの関数ですが、the eventに対応するのは関数としての確率ではなく、値としての確率です。即ち確率はan eventの関数ですが、the eventの関数ではありません。「確率は出来事の関数である」と日本語で書くと意味が十分伝わらないので日本語の統計学や確率論の教科書には文章が少ないのです。また、ほとんどの教科書で、公理的確率論の部分はスルーをするか、数式の記述にとどまっています。変数や関数を現実社会の対象物に適用するには、このように名詞に冠詞が必要なのです。

確率やランダム変数を定義する目的は「不確実や多様な対象について、予測をし、対応する」ことです。例えば、統計では集団から得られたデータを分析し、別の人々に当てはめることを行います。固定されたthe personsのデータを用いて、任意のa personの未来を予測するのです。特定の1人、例えば私や特定のあなたである、the personではありません。A personのイメージが無いと、「統計なんか意味がない、コロナにかかれば私は生きるか死ぬかのどちらかだ」という事になります。A personの未来は不確実ですが「確率」という概念で予測を行うわけです。

というわけで、日本は不確実と多様性に極めて弱いのです。科学者全体が弱いので、物理学や化学の数学は強いのに、医学や生物学の数学は弱いといえます。もちろん、為政者も官僚も、更には国民も弱いので、特に、不確実性が問題となる非常時に混乱が起きるのは当然です。最近でもデジタル化ということばだけが先行して、単にデータをコンピュータに入れればデジタル化の目的は達したと誤解しています。

日本のこの状態を改善するためには、まず高等教育における遺伝学、統計学、情報学、人工知能の教育に英語と日本語を対比した公理的確率論を取り入れるべきです。日本語と英語の間で、現実世界の対象物を数と対応させるイメージがどう違うかをピンポイントで解説すべきです。それにより、不確実性と多様性を対象に数学を適用するためのイメージとフレームワークを脳内に構築すべきです。その教育によりイメージとフレームワークを獲得した人材を教育、産業、研究に振り向け、日本全体の情報能力を強化すべきです。また為政者は、そのような能力を持った人の中から選ぶべきであるという事は言うまでもありません。

HOME » 医学の地平線 » 第138号　日本の最近の科学の低迷は、情報の弱さにある：情報能力を高めるには？

医学の地平線