医学の地平線
第147号 我が国の人工知能と情報科学の問題点
ノーベル賞受賞者の経歴
近年の人工知能(AI)の進歩には目を見張るものがあります。2024年のノーベル賞は、物理学賞、化学賞がAI、もしくは情報科学を用いた成果が対象になりました。
しかし、ここで注意すべき事は、どの受賞者もAIと情報科学だけの専門家ではない事です。経歴を調べれば、むしろ、物理学、神経科学、分子生物学の本格的な専門家がAIや情報を用いて開発を進めた結果である事が重要です。
例えば、物理学賞のホップフィールドは、物理学、神経科学を学び、その上でホップフィールドネットワークという機械学習システムを作成しています。これは明らかにエネルギー最小化という物理学の知識に基づいたシステムです。ヒントンは、ボルツマンマシン、深層学習、バックプロパゲーションなどの重要な成果を発表する前に、心理学、神経科学を学び、物理学者とも会話を続けています。ボルツマンマシンには、統計熱力学のボルツマン分布が取り入れられ、これがパラメータ更新と生成の両方に用いられています。生成AIの「生成」部分は、このボルツマンマシンに起源を持ちます。
化学賞の分野では、AlphaFoldを作ったハサビスは神経科学を学び、ジャンパーは生物科学を学び十分理解した上で、それらの問題を解決する手段としてAIを進化させています。なお、ハサビスはチェスのチャンピオンでもあり、ボードゲームにも専門的知識を持ち、AlphaGoという碁のAIシステムを発表しています。ベイカーはAlphaFoldの前にRosettaというたんぱく質構造を推定するアルゴリズムを発表していますが、彼も物理学と分子生物学を学んだうえで情報学的研究を行っています。
日本では完成した数学、情報学の応用が多い
しかし、日本では半ば完成した科学を輸入する事が多いため、AIを作った歴史の部分は省いて、欧米で完成されたシステムの応用に重点が置かれています。例えば、AIの中の重要な原理は無視され、ただ応用のみに興味がもたれる傾向にあります。原理も単に数式とアルゴリズムの理解に留まります。
例えば、AI全体の概念、最適化、最尤法は遺伝学の連鎖解析に起源を持ち、回帰は遺伝学の親から子の表現型推定に起源を持ちます。クロスエントロピーやボルツマンマシン、生成の温度は統計熱力学に起源を持ちます。強化学習や報酬、報酬期待、注意(attention)などは神経科学に起源を持ちます。しかし、それらは軽視され、内容はブラックボックスとして処理される傾向があります。説明は数式とアルゴリズムに留まります。私は歴史や原理を学ぶ重要性を強調するのですが、そのような教育は嫌がられ、「先生、すぐに役立つ事を教えてください」という要求が強いのです。その傾向が一般の人たちだけでなく、科学者の間にも強いことを危惧しています。
最近のAIよりもっとさかのぼれば、統計学や情報学においても同じ傾向がありました。統計学の創始者、ゴールトンやフィッシャーは遺伝学上の問題を解くために統計学を創始しています。情報学の創始者シャノンは遺伝学の学位論文を書いており、エントロピー理論は明らかに統計熱力学に由来します。しかし、我が国では統計学は数理統計学が重視され、現実世界の対象物に適用する時は、数理モデルを適用してみるという手法が多いと言えます(モデル選択)。数学、情報学、数理統計学の専門家が、応用分野に数学理論を適用させることが多いのです。
現実社会の対象物を熟知した上で、数学、情報学を適用するという方向と、完成した数学、情報学を現実社会の対象物に適用するという方向は全く異なります。前者では、対象物と数学の往来で相互進化が可能ですが、後者ではそのような相互進化は期待できません。対象物を熟知する者だけが、情報やAIを適切に、深く適用できるのです。
企業における情報、デジタル、AI応用も同じ構造があります。企業内の現実問題を知っているのは企業の方です。しかし、日本の場合、数学、情報学の専門家を持つ情報企業に丸投げする事が多いように見受けられます。現実データを熟知しているのは、問題を持つ企業のはずです。企業内で情報化、デジタル化を進めて初めて意味ある価値を生み出せるはずです。
情報専門企業も欧米のソフトやアプリを適用する事が多く、このままでは日本のデジタル赤字は底なしに拡大するでしょう。
今後の我が国の情報教育はどうあるべきか?
日本のAI研究と応用をさらに発展させるには、これらの原理に関する教育を重視することが不可欠です。そのためには、歴史教育(AIの歴史だけではなく)も大切です。更に、情報学、データサイエンスだけではなく、別の分野を熟知する者が、この分野に入ることが必要です。最初に情報学、データサイエンスを学ぶのではなく、別の分野の科学を熟知した上で、それらを学ぶことが重要なのです。
私自身の考えによれば、AIが誕生するまでの「遺伝子→脳→AI」という「3世代情報モデル(Three-generation information model)」を理解し、それぞれの世代が共通して「入力→情報処理→出力」という構造と、「目的の最大化とランダム化」という共通の原理で動いているという全体構造を学ぶべきです。これからの科学は、この構造に基づいて進歩していくと考えています。
我が国のAI研究や応用について、もちろん、十分な資金があれば、多数のパラメータを持つ大規模AIシステムを構築することも有効です。しかし、日本の現状を踏まえると、基礎学力を強化し、次なる科学の大波に対応できる人材を育てることがさらに重要だと考えます。原理を理解した人材こそが、次世代のAIを創造し、活用する力を持つのです。