HOME » 医学の地平線 » 第146号 日本のデジタル競争力を強化するには?

医学の地平線

第146号 日本のデジタル競争力を強化するには?

日本の経済とデジタル競争力の現状
最近、円安が急速に進んでいます。これは米国をはじめ多くの国の金利が上がっているのに、日本の金利が低いままであることと関係しているそうです。それでは金利を上げればいいではないかと思うのですが、そうすると国債の価値が下がって日本国と銀行が大変なことになるおそれがあるそうです。そのほか、日本の輸出が減る、株価が下がる、中小企業の経営が苦しくなる、住宅ローンの金利が上がるなど、多くの問題があるようです。そもそも、以前の我が国のように、円高でも大丈夫というような状況でなくなったという事でしょう。
それには、1989年には世界1位であった日本の競争力が2023年には35位となったことが大いに関係しているでしょう。また、その競争力ランキングの急低下はデジタル化の遅れが関係しているという意見もかなり知られるようになっています。実際に、世界デジタル競争力ランキングでも日本は32位となっています(2023年)。日本政府もそれに気づいて、企業のデジタルトランスフォーメーション(DX)を推進する政策を取っています。

デジタルとアナログの違いとは?
しかし、そもそも「デジタル」とは何を意味するのでしょう。デジタル(Digital)の基になるdigitとは。もともとラテン語のdigitusに由来し、これは指や足の指(足趾)の事です。指で数える対象がデジタルのもとです。従って、デジタルには「数える事」が大いに関係しています。デジタルの反対用語はアナログです。アナログは連続量を意味し、数えるより大きさを測る(または量る)事が関係しています。つまりデジタルは数える対象、アナログは測る(量る)対象という対比になります。
情報という面からのデジタルとアナログの区別は、前者が「劣化しにくい」という性質を持っていることが重要です。我々の根源である遺伝子の情報はDNAの上に書かれたデジタルの情報なので劣化しにくく、コピーや次世代への伝達がうまく行えますよね。脳の信号の多くもデジタルとして伝えられています。
また、デジタルは劣化しにくいため、コンピュータに保存したり、コンピュータで処理したりする対象として、より優れています。コンピュータは言ってみれば単にデジタルな数(通常は二進数の0と1)を大量に保存し、計算をしているにすぎません。テキスト、画像、音声、ビデオなどあらゆる種類の情報も、数として保存され処理されているのです。その数を人間が認識できる形に画面上で表示したり、音声として出力したりするため、我々には数ではない現実世界の対象物のように認識できるのです。
つまり、デジタルの本質は、現実世界の対象物を数に変換し、コンピュータに保存し、更には処理する事です。そして、コンピュータは数を処理した後、数として人間が現実世界の対象物として認識できる形で出力します。この「現実世界の対象物と数との関連」という本質を念頭に、デジタル化を考える必要があります。

言語がデジタル力に与える影響
人間は数える対象と測る(量る)対象を区別できます。指やりんごは数える対象ですが、水などの液体は測る(量る)対象です。これは英語では明確に区別されます。数える対象には名詞にaが付き、複数形が存在します。しかし、測る(量る)対象にはaや複数形は存在しません。可算名詞、不可算名詞(countable or uncountable)の区別です。しかし、日本語ではこのような明確な区別はありません。更に可算名詞、不可算名詞の違いに加え、「aとtheの区別」も重要です。対象が不確定か、確定かを区別するのが不定冠詞、定冠詞の違いです。このように対象物が「可算か不可算か」、更に「確定か不確定か」の区別をするかどうかで、日本語と英語で大きな違いがあります。
このような理由で、英語で現実世界の対象物を認識する時と、日本語で認識する時で、認識に違いがある可能性があります。これが、我が国がデジタルを苦手とする理由であるという事は私が以前から主張している通りです。
数学では可算の対象と不可算の対象は厳密に区別されます。自然数、整数は可算の数です。分数などの有理数も数えることができます(無限個あるので迷うかもしれませんが、整数と同じように無限個あっても原理的に数えられる対象は可算とします)。しかし実数や虚数は数えることができません。実数は特別な数列(コーシー列)の収束点として定義されています。
そこで、日本でなぜデジタル化が進みにくいかを考えてみます。それは、日本語に冠詞がないため「現実世界の対象物を数に関連付ける」マインドとスキルが育ちにくいことにあります。現実世界の対象物を示す名詞に冠詞がないため、可算か不可算かを区別できず、更に確定か不確定かが区別できないからです。この2つの区別が、現実世界の対象物を数に関連付けるために必須の区別なのです。数でいえば、有理数は可算、無理数は不可算です。値は確定、変数は不確定です。この違いが決定的であることは数学では常識ですが、特に不確実で多様な現実世界の対象物を取り扱う「遺伝学、統計学、情報学、人工知能、デジタル」の分野で重要なのです。

デジタル格差を解消する戦略
数の処理だけに限れば、日本人は純粋数学では優れた能力を発揮します。また現実世界の対象物についても、現場力は日本人は非常に優れています。ただ、その二つを関連付けるマインドとスキルが不足しているのです。
これは、訓練により克服できます。日本語と英語を対比して、「現実世界の対象物と数との関連付けの文脈で」冠詞の意味を深く理解するための教育をすれば良いのです。それにより英語を母国語をする人々より優れた能力を獲得できる可能性があります。
例えば、米国の優れたITの会社ではインド人、中国人、ロシア人の活躍が目立ちます。彼らの国の、もともとの言語には冠詞はありません。しかし、おそらく彼らは、ほとんど英語で仕事をしていると思われます。それにより、もともと英語で育った人々より、冠詞の意義を深く理解できる可能性があります。英語しかわからない人たちには、その区別は当たり前のことで、考えることすらしないからです。日本人も同様に、英語における冠詞の意義を深く理解することで、英語しか知らない人々より優れた、現実世界の対象物を数に関連付けるマインドやスキルを獲得できると考えられます。そこに的を絞った教育が有効です。
デジタル化やDXの教育というと、表面的に誰でも見えるコンピュータの使い方、データベースの使い方、プログラムのしかた、クラウドの使い方、アプリの使い方、AIの応用などに集中しがちです。しかし、それだけでは本質的なDXの改善にはなりません。むしろ、それにより我が国のデジタル赤字は拡大の一途をたどるでしょう。我が国はデジタル植民地になる恐れがあります。
最近の傾向で、円安によりインバウンドの経済効果は急拡大しているそうです。ところが、それをしのぐ勢いでデジタル赤字が拡大しているようです。これは個人や企業による、欧米資本のクラウド、検索エンジン、アプリ、コンテンツ配信システム、等々の使用が拡大しているからです。最近ではChatGPTなどAIシステムの使用料なども大きくなっているでしょう。DX推進によって日本のデジタル赤字がむしろ拡大し、財政をさらに圧迫するという事も考えられます。
このように表面的なデジタル技術や応用の教育だけでは根本的な教育とはなりません。このような技術は時々刻々と変化していきます。理解し終わったときには、もう次の技術が主流となっています。我が国のデジタル力不足を改善するためには、表面的な教育だけでは不十分です。もっと腰を据えた、真のデジタル力をつけるための地道な教育が必要です。

アルゴリズムの理解にも冠詞と単数・複数の区別が不可欠
ここで、情報に関連する説明に冠詞と単数・複数の区別が必須であることを説明する例として、アルゴリズムの説明を取り上げます。
ChatGPTなど最近の生成AIの発展に最大の貢献をした人工知能のアーキテクチャーはTransformerです。これは、Googleの研究者たちが2017年に発表した「Attention is all you need」という論文で発表されました。この論文の中にあるattentionというアルゴリズムがキーとなっています。次の文章が、attentionのアルゴリズムの説明です。クエリ、キー、バリューという3種類のベクトル(数の並び)の間で複雑な計算がなされ、出力が決まります。
英語での記述は、
An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key.
英語表現では、まずクエリ、キー、バリューベクトルがそれぞれ多数あり、attentionは、それらベクトルから、ある一つの出力を計算する関数であることがよくわかります。ここで、冠詞や単数・複数の違いが有効に使われています。最初の文章の前半では”a”によって、複数の中の任意の一つである事を明確に示し、後半では”the”によって、前に述べた確定の対象について記述していることがわかります。二番目の文章では”a weighted sum”と”a compatibility function”のみに”a”が付き、これらは複数ある中の一つであることを明確に述べています。最初の文章でクエリと出力が単数で、キー・バリューのペアが複数となっていることで、一つのクエリが複数のペアと演算をすることがわかります。
これを日本語に訳すと、
ChatGTP訳: アテンション機能は、クエリと一連のキー・バリューペアを出力にマッピングするものとして記述できます。ここで、クエリ、キー、バリュー、および出力はすべてベクトルです。出力は、バリューの加重和として計算され、各バリューに割り当てられる重みは、クエリと、対応するキーとの互換性関数によって計算されます。

この日本語では具体的にどのような計算が行われたかが非常に分かりにくいです。例えば、ある一つのアテンション関数が、ある一つのクエリと複数のキー・バリューのペアを含む集合から、ある一つの出力への写像であることが明確にはわかりません。またクエリとキー・バリューに”the”がないと、前に述べた対象を指すのか、新たな対象を指すのか不明確です。更には”a weighted sum”や”a compatibility function”の”a”によってわかるように、このような加重和や関数は複数あり、その中の一つを指すことが日本語ではわかりません。実は、日本語で正確に書くと次のような内容になります。

ある一つのアテンション機能は、ある一つのクエリとある複数のキー・バリューペアの、ある一つの集合を、ある一つの出力にマッピングするものとして記述できます。ここで、その一つのクエリ、その複数のキー、その複数のバリュー、およびその一つの出力はすべて、ある複数のベクトルです。その一つの出力は、その複数のバリューの、ある一つの加重和として計算され、各バリューに割り当てられる、その一つの重みは、その一つのクエリと、対応する、その一つのキーとの、ある一つの互換性関数によって計算されます。

非常に変な日本語であるものの、名詞が指す対象の、単数と複数の違い、確定と不確定の違いを明確に示しています。それぞれのベクトルの間で、どれがどれに関係を尋ねるのか、その関係をスコアとしてどのように出力に反映するか、などの意味がよく理解できます。
実は、実際のコンピュータの計算は、クエリ、キー、バリューのベクトルを並べて行列にし、次の行列計算として行うことができます。

多くの研究者は説明部分を省略し、単に行列の計算として理解し、実行しているのではないでしょうか。ソフトマックス関数も、計算法のみの理解で、なぜ、そのような関数を使うのかが理解できていないのではないでしょうか。もちろん、それで計算は可能ですが、アルゴリズムの深い理解には至りません。どのように計算するかは理解できても、なぜ、そのような計算をするかが理解できないからです。それでは、現実世界の対象物を熟知したうえで、自分でアルゴリズムを最初から作成することはできません。

日本のデジタル教育は、このような「手法の教育」に偏っており、なぜそのような計算をするかの「原理の教育」がおろそかになっています。これがまさにデジタル植民地化の原因であり、デジタル赤字拡大の原因なのです。

HOME » 医学の地平線 » 第146号 日本のデジタル競争力を強化するには?

PageTop