第136号　日本の情報教育における根源的問題の解決

医学の地平線

第136号　日本の情報教育における根源的問題の解決

現実世界に数学を適用するには
情報を学ぶ上で最も重要な部分は現実世界の対象物を「数」にどのように対応させるかと言う部分です。これが現実世界に対応するために数学を用いる場合の基礎となるわけです。しかし日本ではこの、最も重要な部分が充分正しく教育されていません（対象物がモノである物理などの場合はこの限りではありません）。
現実世界の対象物の関数としての「ランダム変数」と「確率」
現実世界の対象物を「数」に対応させる最も重要な概念は「ランダム変数」と「確率」の概念です。ところが日本の多くの教科書ではランダム変数を、誤って「確率変数」と訳しています。そのため「確率」そのものの概念も「ランダム変数」の概念も十分捉えられていないのです。また、ランダムな過程のことを確率過程と訳すことも大きな問題です。この事から、日本では「ランダム」と「確率」が明確に区別されていないことが考えられます（もちろん真の専門家はわかっています）。
この2つの概念は実は関数です。しかし、「ランダム変数」と「確率」は普通の関数とかなり違ったものです。普通の関数は数から数への対応となっています。数の集合から数の集合への写像となります。例えばy=f(x) =2x+1と言う関数は、xと言う数からyと言う数への関数となるわけです。一般の数学では関数の定義をこのように「数から数への対応」に限定するのが普通です。しかし例えば「ランダム変数」は数から数への関数ではなく「結果から数への関数」です。結果は数ではありません。また「確率」は「出来事から数への関数」です。出来事は数ではありません。このため数から数への関数だけに慣れた人には極めて理解しにくい関数となっています。しかしこの2つの関数が、現実世界の対象物を数に対応させるための基礎になっているのです。つまり、「結果」と「出来事」が現実世界の対象物なのです。
実験（試行）、結果、出来事
ランダム変数が結果から数への関数だとすると「結果」とは何かと言う問題になります。また確率が出来事から数への関数となると「出来事」とは何かと言う問題になります。そこで結果と出来事の概念を詳しく定義していきます。
まず、多くの実験（または試行）の中から一つの実験を選択します。その実験を一回行うと一つの「結果」が出ます。その実験を複数回繰り返し行うと、複数の結果（無限個のこともある）をもたらす可能性があり、すべての可能な結果の集合を、その実験の標本空間とします。特定の実験に対し、標本空間は一つに定まります。その標本空間に含まれる複数の結果の集合を出来事とします。複数の結果と言いましたが、実際には一つの結果を含む出来事もあり、すべての結果を含む出来事（つまり標本空間そのもの）もあり、更には一つの結果も含まない出来事もあります。集合の中に含まれる結果が変われば出来事も変わります。実は出来事と認めるには数学的な条件があるのですが、難しいのでここでは取り上げません。
ランダム変数と確率の定義域
以上の定義で、「結果」と「出来事」が定義できました。そして、前述のように、ランダム変数は結果の関数であり、確率は出来事の関数です。関数は、例えばxからyへの関数と言うように定義されますが、xもyも変化するのでxの集合、yの集合を考えなければなりません。xの集合は定義域、yの集合は値域と言われます。今回は、xは数では無いので定義域というのはちょっと変かもしれませんが、ここでは定義域ということばを使います。ランダム変数の場合、定義域は標本空間であり、値域は通常、実数です（実は数の集合であれば何でもよい）。確率の場合、値域は0から1までの実数ですが、定義域はちょっと難しいです。定義域は、出来事の集合となります。しかし、出来事が結果の集合なので、集合の集合となって、このような対象は取り扱いが難しいのです。前に、出来事には条件があると言いましたが、その条件というのは、この集合の集合の制約から来るものです（ここでは詳しく解説しません）。
一つの結果に二つ以上のランダム変数が対応
具体的に現実世界の対象物と結果を対応させる場合、しばしば、結果は個人に対応します。ここでは、倫理的問題とかはあまり考えず、個人をある実験によりできたものと考えます。例えば、薬の効果を確かめる試験では、その薬を投与する、その試験の対象となった個人一人一人について、試験後のその人を、その試験（実験）の結果と考えるのです。そして、その個人（つまり結果）の体重を一つのランダム変数と考えます。体重は数であり、個人は結果なので、ランダム変数の条件を満たしています。また、同じ個人に別のランダム変数を定義する事も出来ます。例えば、Aという検査の値をランダム変数と考えます。このように同じ個人という結果に、体重というランダム変数Xと、Aという検査結果というランダム変数Yという二つの変数が定義できます。これを根拠に、体重とAという検査の関連を解析できます。このように考えることにより、現実世界の対象物に対し、二つの変数の関連を考えるという枠組みが良く理解できると思います。
現実世界の対象物と数を分離させる方法
ここで問題は、実はランダム変数そのものを「結果」と考えることが可能な事です。特定の実験の結果の関数がランダム変数であれば、途中の結果を無視して、そのランダム変数をその実験の結果と考えることも可能です。そうすると、すべての結果の集合である標本空間を整数の集合、あるいは実数の集合と考えることが可能になります。これはまことに便利な方法ですが、実はこれが現実世界に数学を応用する事の大きな障害となります。なぜなら、我々はもはや現実世界の対象物を考えず、数だけを考えていればよいことになるからです。現実世界の対象物が、ここで数と分離します。つまりランダム変数は単に数から数への関数となり、普通の数学上の関数にすぎないことになります。確率は数の集合の関数となります（ここで実はちょっとやっかいな問題が生じるのですがここでは解説しません）。つまり、何のことは無い、統計学や情報学が単なる数学になってしまいます。人工知能も同様です。
日本の統計学、情報学最大の問題点
ここに、日本の統計学、情報学の最大の問題があると私は考えています。つまり、実験（試行）、結果、出来事、などの現実世界の対象を考えず、考察や思考が単に数学上の問題にとどまりがちだという点です。単に数式と、それを用いたデータの解析結果で説明可能です。これは実は輸入科学としての統計学、情報学、人工知能には好都合な事です。現実世界の対象物と数との対応は既に欧米でなされているので、我が国ではそれに基づいて数式とデータ解析を行えばよいからです。しかし、これでは我が国で科学における深い考察と、それに基づいた新しい発見や発明が出来にくいことは明らかです。
日本語と英語の名詞の違い
それでは、なぜ日本の統計学や情報学が現実世界を取り扱う事を避けるかというと、日本語の特徴に原因があると私は考えています。現実世界の対象物を表すためのことばは「名詞」です。英語の名詞には「可算と非可算」の区別があり、可算名詞の場合は「単数と複数」、「集合名詞」、「定冠詞と不定冠詞」の違いがあります。日本語でも完全に無いわけではありませんが、名詞にそのような区別はほぼありません。上記のような、実験、結果、出来事などの現実世界の対象物を厳密に説明するには、そのような違いが不可欠なのです。可算名詞と非可算名詞が、整数と実数に対応する事も重要ですが、ここでは特に定冠詞、不定冠詞の違いを取り上げたいと思います。
名詞に定冠詞、不定冠詞のどちらが付くかは重要です。実験は、多数の実験のうちの一つを指す場合、an experimentですが、どれかの実験に固定されれば、the experimentです。the experimentを繰り返し行うと多数のoutcomesが生じ、任意の一つの結果はan outcomeですが、特定の結果はthe outcomeです。すべてのoutcomesの集合はthe sample spaceです。任意の結果の集合はan eventですが、特定の結果の集合はthe eventです。すべての結果の集合はthe certain eventであり、結果を何も含まない出来事はthe impossible eventです。任意の結果であるan outcomeにはrandom variable（変数）が対応しますが、特定の結果であるthe outcomeにはrandom variableの値が対応します。数の集合の中の任意の一つの数は「変数」ですが、特定の数になると「値」になります。現実世界の対象物である結果や出来事の場合、不定冠詞が付く名詞は変数、定冠詞が付く名詞は値に対応します。
つまり、英語では現実世界の対象物を変数と値に対応させて表現していることになります。この感覚は非常に重要です。例えば、統計では一つの変数がどのような値を取るかを調べたり、二つ以上の変数がどのような関係にあるかを調べたりすることが多いと言えます。前者の場合、変数と値を区別することは重要です。後者でも、関係が、値だけでは定義できず、変数の関係である事を理解する必要があります。日本では、おそらく現実世界から離れて、単に数学上の関係を捉えていることが多いと私は考えています。
これが、日本で統計学、情報学、人工知能などの「情報」を取り扱う分野が弱い原因と考えられます。これが第二次世界大戦で暗号、機械制御、統計的戦略、を重視しなかった原因であり、戦後モノづくり産業で世界を制覇したのに、情報産業の分野では敗戦を重ねている大きな原因だと考えています。
日本の情報教育への提案
それでは、これからの日本の情報の教育をどのように変えればよいのでしょうか。私は次のように提案したいと思います。
1. 英語では現実世界の対象物をさす名詞に、「可算と不可算」の区別をし、この区別が整数と実数の数に対応することに気付かせる。
2. 可算名詞の場合、「単数と複数」の区別をしていること、集合名詞があることなど、日本語には無い捉え方をしていることに気付かせる。
3. 英語では不定冠詞と定冠詞が付く場合で、任意の対象をさす名詞と、特定の対象をさす名詞を区別しており、それが数学の「変数と値」に対応する事に気づかせる。
4. 特定の実験（試行）を定義し、それを繰り返した場合の任意の結果と特定の結果、すべての結果の集合である、固定された標本空間を理解させる。
5. 任意の結果の集合としての任意の出来事と、特定の結果の集合としての特定の出来事を理解させる。
6. 現実世界の分析に数学を用いる場合、現実世界の対象物に数を対応させる「ランダム変数」と「確率」の概念が、数から数への関数ではない特別の関数である事を理解させる。
7. ランダム変数が「結果から数への関数」であること、確率が「出来事から数への関数」であることを理解させる。
8. ランダム変数と確率の概念を明確に理解するために「確率変数」の用語を用いない事、また、結果の集合の概念を明確に理解するために「事象」の用語を用いず「出来事」の用語を用いることを推奨する。
9. 標本空間を数の集合（例えば実数）にしてしまえば、数学だけで多くの問題を処理できるが、それでは現実世界に対応できない事を理解させる。

以上の考察は一部、コルモゴロフによる公理的確率論に基づいています。ただし、公理的確率論では出来事の集合と確率の取るべき性質についての制限が厳密に取り込まれていますが、ここではそれは取り上げていません。
以上の考察から、確率の講義をすべて英語で行う事を推奨する人もいるかも知れません。しかし、私は、日本語と英語を対比しながら教えることを推奨します。英語だけで確率論を習った人たちは以上の違いに気付かないと思います。日本語と英語の両方を知る人だけがその違いに気づくことができるのです。それは、これから現実世界に数学を適用する上で有利となることも多いと私は考えています。

HOME » 医学の地平線 » 第136号　日本の情報教育における根源的問題の解決

医学の地平線