HOME » 医学の地平線 » 第68号 新しい産業に対応するための教育(10)情報はデータとは違う

医学の地平線

第68号 新しい産業に対応するための教育(10)情報はデータとは違う

データと情報の関係は、解読前の暗号文と解読後の意味の関係に似ています。解読前の暗号文を読むことは誰にでもできますが、それを解読して意味を解明することは誰にでもできるわけではありません。その関係はゲノム情報と表現型の関係にも似ています。ACTGのゲノム配列は誰でも理解しますが、それをもとに表現型を知ることは容易ではありません。暗号文やゲノム配列は観察されたデータです。しかし、観察されたデータが分かれば全てがわかるわけではありません。観察データをもとに「何らかの手法」で重要な知識を引き出す。これこそ真の意味の「情報」と言えます。データと情報は違うのです。日本社会は「モノやその直接の反映であるデータは認識できるが、情報が認識しにくい」という特徴があることは繰り返し述べている通りです。データから情報を形成する過程に問題があると思います。データから情報を形成する場合でも、それを直感的、情緒的に行う傾向があります。データから情報形成への過程は論理的、数理的(科学的)に行う必要があります。もちろん、いつでもそうというわけではありません。恋愛や娯楽などでは直感や情緒で全く問題ありません。しかし、結果が深刻(serious)な場合はデータから情報を形成する過程を科学的に行う必要があります。

データから情報を形成する過程を科学的に行うには、不確実性と多様性を理解するための基礎となる「確率」を正しく捉える必要があります。日本の科学と教育は「モノ」の理解に偏っていて、この分野が充実していないと考えられます。私は不確実性と多様性の理解を深めるためには、次に述べる、コルモゴロフによる公理的確率論による確率の定義の教育に重点を置くべきだと主張しています。不確実性と多様性を前提にデータを科学的に解析するためには公理的確率論による「確率」の定義が不可欠だからです。

日本社会での「確率」の理解は十分では無いと思います。「確率過程」「確率変数」などの訳語に問題があり、それが確率の概念の理解が不足しているという問題に起因することは以前述べたとおりです。それでは、確率の概念を正確に理解するにはどうしたらいいでしょう。それには、まず「確率とはなにか?」を正確に捉える必要があり、そのためには公理的確率論を完全に理解する必要があります。私は、それは日本語だけでは難しい可能性があると考えています。複数と単数、定冠詞と不定冠詞、量と質を区別する概念が無いからです。私は著書「実感と納得の統計学(羊土社)」の中で公理的確率論の説明を図で行いました。図にすると多少の厳密性が失われるのですが、概念の理解には役立つと思います。

公理的確率論は不確実性と多様性を前提として現実世界を科学的考察の対象とするために不可欠の考え方です。日本の確率論や統計学では、この部分に力を入れず、数式の教育にかたよる傾向があるのではないでしょうか。そのため、現実の対象物を説明する数学モデルを「選択する」という手法を基本にするように思います。

それでは確率とは何でしょう?確率は出来事の関数です(Probability is a function of an event.)。従って、確率は「確率関数」とも言います。では、出来事とは何でしょう?出来事は結果の集合です(An event is a set of outcomes.)。それでは結果とは何でしょう?施行(実験)の帰結です(An outcome is a result of a trial (or an experiment).)。 それでは施行とはなんでしょう?理論的には無限に繰り返すことができる一連の手順で、その結果の集合が明確に定義できるものです(A trial is a chain of procedures that can be theoretically repeated infinite times and whose outcomes can be clearly defined as a set.)。

以上、確率 → 出来事 → 結果 → 施行、という方向で説明をしてきましたが、厳密性を保証するためには逆方向の考察が必須です。以下に、それを説明します。一つの施行により可能なすべての結果の集合を標本空間と定義します(The sample space is defined as the set of all possible outcomes from a trial.)。標本空間の部分集合を出来事と定義します(An event is defined as a subset of the sample space.)。言い換えれば、出来事は結果の集合として定義されます(An event is defined as a set of outcomes.)。標本空間全体を出来事と見た場合、これを「確実な出来事(the certain event)」と言います(The sample space also is an event and denoted as the certain event.)。一つの結果も含まない出来事は「不可能な出来事(impossible event)」と言います(The event having no outcomes is denoted as the impossible event.)。しかし、標本空間の部分集合のすべてについて確率が定義できるわけではありません。出来事の集合が満たすべき条件が3つあります。これについては詳しくは述べませんが、(i) 出来事のうち一つは確実な出来事でなければなりません。(ii) ある出来事が含まれていれば、そうでないという出来事も含まれていなければなりません。(iii) 複数の出来事が含まれていれば、そのどれかという出来事も含まれていなければなりません。以上の3条件を満たす出来事の集合をσ集合体と定義します(A σ-field is defined as a set of events that satisfies the above 3 conditions.)。特定のσ集合体から[0,1]への写像のうち、特定の3条件を満たすものを確率関数と定義します(A probability function is defined as a mapping from the σ-field to the interval [0,1] that satisfies the 3 conditions.)。3つの条件とは(i) 確実な出来事の確率は1である。(ii) 確率は非負である。(iii) 複数の出来事が互いに排他的(mutually exclusive)なら、そのどれかが起きる確率は、それぞれが起きる確率の和である。互いに排他とは、一つも共通の要素を持たない場合を言います。

以上の確率の定義の他に不可欠な概念があります。それは、現実世界と数学を結びつけるために必要な「ランダム変数」の概念です。しばしば数学者が行うように、標本空間を実数空間とすればランダム変数の概念の必要性は高くありません。しかし、標本空間を現実世界の結果の集合と定義するとランダム変数は不可欠です。ランダム変数は標本空間、σ-集合体が定まって初めて定義できるものです。標本空間とσ-集合体の両方が定まったものを可測空間といいます。ランダム変数とは標本空間から実数空間への写像のうち特定の条件を満たすものです(A random variable is defined as a mapping from the sample space to the real space that satisfies the certain condition.)。特定の条件とは、任意の実数以下のすべてのランダム変数の値に対応する結果の集合が、特定のσ-集合体に含まれる、即ち出来事であるという条件です。これにより、我々は出来事の確率という言い方の他に、ランダム変数が特定の値を取る確率、特定の区間に含まれる確率、などという言い方ができるようになります。

以上の「確率」「ランダム変数」の定義の中で、単数と複数、不定冠詞と定冠詞が重要な役割を果たしていることを理解できたでしょうか。例えば” The sample space is defined as the set of all possible outcomes from a trial.”では、施行は複数あるがその任意の施行が決まれば標本空間は一つに固定されることが示されています。”An event is defined as a subset of the sample space.”では標本空間が固定されていても、その部分集合は固定されないことを表しています。”The sample space also is an event and denoted as the certain event.”では標本空間が定まれば確実な出来事が定まることが示されています。標本空間が固定されないと確実な出来事は固定されません。これに比較して、”The event having no outcomes is denoted as the impossible event.では標本空間にかかわらず不可能な出来事は定まることが示されています。”A probability function defined on the σ-field”や”a random variable defined on the sample space”はσ-集合体や標本空間が確定しても確率関数やランダム変数は複数可能であり、その任意の一つを言っているため前者にはthe、後者にはaがついています。

σ-集合体が出来事の集合であり、出来事は結果の集合であるということは極めて重要ですが、この表現にも単数と複数、不定冠詞と定冠詞は有用に使われています。もともと集合の集合という概念は取り扱いに注意が必要です。A set of outcomesが突然、an eventになるという違和感は相当なものです。出来事はσ-集合体の中では一つの要素なのに、それ自体が標本空間の中では集合なのです。従って、eventは集合名詞(collective noun)と言えます。またランダム変数は標本空間の関数なので結果に対応しています。しかし、一つのランダム変数の値が、ひとつの結果に対応するとは限りません。ランダム変数に対応するのもまた、結果の集合、つまり出来事であることが多いのです。このように、集合、要素、変数、値の間を縦横無尽にかけめぐることにより公理的確率論は形成されています。

変数と集合には共通する部分があります。どちらも不確実性と多様性の要素を含むことです。しかし、変数が値になると不確実性は無くなります。集合もその要素を考えると不確実性は消失します。しかし、複数の変数や複数の集合を考えると、何かを固定すると別の何かが固定されたり、あるいはそれでも固定されなかったりします。これらの関係は数式としては書くことができますが文章で書くことは容易ではありません。しかし、英語で書く場合、単数と複数ないし集合名詞、不定冠詞と定冠詞を用いることでより比較的明確に表すことが可能です。情報に重要な関連や因果を解析し、その結果を表現するために、上記の「特定の変数を固定すると、別の変数が固定されるあるいはされない」という概念は非常に重要であることが理解できると思います。このような概念を表すために英語ではしばしば、”B is a function of A”という表現が比較的日常的に使われます。日本語で普通の人々が「BはAの関数である」という表現を用いるのを聞いたことはありません。

以上のように英語の単数と複数ないし集合名詞、不定冠詞と定冠詞が公理的確率論の記載に重要な役割を果たしていることを説明しました。これ以外にも英語には質的対象物と量的対象物の区別があります。この違いも公理的確率論には不可欠の概念です。標本空間には連続なものと離散なものとがあり、それによって確率空間の取り扱いを厳密に区別する必要があります。例えば分布を示す場合、前者は確率密度関数(probability density function)が用いられますが、後者は確率量関数(probability mass function)が用いられます。

公理的確率論を説明する上で、単数と複数ないし集合名詞、不定冠詞と定冠詞、質と量の区別が重要な役割を果たしていることを述べました。日常会話の上でも英語で話す場合、このような違いを常に認識する必要があります。特定の対象物が一つに固定されるのか、あるいは複数あり、それは任意に選択できるのかなどが解明できないと英語ではしゃべれません。英語を使っていれば観察データに接した時、何かが固定されるのか、あるいは選択肢があるのかという考察を行う習慣ができるでしょう。これを動かすとどれが動くかという因果を考察する習慣もできます。

私は確率論、統計学の教育では公理的確率論をまず教えるべきで、しかも英語と日本語を対比して教えるべきだと思います。この時、メンデルの法則を取り入れて教えることを推奨しています。実際に、現実世界の出来事の中で確率についての適当な素材は多くはありません。サイコロやコインも良い例ですが、人工物なので自然の良い材料が必要なのです。実際に遺伝の法則ほど確率が安定している場合は極めて少ないものです。例えば、株価などは確率が安定せず、教材としての現実性に欠けます。人間行動に関する不確実性は至るところにありますが、確率が安定している対象はほとんどありません。英語と日本語を対比することでメンデルの法則を材料として公理的確率論を教えることにより、英語、生物学、数学の3つの重要な内容を同時に効率よく教育することが可能です。次回はその詳細について述べます。

HOME » 医学の地平線 » 第68号 新しい産業に対応するための教育(10)情報はデータとは違う

PageTop