HOME » 医学の地平線 » 第109号 統計学の教育法への提案

医学の地平線

第109号 統計学の教育法への提案

日本は統計学が弱いと言われています。それはもともと日本社会が、不確実なことを「直感と情緒」で判断する傾向があり、「論理と数理」により判断することが苦手、あるいは好まない傾向にあることと関連していると考えられます。これは複数の意見を論理によって解決するよりも、上意下達的、あるいはその場の雰囲気による合意により解決することには都合がよいかもしれません。しかし、これからの人々の生き方を考え、世界に伍していく産業のありかたなど考えると、論理と数理による不確実性の判断基準である統計学なしには難しいでしょう。日本国内では「直感と情緒」で合意が成立しても、世界に対して主観のみで競争することは困難だからです。確実で均一である「モノ」に対しては統計学の必要性は大きくありませんが、不確実で多様である「生き物」に対しては統計学が不可欠だからです。これからの日本の産業が製造業だけで成り立つと考えることには無理があります。

そこで統計学の教育が極めて重要であるということは多くの人が考えることです。しかし、日本の統計学教育の効果が上がっているとは言いがたいのが現状です。このままの統計学の教育法を続けても、大幅な成果が得られることは期待できません。その原因の一つとして、現在の日本の統計学教育が「数理→現実」の順序である事があります。数理統計学が第一にあり、それを現実に応用するという方向性です。これを、「現実→数理→現実」、という方向性に変更する事を提案するというのが今回の主旨です。

この方向性は実際に統計学が発達した歴史を反映したものです。歴史に従って統計学を教育すれば、自然にそのような方向性になるはずです。しかし、我が国では欧米から科学を輸入したため、「そもそも」を省略した方向性を持つに至っていると考えられます。

歴史を見て、初期に統計学の進歩に貢献した人々の傾向を見ても、現実と数理の間の振り子のような流れが見えます。Galton(現実)→Pearson(数理)→Fisher(現実)→Neyman(数理)という流れです。このような流れに従って、歴史に基いて統計学を教育することを提案します。例えば、大雑把に述べて、下記の内容を骨子とした教育です。

遺伝学者であるGaltonは親子の身長が関係していることに基づき、回帰(regression)という統計学上もっとも重要な概念の一つを提案します。子の身長は親に比較して平均に回帰する傾向があるという事に基づいた命名でした。横軸に両親の平均身長、縦軸に子の身長をプロットすると、それに最もフィットする直線の傾きである回帰係数は1より小さい傾向があるというのです。最小二乗法により計算される回帰係数は共分散を横軸の分散で除した値になります。しかし、後にメンデルの法則が再発見され、この「回帰」の現象は遺伝学的には一般的に正しいとは言えないことがわかります。

Galtonを引き継いだピアソンは極めて数学的能力の高い研究者でした。Galtonが提唱した回帰、相関などの概念を数学的に遥かに洗練された内容に発展させ、モーメント、分布関数、確率密度関数、標準偏差、ピアソンの相関係数、χ二乗検定など重要な記述統計学の多くを確立します。

ここで、1900年にメンデルの法則が再発見され、統計学の歴史に大きな影響を与え始めます。Fisherは1918年に統計学史上最大とも言われる論文を発表します。「The correlation between relatives on the supposition of Mendelian inheritance」と題した原稿は、最初Biometrikaに投稿されPearsonによりreject、Transactions of the Royal Society of London誌に投稿されreviewerであるPearsonにrejectされ、ダーウィンの子のLeonard Darwinの推薦によりTransactions of the Royal Society of Edinburgh誌に掲載されます。これを読むと、今でもその先進性と卓越性は記述不可能レベルで、Pearsonですらそれを認めたくなかった事はある程度理解できます。まず、Fisherは多様性を表す指標としてPearsonの提案した標準偏差は相加性が無いと指摘します。その平方こそが相加性を持ち、ここにこれを「Variance(分散)」と呼ぶと宣言します。そして、表現型が遺伝と環境の和で示されるという、表現型値 = 遺伝型値 + 環境値、という線形モデルを初めて定義し、その効果の大きさは分散の比較で行うことができるという分散分析のアイデアを提示します。さらに、表現型に与える遺伝の効果の大きさは、分散の比である「Heritability(遺伝力)」により表されるというのです(heritabilityの言葉は後の研究者による命名です)。次に、兄弟姉妹の遺伝型値の相関係数は母集団では厳密に1/2であるが、標本の中ではばらつく事を指摘し、パラメータと標本から計算されるランダム変数を区別します。線形モデル、分散分析、標本論など統計学の重要な概念が一つの論文に盛り込まれていることはまさに驚異的です。

更にFisherは1922年に推定に関する次の大論文を発表し、新たに最尤推定の概念を確立します(Fisher RA. On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society, A: 222: 309-368, 1922)。そして、彼は同時にモルガンによるショウジョウバエの交配結果を最尤法により分析した結果を発表します(Fisher RA. The systematic location of genes by means of crossover observations. Am Naturalist 56, 406-411, 1922)。これは現在行われている連鎖解析の手法と本質的に同じです。Fisherは自分の統計学はすべて、生物学の実験結果を説明するために考えだしたと述べています。Fisherの最尤法の確立がメンデルの法則に基づく連鎖解析手法の確立を基に行われたことは確実です。

1918年のFisherの論文をもとに、PearsonとFisherは感情的とも言える激しい対立関係になります。しかし、これが統計学を大きく発展させる原動力となったと考えられます。Mendelの法則を認めないPearsonと認めるFisherの対立は、記述統計的思考と推計統計的思考の違いを良く反映しています。遺伝学においてもPearsonを代表とする生物計測学派(Biometric School)とBateson、Johanssonなどを代表とするメンデル学派(Mendel’s School)の間で激しい論争が繰り広げられ、これが遺伝学の発展に大きく貢献します。

Fisherとの論争はPearsonの子、Egon Pearsonとその友人Neymanの代になっても続けられ、Neymanは仮説検定についてはFisherの帰無仮説重視の考えに対し、帰無仮説と対立仮説を重視する検定を提唱します。更に区間推定についてはFisherとは異なった現在の区間推定法を提唱します。米国カリフォルニア大学バークレー校に移ったNeymanはFisherに最も大きな影響を受けながらも感情的には憎悪し、後継者にFisherの功績をあまり伝えていません。しかし、NeymanはGalton、Pearson、Fisherによって創設された統計学の手法を遺伝や生物学以外の分野にも応用できるようにした点で大きな貢献があります。

このように遺伝学と統計学は互いに大きく影響をしながら発展してきた科学分野です。数理統計学はややもすると抽象論になりがちであり、現実世界から遊離しがちです。確かに経済学などへの応用も重要ですが、現実とはかけ離れた結果になることもしばしばで、数理統計学の有用性を十分示せているとは思えません。その理由は、確率の不安定性によるものだと考えられます。遺伝の問題ではFisherの言うように、パラメータとしての兄弟姉妹の遺伝型値の相関係数は厳密に1/2であり揺らぐことはありません(これはFisherの厳密検定の基になった考えです)。しかし、経済学ではそのような安定した確率を探すことは困難です。母集団におけるパラメータと標本におけるランダム変数や値の違いは統計学では最も重要な概念の一つですが、遺伝を材料にすると、これが無理なく実感できます。ベイズの定理における事前確率の存在も、メンデルの法則における厳密な確率を知って初めて実感できるものです。

日本では遺伝学と統計学が分離しているため、そのどちらも弱体なのです。歴史を学ぶことにより遺伝学と統計学の両方を学ぶことの重要性が理解できます。現実と数理の間の思考の往来が重要なのです。

近年のゲノミクス研究では100年以上にわたる遺伝統計学の歴史の知識が欠かせません。Fisherが最尤法の理論とともに確立した連鎖解析の手法は、その約60年後から始まった、染色体上のマーカーを利用したヒトの遺伝病の原因遺伝子の発見に大きく貢献しました。実際にはElston-StewartアルゴリズムやLander-Greenアルゴリズムを用いたソフトウェアを用いますが、Fisherに始まる連鎖解析の歴史の知識なしには深い理解は得られないでしょう。更に最近では、Fisherが1918年に定義した「遺伝力」の問題が解決する可能性が出てきています。その原理はもともとはFisherによるものですが、最近用いられている方法は、1972年にHasmanとElstonにより提唱された、表現型共分散を遺伝型共分散の上に「回帰」させる手法です(Haseman JK, Elston RC. The investigation of linkage between a quantitative trait and a marker locus. Behav Genet. 2:3-19, 1972)。この方法は個人の遺伝型と表現型が必要ですが、解析の二次データを使用するLD score regressionという方法が提案されています。直接表現型に関連する座位と連鎖不平衡にある座位のカイ二乗の値が、直接関係する座位のカイ二乗の値の、連鎖平衡の相関係数の二乗倍となることを利用したものです。このようなbig dataを用いた解析であっても100年前の概念を用いた解析ができ、信頼できる結果が得られるのが遺伝的データの特徴です。これはひとえに、メンデルの法則における確率の安定性によるものです。

統計学の「そもそも」の多くは遺伝学の題材に由来したものです。具体的な題材なしに統計学を学んでも、実感が持てず難しいのは当然です。新たな統計学の教育法として、歴史に基いて統計学を教育することを提唱したいと思います。

HOME » 医学の地平線 » 第109号 統計学の教育法への提案

PageTop