第111号　ゲノムデータ解析と AI（人工知能）｜公益財団法人痛風・尿酸財団

医学の地平線

第111号　ゲノムデータ解析と AI（人工知能）

AI（Artificial intelligence ）が次世代の産業の中心課題として注目されています。 GoogleのAlpha Go が職業棋士を破ったことが大ニュースになりました。更には自動運転技術としての応用も進められています。自動電話顧客対応、自動診断技術、自動手術技術など AIの応用範囲は幅広いと考えられています。

AIが活躍するためには巨大なデータ（Big data）が不可欠です。巨大なデータはインターネットの発達により拡大を続けています。例えばTwitter、 You Tube、FaceBook 更にはメールなどが巨大データを形成しています。個人のスマホが提供する位置データなど、スマホ由来のデータも巨大なものでしょうし、将来的には世界のすべての自動車からのデータも収集される可能性があります。また、宇宙から発せられる天体データも巨大データを形成しつつ有ります。人間が認識可能なすべてのデータがコンピュータに蓄積される可能性があります。

しかし、専門家は個人のゲノムデータがもっとも巨大なデータを提供するであろうと予測しています。既に 10万人程度の全ゲノムデータが得られていると予想されますが、米国では 100万人のゲノムデータを得る計画が立てられています。将来的には、体内の細胞の一つ一つのゲノムデータも得られる可能性さえ否定できません。

これらは何の役に立つのでしょうか。現在は病気の原因や、薬物の効果、副作用に関係する遺伝子を発見する研究が主流です。身長、体重、味覚、髪の性状など病気以外の形質に関連する遺伝子を発見する研究がそれに続いています。それらの発見は個別化医療、創薬などに貢献していますが、将来は健康人のヘルスケアにも貢献すると期待されています。

ゲノムデータの利活用はそれに留まることは無いでしょう。それは、これからの統計学、情報学、さらにはAIにも大きな貢献をすると考えられます。意外に思うかもしれませんが、統計学、情報学、さらにはAIで用いられている手法も、元々は遺伝学に由来するものが多いのです。例えば、回帰(regression)、分散(variance)、尤度(likelihood)、最尤法(maximum likelihood)などです。例えば回帰はGaltonが親と子の身長の関係から最初に定義した概念です。親の身長から子の身長を「予測」するというIntelligenceの本質がここで芽生えています。尤度はFisherがショウジョウバエの染色体上に形質関連遺伝子の座位を推定するための手法として提案したものです。今では連鎖解析と呼ばれる手法です。原因遺伝子の座位を推定するという、明確で重要な目的があって始めてその重要性が認識できる概念だと思います。遺伝学で取り扱うデータは規則性と重要性がしっかりしており、統計学的手法の正当性を確認する最適な対象となるからだと思われます。日本は由来抜きに統計学を輸入したため、「そもそも」理論が不足しています。ごちゃごちゃ言わずに役に立つ結果を早く出せという要求が非常に強いのです。しかも結果だけを重視し、その手法の正当性には関心を払いません。これでは統計学者はいつまでたっても、研究室の研究補助者と同じ扱いです。

アメリカのオバマ大統領は「precision medicine initiative」の前に「chemical genomics」「materials genomics」の提案をしています。ゲノム研究で蓄積された情報技術が幅広い分野に応用されるであろうと言う適切なビジョンだと評価できます。日本のゲノム研究はガラパゴスになりつつあります。これも、長期的展望を示せないからです。アメリカやヨーロッパから押し寄せてくるゲノムデータの活用技術に対し、「ここが問題だ、あそこを規制しなければ」という議論が中心です。その解決法も「アメリカではこうやってる、ヨーロッパではこうやってる」という意見のみが重視さます。日本独自にどのようにゲノムの利活用を考えるかというビジョンが全く無いのです。これでは周回遅れは免れません。

ビジョンを持つには歴史と広い分野の知識が必要です。是非、このような議論にも力を入れてほしいものです。

HOME » 医学の地平線 » 第111号　ゲノムデータ解析と AI（人工知能）

医学の地平線