平成 22 年に始まった新学術領域研究「システムがん」(システム的統合理解に基づくがんの最先端診断、予防、治療法の開発)(~26 年度)では、がんオミクス研究にスーパーコンピュータを駆使した数理/統計モデリングやデータ解析の手法を融合させることで、がん研究を大きく加速し、規模を拡大し、成果を出しました。しかし、この5年の間に、同種類のがん検体だけでなく、一人の患者の同じがん組織内においても想像を超えたがんの多様性が見いだされ、がんのシステム異常の複雑さの本態が次第に解ってくるにつれ、がんの発生、進展過程、診断、予防、治療戦略などについて、これまでの考え方を変えなければならなくなりました。がんの多様性とは、ゲノムだけでなく、DNA メチル化、ヒストン修飾、クロマチンコンフォメーションなどエピジェネティック変化、代謝リプログラムなどです。 システムがんでは、まず、ヒトゲノム解析センターの数万 CPU コアと数ペタバイトの大規模高速ディスクアレイ備えたスーパーコンピュータを巧みに使い、高精度のゲノムシークエンスデータ解析システムや高並列化遺伝子ネットワーク解析ソフトウェアなど、システム的解析及びシークエンスデータ解析環境を世界トップレベルで構築しました。それにより、それまでの小サンプル・既知の少数分子を対象に、増殖、浸潤、転移、薬剤耐性などのがんの特性を個々独立の現象として見ながら、がんの分子病態の一部を垣間見る研究から、俯瞰的にがんをシステムとして捉えることができる研究へシフトさせました。
その結果、骨髄異形成症候群 (MDS) における RNA スプライシング変異が同定されました (Yoshida et al. Nature, 2011)。これは世界で初めて MDS の原因遺伝子を発見したという意義だけでなく「RNA スプライシング」という DNA から mRNA が作られるプロセスの異常が、がんの発症に関わることを示した世界で初めてのもので、がん研究の歴史に刻まれる発見となりました。このパラダイムによるその後の一連の研究は世界を圧倒しました。また、システムがんでは、数千種類の存在が示唆されているマイクロ RNA のがんの分子病態形成への関わりの研究で、マイクロ RNA を含む大規模遺伝子ネットワーク推定法が威力を発揮しました。マイクロ RNA の果たす役割の全貌解明には、マイクロ RNA と標的遺伝子の一対一の対応関係の解明では不十分であり、遺伝子制御ネットワーク全体を俯瞰するシステム生物学的なアプローチによる研究が必須であるという知見から、肺腺がん患者 124 人の手術検体の遺伝子発現プロファイルデータから、非線形ベイジアンネットワーク法で肺がんのマイクロ RNA と転写因子からなる遺伝子ネットワークをスーパーコンピュータで推定し、再発・死亡と優位に関連する 14 個の部分ネットワークとそのハブ遺伝子を発見し、肺腺がんの予後の良・不良のスイッチを入れる新規のマイクロ RNA とともに、そのメカニズムの解明にシステム的方法論が活躍しました (Arima et al. Carcinogenesis, 2014)。さらに、高転移株など悪性度を検証するための細胞株の樹立は容易でなく時間を要するものですが、我が国で唯一、システムがんで研究を展開している稲澤のグループがこうした樹立に成功しており、その結果口腔がん高転移亜株/親株における浸潤転移に関連するシステム的方法を駆使した比較統合的オミックス解析により、新規がん分子標的の発見に成功しました。
このようにシステムがんを通じ俯瞰的ながんのシステム的理解が飛躍的に進み、同時に国際がんゲノムコンソーシアムや米国 TCGA プロジェクトなどにより、タンパク質翻訳領域を網羅するエクソーム解析によりほぼすべてのがん種について主要な変異がカタログ化されるに至りました。しかし、ゲノムシークエンス技術の革新により、様々ながんの本質に関わる新たな挑戦的課題が見えてきました。
以上のことから、本研究は、がん研究として、がんの進化、ノンコーディング RNA、がん細胞文脈という概念でシステム的統合理解を深化させる基礎研究分野です。その推進の鍵は、システムがんで実証されたスーパーコンピュータを大規模に活用することではじめて実現できる数理モデリング・大規模データ解析、遺伝統計解析などの数理的方法論で一貫しています。しかし、スーパーコンピュータの能力の増大とデータの超大規模化により俯瞰情報は広大になり、目標地点を見出して相互にシャトルする技術的・科学的すべがあまりなく、上述の例のように人智・人力を超えたものとなっています。また、がんに関する論文は過去5年間だけで70万以上あり、これらに電子的にはほぼアクセスはできるが、全文献を読むには無理があり、専門家の知識は深いが視野は狭いものです。そこで、本研究の格段の発展・飛躍的な展開を目指すために、人工知能分野で開発され現在、様々な社会領域で注目されている IBM Watson が実装している Cognitive Computing などの革新的情報技術を新たにがん研究に融合し、がんの全体象を把握した上で、その細部へと自在にシャトルする術を獲得することを実施します。同時に、がんの ELSI 研究を構築してがん研究との融合・整合性を図り、現在の我々の想像を超えたがんゲノム研究・診療を支え、時に対峙しうる領域へと深化させます。
★がん研究と並行して、ヒトゲノム計画により2004年にはヒトゲノムの完全解読が終了し、疾患特異的ゲノム異常探索の基盤ツールとなるリファレンス配列が整備されました。そして、我が国ではJSNPデータベースが整備され、国際HapMap計画ではその中心的役割を果たしてきた。このヒトゲノム計画の進展とともに、がんの分子レベルの解析において、一塩基多型(SNP)をベースにしたゲノムワイド関連解析(GWAS)によるがん関連遺伝子の探索のほか、次世代シーケンサーによる変異探索、DNAチップを用いたゲノムコピー数解析、網羅的遺伝子発現解析(トランスクリプトーム)、質量分析装置による網羅的蛋白解析(プロテオーム)、代謝物質解析(メタボローム)、さらに、がん特異的糖鎖修飾(グライコーム)などの研究が精力的に進められてきましたが、我が国のがんオミックス研究における貢献は、本領域の計画研究代表者らの業績にまさに象徴されています。がん研究はこれらの進展の結果、例を地球科学にとるならば、天上を周る人工衛星の登場によって、地上を這いながら行うしかなかった研究が、地球システムとして観測・研究できるようになったのと同質の大変革のチャンスを迎えています。しかしながら、洪水のようにゲノム網羅的な情報が集積する一方で、それらのゲノム上の個人差やゲノム・エピゲノム異常とそれに起因するプロテオーム・メタボロームの変化が関わる、がん化に伴う細胞内プロセスについての基礎的理解はいまだに十分ではなく、これまで研究されてきたがんの治療法や予防法がなぜ成功しなぜ失敗したのかを十分には評価できていません。そして、上述のような従前のアプローチによる情報の積み上げとデータ解析では大きな飛躍は望めず、閉塞感に満ちた現状を打破するものとして、がんのシステム的統合理解に基づく戦略に期待が寄せられています。このように、がん研究は、ゲノムの一次元地図の完備が起爆点となり、時間軸のある生命システムとしての超高次元空間の探索に向かっているといえるでしょう。
★一方、システム生物学という言葉が流布されて10年以上になります。この方法論は、コンピュータを使った先端的な生命システムのモデル化・シミュレーションと、システムを理解するための実験データとを融合させることに、その核心を置いています。上述のゲノム研究の展開により生命システムを構成する個々の部品(ゲノムからメタボローム)とそのメカニズムについての知識が格段に増大しましたが、これまでシステム生物学では方法論の試験的な開発に重点が置かれ、ややもするとすでに実験的に明らかとなっていた生化学反応などのトイモデルをパソコンで計算し、in silicoで確認する程度に甘んじてきた傾向は否めません。また、多くの場合、大腸菌などの下等生物を実験系として用いており、特にヒトのがんという極めて複雑なシステムを対象に、この可能性に富むアプローチをもって挑戦し、新しい発見に直接的に寄与できることを実際に示し得たとする研究成果の報告は、現時点において残念ながらほとんど見当たらりません。また、創薬や治療などへの展開について計算的技術の裏打ちのないエッセイ的なメッセージが、研究現場に不適切な期待感を生みだしたことは遺憾です。
★他方、気象学や経済学などは、数学による複雑なシステムの数理モデリングとコンピュータによるシミュレーションにより、すでに予測科学へと画期的変貌を遂げています。私たちは、これまでに生命システムとその計測データに特有の様々の困難を克服し、気象学や経済学で威力を発揮している状態空間モデル、データ同化、ベイジアンネットワークなどを駆使した新たな数理モデリングの方法を開発し、ヒトゲノム解析センターの「世界で2番目に速いライフサイエンス用スーパーコンピュータ」を活用して、予測能力をもった数千の分子のネットワーク(予測する地図)を解析する計算技術を実用レベルで開発しています。さらに、生体分子の動的ネットワーク解析のための、(ⅰ)パスウェイのモデリング・シミュレーションソフトウェア Cell Illustrator®、(ⅱ) 分子ネットワーク推定、可視化・シミュレーションなどのデータ解析の流れをグラフィカルに自在に組み立てることができるソフトウェア Cancer System integrative Pipeline (CSiP)、(ⅲ)ケースとコントロールデータから関与するパスウェイを推定するMetaGPなどのツール開発や、さらに、次世代シークエンサーデータのマッピングとアセンブルをする超並列システム(1000コア並列)の準備などを進めてきています。これらの生命システム解析技術は、技術的にゲノム・エピゲノムからメタボロームまでをシステムとして統合的に解析できるものであり、このようなスーパーコンピュータインフラと最先端の生命システム解析技術を有した研究グループは世界に類を見ません。
★この研究は、以上のような学問的・研究準備の背景の下、がんをシステムとして解明しマネージするために、がんが関わっているシステムを構成するシステム要素とシステムの構成・動作原理解明のための網羅的解析(ゲノム、エピゲノム、遺伝子発現、マイクロRNA、プロテオーム、メタボローム解析など)、スーパーコンピュータを利用した大規模データ解析による生体分子ネットワークの解析、細胞・組織レベルでのシステムの動的モデリングとシミュレーションおよび実験的検証などを融合して、新たながん研究のパラダイムとなる革新的な領域の創成であり、がんの分子病態のシステム的な統合理解に基づいた精度の高い診断法、がんの個性や個人のシステムの違いを反映した治療法・予防法の開発を目指すものです。また、この研究で開発するシステム的方法論は、がん研究だけでなく、他の生命科学・医学研究へ波及するという効果も期待できます。
★なお、研究では、システム生物学的なアプローチによるがんの分子病態解明と臨床応用に関する研究に加えて、がんの進行速度や浸潤転移などの個体レベルの臨床病態の予測に、数理的方法論や情報科学的方法論を導入した補完的な研究も組み入れる予定です。また、がん研究者とシステム生物学を始めとするバイオインフォマティクス研究者の共同研究を促進するためのインセンティブとしても公募研究を活用することも考えています。
このような研究領域の発展は、これまでの分子生物学的、遺伝学的解析が中心となっていたがん研究に、数学とスーパーコンピュータを駆使した計算システム生物学の方法論を導入することで、現在のがん研究が直面している限界をはじめて超えることが可能になり、がん研究の水準を飛躍的に向上・強化させることにつながります。本研究は、生物系(総合領域・腫瘍学・腫瘍診断学)と理工系・数物系科学(総合領域・情報学・生体生命情報学)の融合領域であり、前者はがん研究に対応し、後者は計算システム生物学に対応します。