2018 Fiscal Year Annual Research Report
がんの統合的解明を目指した生体情報の階層的ネットワーク構造に対する深層学習の応用
Publicly Offered Research
Project Area | Conquering cancer through neo-dimensional systems understanding |
Project/Area Number |
18H04908
|
Research Institution | National Cancer Center Japan |
Principal Investigator |
浜本 隆二 国立研究開発法人国立がん研究センター, 研究所, 分野長 (80321800)
|
Project Period (FY) |
2018-04-01 – 2020-03-31
|
Keywords | 深層学習 / 多層オミックス / Diet Networks / end-to-end学習 / NP困難 |
Outline of Annual Research Achievements |
本研究では、がん多層オミックスデータに対して深層学習を用いた発見的なアプローチを追及し、生体情報の階層的なネットワーク構造に内包される高次元空間内の相関関係を低次元に圧縮し、科学上意味のある結果を導き出すための方法論の構築に取り組んできた。 2018年度において我々は多層オミックスデータにおける各階層内の分子細胞生物学的な特性に応じた情報表現と、その潜在表現を抽出するための深層学習器の設計について検討を行った。解析パイプラインの構築に関してスケーラビリティという観点では、ゲノム情報の取り扱いにおいて出現するNP困難を解消するために、表現力を損なうことなくパラメータの圧縮が可能なモデルを選択した。また、説明性・解釈性という観点では、個々の入力因子が学習器の内部で得る分散表現に注目し、end-to-end学習によって構成される滞在空間での近接性を考察することで、結果に対する説明性を得ることを目標とした。その結果入力行列の転置を入力として、一層目の変数を近似する補助ネットワークを別に学習することで、全結合ネットワークの学習をスケーラブルに実現する、Diet Networksを基本アルゴリズムとして用いたプラットフォームを構築した。さらに我々は発展型として、入力に関して誤差逆伝播法に基づく学習可能なスケール因子も導入した改変型Diet Networksに基づく解析手法も構築し、従来のDiet Networksに比して学習が安定していることを見出した。そこで、954例の肺がん検体の遺伝子変異情報を基に、肺腺がん及び肺扁平上皮がんの分類を試みた結果、75%以上という高い精度で分類を行うことに成功した。またEpoch1000で学習を行った結果、最終的に大きな二つのクラスタが形成され、これが腺がん及び扁平上皮がんそれぞれの出力に対する各因子の寄与率に一致していることが考察された。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
今回我々は、改変型Diet Networksに基づく解析プラットフォームを構築し、954例の肺がん検体の遺伝子変異情報を基に、肺腺がん及び肺扁平上皮がんの分類を試みた。その結果、75%という世界トップレベルの分類精度を示すことを確認した。 もともと、ゲノム情報のように、各因子間(遺伝子座等)の並び順に意味が無いデータについては、畳み込みなどの処理が適応しにくく、全結合ネットワークを当てはめるべきと一般的に考えられていた。しかしながら、全結合ネットワークでは特にネットワークの一層目の変数(入力因子数×一層目のノード数)の数が膨大になってしまい、学習が困難となる問題があった。さらに、ゲノム情報は入力するParameter (P)に対して、sample number (N)が極端に低いという新NP問題と呼ばれる問題が存在し、これまで深層学習技術の活用が困難と考えられていた。 今回我々が構築した改変型Diet Networksの手法は従来の問題を克服し、深層学習技術をゲノム解析に使用する有用性を示した点ではその成果は重要であり、今後様々な解析に応用していくことが期待される。
|
Strategy for Future Research Activity |
今後の研究で重要視している点は、多層オミックスデータにおける階層間の関係性のモデリングについての検討である。機械学習や深層学習を用いた多層オミックスデータ解析に関する先行研究の多くは、ゲノム、エピゲノム、トランスクリプトームや臨床情報などの各階層の情報を同列なデータとして扱っているものが多い。これに対して我々は、生物学的に異なる次元のデータについて、それぞれの階層における特性や経験的知識に基づいたモデリングの有用性を検証していく方針である。特に、表現型からの距離や一定の因果性、生物学的実験におけるデータの一定性などについての考察に基づいたアプローチを模索していく。 また改変型Diet Networksを用いた研究では、モデルの内部表現の違いについて、VAEなどの他の手法との比較を行うことで、より解釈性のある表現学習を行うことが出来る設計を探索していく。さらに様々な臨床的表現型とのend-to-end学習によって、潜在空間における因子間の関連性を多層的に抽出し、これを既存のネットワーク解析手法などと組み合わせることで、がんの本態解明を目指した方法論を構築していく。
|
-
-
[Journal Article] The novel prognostic marker, EHMT2, is involved in cell proliferation via HSPD1 regulation in breast cancer2019
Author(s)
Seon-Kyu Kim, Kwangho Kim, Jea-Woon Ryu, Tae-Young Ryu, Jung Hwa Lim, Jung-Hwa Oh, Jeong-Ki Min, Cho-Rok Jung, Ryuji Hamamoto, Mi-Young Son, Dae-oo Kim, Hyun-Soo Ch
-
Journal Title
International Journal of Oncology
Volume: 54
Pages: 65~76
DOI
Peer Reviewed / Int'l Joint Research
-
[Journal Article] Clinical Value of Serum p53 Antibody in the Diagnosis and Prognosis of Esophageal Squamous Cell Carcinoma2018
Author(s)
Masaki Kunizaki, Keiko Hamasaki, Kouki Wakata, Syuichi Tobinaga, Yorihisa Sumida, Shigekazu Hidaka, Toru Yasutake, Takuro Miyazaki, Keitaro Matsumoto, Takuya Yamasaki, Terumitsu Sawai, Ryuji Hamamoto, Atsushi Nanashima, Takeshi Nagayasu
-
Journal Title
Anticancer Research
Volume: 38
Pages: 1807~1813
DOI
Peer Reviewed
-
-
-
-
-
-
-
-
-
-
-
-
-