2016 Fiscal Year Research-status Report
Project/Area Number |
16K00390
|
Research Institution | Kyoto University |
Principal Investigator |
吉沢 明康 京都大学, 化学研究所, 特定研究員 (70551159)
|
Co-Investigator(Kenkyū-buntansha) |
守屋 勇樹 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイエンス統合データベースセンター), 大学共同利用機関等の部局等, 研究員 (40773841)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 質量分析 / ピーク検出 / 機械学習 / 深層学習 / バイオインフォマティクス / プロテオミクス |
Outline of Annual Research Achievements |
本研究は機械学習、特に深層学習の手法を、質量分析データの解析に於ける最初の必須ステップである「ピーク検出」に適用する、という学際研究であり、直接参考になるような先行研究が存在しないため、適用の手法・結果の評価系共に全て独自に開発する必要がある。このため、計画では初年度にまず、上述の適用手法と評価系の開発を実施する予定であったが、この目的はほぼ達成された。 (1) 研究計画では、ニューラルネット生成ソフトウェアとしてオープンソース・ソフトウェアであるChainer(深層学習・(通常用いられる)教師付機械学習の双方で利用可能)を用い、質量スペクトルを「種々のノイズによって“正解”であるピークが変形したデータ」であるとみなして、深層学習に基づく機械学習を行う予定であった。しかし学習条件の設定には、計算量の少ない教師付学習を用いるほうが容易である。また教師付学習で用いる学習用データセットとしては、深層学習の半教師付学習でも用いる「正解例セット」を使用することが可能である。そこでChainerを用いた教師付学習をまず実施し、JST/NBDC統合化推進プログラム「プロテオーム統合データベースの構築」課題・jPOSTデータベースから正解セットを取得した。 (2) 研究計画では、特徴量の抽出が適切に行われているかを検証するために、アミノ酸配列が既知であるペプチドのスペクトルから特徴量を抽出し、理論ピークと合致するかを検討する予定であった。しかし「(タンパク質同定のための)データベース検索」と組み合わせることによって検証作業を半自動化することに成功したので、主にこの手法を用いて、((1)で述べた)教師付学習の検証を行った。この結果、教師付学習の結果だけでも実用的な判定器が生成できる可能性が高いことが判明した。この結果は2017年度中に発表することを計画している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は初年度であるため、現在までの進捗は「研究実績の概要」で述べた内容に一致する。即ち、研究計画で述べた項目の目標は全て達成できた。実際に実データを用いて検証した結果、達成するための具体的な方法は一部変更したが、3個の目標、即ち (1) 少数の正解例学習用データの生成 (2) 判定器を機械学習するための適切なソフトウェアの決定 (3) 検証用データの準備 のうち(1)と(2)は完了、(3)は当初見込みどおり進行中である。 即ち(1)については「研究実績の概要」で述べたように検証を半自動化させることが可能になった。「結果の評価系を確立し、できるだけ自動化すること」が機械学習、特に深層学習に於いては重要であることが本研究グループ内で指摘されていたため、この半自動化は次年度以降の研究のために良い成果であると考えられる。更に(2)については、現行のChainerから別のソフトウェアに変更するべき理由はない、と判断した。 研究計画以外の成果として、深層学習を用いない通常の教師付機械学習でも、ピーク検出に一定程度の成果が得られることが確認できた。この結果は実用的な成果として、2017年度に発表を予定している。
|
Strategy for Future Research Activity |
概ね研究計画通りに進めるが、初年度の成果に基づいて、以下の点については変更を加える。 (1) (機械学習によって生成された)ソフトウェア的判定器の性能検証は、初年度で成功した半自動化プロトコルを併用する。なお半自動化にあたってのパラメータ設定は、経験的な知識に基づく判断に加えて、JST統合化推進プログラム「プロテオーム統合データベースの構築」jPOST計画で進められている「再解析プロトコル決定」の成果を援用する。 (2) 深層学習を用いない一般的な教師付機械学習によっても、一定程度実用的な判定器が生成可能であることが初年度研究の予備的結果によって示されているため、この「教師付機械学習による、プロテオミクスで代表的な質量分析計(機種)に対するピーク検出判定器の作成」を目標として追加する。これに必要な作業は深層学習を行うための作業の一部であるため、結果を単独で取り出して発表するための作業が追加されるだけであり、これによって本来の計画の遂行を妨げることなく、実用的な成果をより早い時期に公開できると考える。
|
Causes of Carryover |
理由は以下の2点である。(1) 初年度の作業では、当初見込みよりも計算量が少なくなったため、スーパーコンピュータのCPU使用時間が少なく、結果的にスーパーコンピュータの利用料金が非常に低く抑えられた。 (2) 入力の補助用にノート型コンピュータを購入予定であり、進捗状況に応じて2016年年末~2017年初頭に購入する予定であったが、2017(平成29)年度から勤務先の異動が決まったため、17年度に購入することに変更した。
|
Expenditure Plan for Carryover Budget |
(1) CPU時間は次年度以降に増加する見込みである。しかしながら、現計画は研究代表者が京都大学宇治キャンパス(化学研究所)で勤務し、同キャンパス内のスーパーコンピュータを利用することを前提としている。代表者は2017年度から、同大学内の吉田キャンパス南西地区(大学院薬学研究科)に異動することになったため、スーパーコンピュータと同じキャンパス内にいることによって得られていたネットワーク速度・ディスク容量などのメリットが、一切得られなくなる。従って、本研究のための計算サーバを17年度中に購入し、初年度の剰余金と17年度のスーパーコンピュータ利用料金をこれに充てる計画である。 (2) ノート型コンピュータは、2017年度に購入する予定である。
|