研究課題/領域番号 |
16K00390
|
研究機関 | 京都大学 |
研究代表者 |
吉沢 明康 京都大学, 薬学研究科, 特定助教 (70551159)
|
研究分担者 |
守屋 勇樹 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (40773841)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 質量分析 / ピーク検出 / 機械学習 / 深層学習 / バイオインフォマティクス / プロテオミクス |
研究実績の概要 |
本研究は機械学習、特に深層学習の手法を、質量分析データの解析に於ける最初の必須ステップである「ピーク検出」に適用する、という学際研究である。計画では初年度にまず、(1) 機械学習の手法を質量分析データのピーク検出に適用するための具体的な手法の開発 (2) 結果の評価系の開発 の2つを実施する予定で、この目的はほぼ達成された。 初年度の作業の結果、深層学習のための学習条件の設定には、半教師付学習を用いて試行錯誤するよりも(通常の)教師付学習を最初に行った方が容易である、と判断した。更にテストトレーニングの結果、この教師付学習の結果だけも実用に足る可能性が高い、と判断した。これらの結論に基づいて、深層学習を行う前に、教師付学習によるピーク検出方法を確立することを目標に追加した。ここで用いる学習用データセットは半教師付学習の正解例セットとしても使用する予定である。 本年度はこの教師付学習によるピーク検出方法の確立が目標であり、下に述べるように進行が遅れているが、研究内容自体に起因する困難ではなく、研究方針は継続する予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本年度は当初予定と異なり、スーパーコンピュータを利用せず自前のサーバを利用した解析を行うことになった(研究代表者が異動したことによって、スーパーコンピュータの設置されたキャンパスから移動し、大量のデータの計算機システムへのアップロードなどに於けるメリットが消失したため)。このため、当初の予定になかった「解析のための計算機環境の整備」に大幅な時間を費やす必要が生じた。 また研究代表者・研究分担者・連携研究者・研究協力者などの大多数が本務(または本務の一つ)としているプロジェクト(jPOST)の最終年度であり、かつ代表者・分担者の雇用形態上の制限から、一時的にエフォートを増加させて対応することができなかった。 以上のことから、全体として作業の進行が遅延した。この結果、本年度に実施予定であった、「深層学習を用いない一般的な教師付機械学習(深層学習のための準備段階でもある)」のトレーニング(学習)計算は、既に開始してはいるが、当初の予定よりも半年程度、開始が遅れている。 但しいずれも研究者の作業時間の問題であり、研究内容に関連する問題ではないため、上記の区分とした。
|
今後の研究の推進方策 |
現時点で上述のように半年程度の進行の遅れが生じたが、これは上述のように研究上の問題が原因ではなく、(1) 環境の整備に手間がかかったこと (2) 研究代表者の雇用形態の関係上、エフォートを増加させることができなかったこと が原因である。実際に研究自体には、現時点では重大な問題は生じていない。従って当面の最大の課題は、計画の遅延から回復することであると考える。 遅延の原因それぞれについて、まず上記(1) については計算環境の整備が本年度でほぼ完了している。また(2)については、新(2018)年度から研究代表者の雇用形態が変化し、エフォートの増加が可能になるため、本研究のエフォートを大幅に増加させ、本研究への対応に集中することによって、現状の遅延から回復する予定である。 従って研究方針については、計画からの特別な変更は予定していない。
|
次年度使用額が生じた理由 |
最大の理由は、研究代表者が(キャンパスを移って)異動したことによって、スーパーコンピュータ利用のメリットがなくなり、代わりに自前のサーバを購入する必要が生じたことである。またサーバ費用も、性能面から選定した結果、当初予定の80万円程度を上回る金額が必要になった。 これらの結果、必要となった費用が、計画にあったスーパーコンピュータの利用料金を超える金額となり、それ以外の予算を圧迫した。このため、当初予定していたノート型コンピュータの購入には残金が不足しており、ノート型コンピュータの購入を再度延期して次年度に繰り越すこととした。
|