2020 Fiscal Year Research-status Report
Development of 3D model construction method using structure database and electron microscope images
Project/Area Number |
18K06101
|
Research Institution | National Institutes for Quantum and Radiological Science and Technology |
Principal Investigator |
松本 淳 国立研究開発法人量子科学技術研究開発機構, 量子生命科学領域, 主幹研究員(定常) (10399420)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | プログラム開発 / 電子顕微鏡 / 生体分子 / 立体構造 / ニューラルネットワーク |
Outline of Annual Research Achievements |
一昨年度は、数値計算ソフトウェアMatlabを用いてニューラルネットワークのテスト計算を行い、昨年度は、CUI(Character User Interface)上で動作するニューラルネットワークの独自プログラムの開発を開始した。開発には、プログラム言語pythonとニューラルネットワーク用ライブラリのTensorflowおよびKerasを用いた。そして、事前学習済みのネットワークを用いること(転移学習)で、疑似電顕画像を高い確率で区別できるニューラルネットワークの構築ができることを確認した。 今年度も、引き続きプログラム開発を中心に行い、主に、計算の高速化に取り組んだ。代表者が開発した疑似電顕画像作成手法は、もともとMPI(Message Passing Interface、複数台のコンピュータで計算を分割処理することにより計算時間を短縮する方法)を用いて並列化を行っていたが、これをOpenMP(1台のマルチコアCPU搭載の計算機で並列処理を行う方法)による並列化に変更した。現在の計算機は多数のCPUコアを搭載しており、計算機間の通信が不要な後者のほうが高速になると判断したためである。実際、28CPUコアを積んだ計算機上で、2倍程度の高速化を達成した。一つの生体分子の立体構造から数万枚程度の疑似電顕画像を作成するため、この高速化は、計算時間の短縮に効果的である。さらに、ニューラルネットワークによる学習の際に、複数枚のビデオカードを利用できるように改良した。これにより計算機に搭載されているビデオカードが多ければ多いほど、学習時間の短縮が可能となる。大型計算機のGPU搭載ノードは、通常複数のビデオカードを搭載しており、計算資源を無駄にしないためにも、この改良は重要である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の最終目標は、生体分子の電子顕微鏡画像が与えられた際に、それに合致あるいは類似する立体構造を、立体構造データベースに登録された生体分子の中から選び出す計算機手法を開発することである。そのためには、立体構造データベースに登録された多数の生体分子からその電顕画像を作成し、それらの画像をニューラルネットワークに学習させる必要がある。 ―昨年度は、数値計算ソフトMatlab上でテスト計算を行い、ニューラルネットワークにより疑似電顕画像の区別を行うことができることを確認した。しかしながら、本研究では大規模な機械学習を行う必要があるため大型計算機の使用を想定しているが、大型計算機でMatlabを用いて機械学習を実行することは難しい。そこで、昨年度から、大型計算機で動作するプログラム開発を開始し、今年度は、主にその高速化に取り組んだ。まず、代表者が開発した疑似電顕画像作成手法の計算機プログラムを、主に並列計算方法の変更により高速化した。さらに、機械学習の際に、複数のビデオカードを利用できるように計算機プログラムを改良した。このように、大型計算機上で動作するプログラム開発とその高速化は、今年度においてほぼ完了した。そのほか、今年度は、大型計算機上での機械学習を開始した。少数の生体分子の疑似電顕画像を用いた小規模な機械学習を繰り返し行い、構築したニューラルネットワークモデルの問題点を探ったり、ハイパーパラメータ(ニューラルネットワークの層の数など、人があらかじめ指定しなければならない量)の最適化を行ったりした。以上の通り、本研究は、おおむね順調に進展していると考える。
|
Strategy for Future Research Activity |
本研究の最終目標は、生体分子の電子顕微鏡画像が与えられた際に、それに合致あるいは類似する立体構造を持つ生体分子を、立体構造データベースに登録されたものの中から、選び出す計算機手法を開発することである。 本研究では、大量の画像データの作成と、それを用いた大規模な機械学習が必要となるため、計算の高速化と大型計算機のCUI環境で動作するニューラルネットワークのプログラム開発を進めてきた。そして、今年度までで、これらは達成できた。 今後は、生体分子立体構造データベース(PDB)に登録されている構造の中から代表的な構造を選び、次にそれらの疑似電顕画像を作成し、最後に、それらの画像を用いて機械学習を行う。PDBには様々な構造が登録されているが、そのうち電子顕微鏡による解析の対象となるような大きな構造を選択する。また、類似構造も多数登録されているので、その中から代表構造を選択する必要がある。このようにして、最終的には、電顕画像が与えられた際に、それがどの生体分子であるか(あるいはどの生体分子に類似しているか)を答えることができるニューラルネットワークを開発する。
|
Causes of Carryover |
コロナ禍の影響で、学会等のための旅費が全く発生しなかったことや、購入を検討していたPC周辺機器の国内での発売が遅れ購入を見送ったことにより、次年度使用額が生じた。 PC用部品の購入に使用する予定。
|