2019 Fiscal Year Research-status Report
Development of 3D model construction method using structure database and electron microscope images
Project/Area Number |
18K06101
|
Research Institution | National Institutes for Quantum and Radiological Science and Technology |
Principal Investigator |
松本 淳 国立研究開発法人量子科学技術研究開発機構, 量子生命科学領域, 主幹研究員(定常) (10399420)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | プログラム開発 / ニューラルネットワーク / 電子顕微鏡 / 生体分子 / 立体構造 |
Outline of Annual Research Achievements |
本研究の目的は、生体分子の電子顕微鏡画像が与えられた際に、それに合致あるいは類似する立体構造を、立体構造データベースに登録された生体分子の中から選び出す計算機手法を開発することである。その際、代表者が開発した疑似電顕画像作成手法とニューラルネットワークを組み合わせて用いる。 昨年度は、数値計算ソフトウェアMatlabを用いてニューラルネットワークのテスト計算を行った。しかしながら、今後研究を進めるには、大型計算機等で大規模な計算を行う必要があり、そのためには、ライセンス制限のあるMatlabを用いるのではなく、CUI(Character User Interface)上で動作する独自プログラムの開発を行う必要がある。 昨年度実施したテスト計算では、いくつかの生体分子の立体構造をもとにして作成した疑似電顕画像を、ニューラルネットワークが区別できるかどうかを確かめた。そして、同じ生体分子(リボソーム)であっても、構造変化によって立体構造が異なれば、それらの疑似電顕画像を高い確率で区別できることが分かった。 今年度の目標は、これと同程度の確率で区別できるニューラルネットワークを、プログラム言語pythonを用いて開発することとした。その際、ニューラルネットワークライブラリとして、オープンソースのKerasを用いた。ごく小規模なニューラルネットワークから始め、徐々にネットワークの規模を大きくしていったが、最終的には、事前学習済みのネットワークを用いることにより(転移学習)、疑似電顕画像を高い確率で区別できるニューラルネットワークを開発することができた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の最終目標は、生体分子の電子顕微鏡画像が与えられた際に、それに合致あるいは類似する立体構造を、立体構造データベースに登録された生体分子の中から選び出す計算機手法を開発することである。そのためには、立体構造データベースに登録された多数の生体分子からその電顕画像を作成し、それらの画像をニューラルネットワークに学習させる必要がある。 昨年度は、windows PCにインストールされた数値計算ソフトウェアMatlab上で、事前学習済みニューラルネットワークであるGoogleNetを用いてテスト計算を行い、かなり高い確率(90%程度)で疑似電顕画像の区別を行うことができた。しかしながら、GoogleNetは、非常に複雑なネットワークであり、学習にも時間がかかる。また、大型計算機等でMatlabを用いることは、ライセンス制限があり難しい。そこで、今年度は、大型計算機等のCUI環境でも稼働するニューラルネットワークの開発を、プログラム言語pythonを用いて行った。そして、小規模でありながら、高い正解率のニューラルネットワークの開発を目指した。 初めは、畳み込み層とプーリング層が複数回繰り返される畳み込みニューラルネットワーク(CNN)に全結合層を組み合わせたモデルを構築して機械学習を行った。そして、層の数などのハイパーパラメータを変えながら、より高い確率で疑似電顕画像の区別ができるモデルの探索を行ったが、過学習を避けながら正解率を高くするのは難しく、75パーセント程度の正解率しか得られなかった。 最終的には、事前学習済みのニューラルネットワーク(VGG16)の畳み込みベース部分に、全結合層を組み合わせたモデルを構築し、VGG16の出力層に近い畳み込み層以外のパラメータを固定して機械学習を行った場合に、高い正解率(90%程度)を得ることができた。
|
Strategy for Future Research Activity |
本研究の最終目標は、生体分子の電子顕微鏡画像が与えられた際に、それに合致あるいは類似する立体構造を持つ生体分子を、立体構造データベースに登録されたものの中から、選び出す計算機手法を開発することである。 昨年度実施した研究によって、ある程度類似した立体構造を持つ生体分子から作成された疑似電顕画像は、ニューラルネットワークで区別できないことが分かった。そこで、立体構造データベースに登録された生体分子のうち、互いに区別できないものを同じグループに振り分けることで、データベースに登録された生体分子のグループ分けをしようとした。そのためには、数多くの機械学習計算を行う必要があるが、数値計算ソフトウェアMatlabを使ってそれを行うのは難しかったので、今年度は、独自プログラムの開発を行った。 来年度以降は、今年度開発したプログラムを大型計算機等において使用し、立体構造データベースから2つの構造を選択し、それらの疑似電顕画像を区別できるかを確認する機械学習計算を繰り返し行うことにより、データベースに登録された生体分子のグループ分けを行う。その際、昨年度の研究から分かった通り、大きさがかなり異なる生体分子の疑似電顕画像の区別は容易なので、機械学習は大きさの類似した生体分子に対して行う。そして、グループごとに代表構造を決定し、代表構造の疑似電顕画像を用いて機械学習を行い、最終的には、電顕画像が与えられた際に、それがどの生体分子であるか(あるいはどの生体分子に類似しているか)を答えることができるニューラルネットワークを開発する。
|
Causes of Carryover |
本年度は申請時の想定よりも多くの支出があったが、昨年度から繰り越した前年度未使用額が多かったため、結果として次年度使用額が生じた。 PC用部品やソフトウェアのライセンス費用として使用する予定。
|