研究課題/領域番号 |
18K06101
|
研究機関 | 国立研究開発法人量子科学技術研究開発機構 |
研究代表者 |
松本 淳 国立研究開発法人量子科学技術研究開発機構, 関西光科学研究所 量子生命科学研究部, 主幹研究員(定常) (10399420)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 電子顕微鏡画像 / ニューラルネットワーク / 立体構造モデリング / 生体超分子 / データベース |
研究実績の概要 |
本研究の目的は、生体分子の電子顕微鏡画像が与えられた際に、それに合致あるいは類似する立体構造を、立体構造データベースに登録された生体分子の中から選び出す計算機手法を開発することである。その際、代表者が開発した“2Dハイブリッド解析法”の要素技術である疑似電顕画像作成手法とニューラルネットワーク(ディープラーニング)を組み合わせて用いる。 初年度である本年度は、取り掛かりとして、ごく少数の生体分子を選び、それらの立体構造をもとに作成した疑似電顕画像を、ニューラルネットワークが区別できるかを確かめる計算機実験を行った。 まず初めに、小さな分子と大きな分子の電顕画像を区別できるかを確かめた。小さな分子としてインテグリン、大きな分子としてリボソームを選んだ。分子を構成する原子数は、20倍ほど違う。学習は短時間で終了し、100%の確率で区別できた。 タンパク質を合成する分子機械であるリボソームについては、様々な状態の3DEMが明らかにされている。3DEMは、多数の電子顕微鏡画像をもとに作成された密度構造情報である。代表者は、リボソームの様々な3DEMをもとに原子分解能の分子モデルを構築した。そして、それらのモデルの中から2つを選択し、それらの疑似電顕画像を区別できるかを確認した。実際には、6種類の異なる分子モデルを用いて、15種類の組み合わせについて計算を行った。その結果、多くの組み合わせでは区別が難しかったが、1つのモデルだけは、高い確率(90%以上)で他と区別できた。リボソームは、活動中に大きな構造変化(ラチェット運動)をすることが知られているが、区別できたモデルだけ、構造変化後の構造だった。この計算結果は、電子顕微鏡画像をもとに、ある程度異なる構造の生体分子は区別できること、逆に、本研究の目的である「類似した構造を選び出す」ことが可能であることも示している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の最終目標は、生体分子の電子顕微鏡画像が与えられた際に、それに合致あるいは類似する立体構造を、立体構造データベースに登録された生体分子の中から選び出す計算機手法を開発することである。そのためには、立体構造データベースに登録された多数の生体分子からその電顕画像を作成し、それらの画像をニューラルネットワークに学習させる必要がある。 電顕画像の作成では、1つの立体構造から2500枚程度の疑似電顕画像の作成を行っている。多数の立体構造を扱うためには、その高速化が必要である。そこで、すでに開発済みの電顕画像作成プログラムを改良し、並列化を行った。これにより、以前と比べて数十分の1の時間で、疑似電顕画像の作成ができるようになった。 ニューラルネットワークとしては、GoogLeNetを用いた。これは、多数の画像データを用いて学習をさせた事前学習済みネットワークである。事前学習済みネットワークを新たな課題に適用することを転移学習と呼び、少ない学習データでもよい結果が得られるとされる。そして、ごく少数の生体分子の電顕画像を学習に用いることで、学習時間が短縮され、問題の洗い出しをすることができた。
|
今後の研究の推進方策 |
今年度の研究で、ある程度類似した立体構造から作成された疑似電顕画像は、ニューラルネットワークで区別できないことが分かった。このため、類似構造を、異なる構造としてニューラルネットワークに学習させることは無意味である。そこで、立体構造データベースに登録された生体分子の構造のうち、類似した構造をもつものでグループ分けをし、その代表構造の疑似電顕画像をニューラルネットワークに学習させる必要がある。このグループ分けのために、立体構造データベースから2つの構造を選択し、それらの疑似電顕画像を区別できるかを確認する計算を、今後くりかえし行う。 また、学習させる画像が多くなれば、それだけ学習時間も長くなるので、明らかに大きさの異なる分子を同じニューラルネットワークに学習させるのは、非効率である。そこで、学習時間の短縮のために、立体構造データベースに登録された生体分子を大きさでグループ分けし、それぞれのグループごとで、ニューラルネットワークに学習させる予定である。 そのほか、今年度は、事前学習済みニューラルネットワークであるGoogLeNetを用いたが、これは、多数の階層を持つ複雑なネットワークであり、そのため学習にも時間がかかる。今後は、より単純なニューラルネットワークの使用を検討する。
|
次年度使用額が生じた理由 |
設備備品(ファイルサーバー)が予定より安かったため。消耗品費(PC用部品)の購入費用として使用する予定。
|