研究課題/領域番号 |
18K06101
|
研究機関 | 国立研究開発法人量子科学技術研究開発機構 |
研究代表者 |
松本 淳 国立研究開発法人量子科学技術研究開発機構, 量子生命科学研究所, 主幹研究員 (10399420)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | プログラム開発 / ニューラルネットワーク / 電子顕微鏡 / 生体分子 / 立体構造 |
研究実績の概要 |
昨年度までに、ニューラルネットワークのプログラム開発と、生体分子の立体構造情報を用いて疑似電子顕微鏡(電顕)画像を作成する計算手法の高速化を行った。 今年度は、まず、PDB(Protein Data Bank:タンパク質分子や核酸分子などの生体分子の構造情報に関するデータベース)に登録されている生体分子の疑似電顕画像を、代表者が開発した計算手法により作成した。現在、PDBには、20万個弱の生体分子の構造が登録されているが、そのうち、実際に電子顕微鏡で観測されるような、ある程度大きな構造(約2万個)に研究対象を絞った。そして、各生体分子の構造情報をもとに、電子線の照射方向(投影方向)や負染色剤の厚み、それにピクセルサイズ(画像の1画素の幅が、何オングストロームに対応するか)の異なる数千枚の疑似電顕画像を作成した(合計約1億枚)。これにより、機械学習で用いるラベル付き学習データ(およびテストデータ)の作成は完了した。ここでのラベルは、生体分子の各構造に付与されたPDBのIDである。 ただし、PDBには形状が類似した構造が多く登録されていて、それらの電顕画像を区別することは難しいので、機械学習において正答率(accuracy)が上がらないことにつながる。そのため、PDBに登録された構造を、形状の類似度でグループ分けし、同じグループ内の構造から作成された疑似電顕画像に対しては同じラベルを与えることにした。このグループ分けの作業のために、各構造の質量・慣性モーメントなどの物理量を計算するとともに、2つの構造を重ね合わせることで構造の類似度を計算する手法の開発・適用を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究の最終目標は、生体分子の電子顕微鏡画像が与えられた際に、それに合致あるいは類似する立体構造を、立体構造データベースに登録された生体分子の中から選び出す計算機手法を開発することである。そのためには、立体構造データベースに登録された多数の生体分子からその電顕画像を作成し、それらの画像をニューラルネットワークに学習させる必要がある。 ニューラルネットワークの構築に関しては、大型計算機上で動作するようにプログラム開発を行うとともに、複数のビデオカード(GPU:Graphics Processing Unit)を使用して高速に動作させるための改良を昨年度までに行った。 ニューラルネットワークに学習させる電顕画像に関しては、昨年度、生体分子の立体構造情報を用いて疑似電顕画像作成する独自開発の計算機手法の高速化を行い、今年度は、それを用いてPDB(生体分子の立体構造データベース)に登録された多数の構造から、約1億枚の疑似電顕画像を作成した。これにより、ニューラルネットワークに学習させるデータセットは完成した。ただし、PDBには、多数の類似構造が登録されており、これらの構造から作成した電顕画像も類似していて、ニューラルネットワークで違いを検知することは困難である。そこで、これらの疑似電顕画像には、同一のラベルを与えることにした。そのためには類似構造のグループ分けが必要であり、その作業も今年度行った。 以上の通り、本研究はおおむね順調に進展しており、最終段階に至っている。
|
今後の研究の推進方策 |
本研究の最終目標は、生体分子の電子顕微鏡画像が与えられた際に、それに合致あるいは類似する立体構造を持つ生体分子を、立体構造データベースに登録されたものの中から、選び出す計算機手法を開発することである。 ニューラルネットワークの構築と、学習データ(生体分子の疑似電顕画像)の作成は今年度までに完了した。今後は、機械学習を行い、電顕画像が与えられた際に、それがどの生体分子であるか(あるいはどの生体分子に類似しているか)を高い精度で答えることができるニューラルネットワークを開発する。また、学会等で本研究に関して発表を行う。
|
次年度使用額が生じた理由 |
コロナ禍の影響で、学会等のための旅費が全く発生しなかったことや、初年度に購入したファイルサーバーの修理費を計上していたが、故障が起こらなかったため、次年度使用額が生じた。HDD(ハードディスクドライブ)等の消耗品の購入に使用する。
|