昨年度までに、数値計算ソフトウェアMatlabを用いてのニューラルネットワークのテスト計算、CUI(Character User Interface)上で動くニューラルネットワークのプログラム開発、そして、生体分子の立体構造情報を用いて疑似電子顕微鏡(電顕)画像を作成する計算手法の高速化を行った。さらに、PDB(Protein Data Bank:タンパク質分子や核酸分子などの生体分子の3次元立体構造情報に関するデータベース)に登録されている約20万個の生体分子のうち、電子顕微鏡で観測されるような大きな構造(約2万個)の疑似電顕画像を、合計約1億枚作成した。また、PDBには形状が類似した構造が多く登録されていて、それらの電顕画像を区別することは難しいので、PDB構造を形状の類似度でグループ分けし、同じグループ内の構造から作成された疑似電顕画像に対しては同じラベルを与えた。 今年度は、これまで作成した多くの電顕画像を用いて機械学習を行った。ただし、大きさが明らかに違う立体構造の電顕画像を区別することは容易なので、一度にすべての電顕画像を用いて学習を行うのではなく、同じくらいの大きさのPDB構造の電顕画像に対して、別々に機械学習を行った。その際、VGG16やInceptionV3など様々な事前学習済みネットワークを転移学習に用いたり、ニューラルネットワークのハイパーパラメータを様々に変更したりして、正解率(最も確からしいと判断した構造が正解の確率)ができるだけ高くなる組み合わせを探した。最終的には、最もサイズの大きな構造群(100グループ)の画像を用いて得られたネットワークモデルで、約7割の正解率を得られた。確からしさが3番目までの構造を含めると、正解率は約9割だった。本成果は、日本生物物理学会年会で発表した。
|