研究課題/領域番号 |
18500120
|
研究機関 | 東京理科大学 |
研究代表者 |
大和田 勇人 東京理科大学, 理工学部, 教授 (30203954)
|
研究分担者 |
朽津 和幸 東京理科大学, 理工学部, 教授 (50211884)
松井 藤五郎 東京理科大学, 理工学部, 助教 (90366443)
|
キーワード | 機械学習 / バイオインフォマティクス / 機能予測 |
研究概要 |
たんぱく質のフォールド予測を実現するため、本年度は、ILP(帰納論理プログラミング)の実行・評価モジュールを開発・運用することと、背景知識自動生成モジュールの開発を実施した。その結果、ゲノム解析等で得られたデータベースを活用し、そこから学習に必要な背景知識を自動生成することで、フォールド予測までの一連のプロセスを一体化することに成功した。具体的には、ガン治療に有効なBCL2ファミリータンパク質を対象にし、二次構造予測ツールSSproを使って一次構造データベースSwiss-Protから二次構造間の位置関係やアミノ酸の出現パターンを求め、それらをILPの背景知識として自動構成した。一方で、タンパク質の立体構造データベースSCOPからたんぱく質のフォールド名を取り出し、これをILPの正・負事例とすることで帰納学習できるようにした。BCL2タンパク質のフォールドから正事例40、負事例40を取り出して学習したところ、28個のルールが得られ、予測精度は5-fold cross validationで80%となった。また、個々のルールに対しても再現率や精度を求めることに成功し、ルールの妥当性を明らかにした。従来、ILPは学習に必要な背景知識を明示的に与えることができる点で、データベースからの知識発見に対する強力なアプローチとして注目されていたが、タンパク質のフォールド予測という高度な問題に対して背景知識は人手で与える必要があり、ILPをフォールド予測のツールとしてみると、ユーザである生物学者の負担は大きく実際的ではなかった。本年度はこうした問題を解決し、その成果を学会発表した。
|