Research Abstract |
研究最終年度の本年は,これまでに開発したマイニングシステムを使用して,創薬研究の立場から見て実際に意味のある知識の抽出,およびリスクレポートの作成について研究を完成させた.また,タンパク質3次元モチーフ辞書の構築と公開を行うとともに,今後の名義変数に対する主成分分析法の開発を行った.以下に,本年度遂行した研究の内容を項目に分けて示す. 1.化合物構造からの線形フラグメントの生成システム,および相関による属性群の選択システムで,良いパラメータ値を広範に探索し,さらに化学者による解釈を容易とするためには若干の冗長な属性を追加する必要のあることを確認した.これらを用いて,ドーパミン受容体(D1-D4,Dauto)に対して活性を有する化合物群を対象に,カスケードモデルによる解析を行い,その出力ルールを化学者の協力を得て解析した.その結果,これら活性の大部分を説明することのできる,各活性に複数の合理的な部分構造仮説を示すことができた. 2.化合物群の構造から生成したトポロジカルフラグメントスペクトルとサポートベクトルマシンによる分類予測法を,ドーパミン関連のすべての活性に対して適用し,交差検定による予測値が最低の活性クラスでも80%以上と高い性能を持つことを確認した.さらに10倍のノイズ化合物を加えた場合でも,最低の活性クラスの予測値が70%と高い値であることを確認した.この方法で誤分類される化合物を詳細に検討した所,これがデータベースの誤りに起因する可能性が高いことが判明し,リスクレポートとしての能力を持つことを確認した. 3.タンパク質3次元モチーフ辞書を完成させるとともに,さらに利用者インターフェースも整備して,その成果をWWW上で広く一般に公開した. 4.名義変数を対象とする共分散を定義し,さらにKL・plotを可能とする主成分分析の理論を完成させるとともに,MATLABを用いたシステムを作成した.
|