研究概要 |
本年度は,alphabet indexingと呼ばれる,文字の離散的な分類と,これを実数値への写像に拡張したものの二種の文字分類法に基づいて、実際に生物のデータセットから意味のあるパターンの発見を行なう事を試みた。 対象としたデータは,蛋白質のN末端付近に3種の細胞内局在化シグナルのいずれか(もしくはどれも持たない)事が知られている蛋白質のアミノ酸配列の集合であり,問題は,あるアミノ酸配列が与えられた時に3種のシグナルのうちどれに属するか(もしくはどれにも属さないか)を正しく分類する事のできる規則を発見する事である.既存研究にはニューラルネットワークを用いた高精度な分類システムが存在するが,ニューラルネットワークは分類規則としては複雑であり,人間の専門家が学習の結果として得られたネットワークを見ても生物学的な知見を得る事が難しい.本研究では,1)alphabet indexingを施した配列上の,代入・削除・挿入を許した近似文字列パターン(approximate pattern)からなる分類規則と,2)アミノ酸の様々な生化学的特徴を実数値で表現したAAindexデータベースを知識ベースとしたamino acid indexを元に,蛋白の特徴量を計算し分類する規則,の二つを組み合わせたものを考案した。最適パラメータ(alphabet indexing, amino acid indexおよびパターン)の全探索空間は巨大であるが,高速な計算機を用いる事と,枝刈り探索を主とする文字列パターンマッチングアルゴリズム研究の最新の成果を利用する事で,探索空間をある程度網羅的に探す事ができ,ニューラルネットワークに迫る分類精度を達成する分類規則を得る事ができた.結果として得られた分類規則は専門家によって生物学的な解釈が可能であり,簡単なルールで高い精度を得る事ができると言う点で意義のある発見であった. 発見された知識を元に作成した分類システム,iPSORTをhttp://hypothesiscreator.net/iPSORT/,およびhttp://biocaml.org/ipsort/にて公開している.
|