2001 Fiscal Year Annual Research Report
Project/Area Number |
13780271
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Research Institution | The University of Tokyo |
Principal Investigator |
坂内 英夫 東京大学, 医科学研究所, 助手 (20323644)
|
Keywords | alphabet indexing / amino acid index / string matching / 知識発見 / iPSORT / BONSAI |
Research Abstract |
本年度は,alphabet indexingと呼ばれる,文字の離散的な分類と,これを実数値への写像に拡張したものの二種の文字分類法に基づいて、実際に生物のデータセットから意味のあるパターンの発見を行なう事を試みた。 対象としたデータは,蛋白質のN末端付近に3種の細胞内局在化シグナルのいずれか(もしくはどれも持たない)事が知られている蛋白質のアミノ酸配列の集合であり,問題は,あるアミノ酸配列が与えられた時に3種のシグナルのうちどれに属するか(もしくはどれにも属さないか)を正しく分類する事のできる規則を発見する事である.既存研究にはニューラルネットワークを用いた高精度な分類システムが存在するが,ニューラルネットワークは分類規則としては複雑であり,人間の専門家が学習の結果として得られたネットワークを見ても生物学的な知見を得る事が難しい.本研究では,1)alphabet indexingを施した配列上の,代入・削除・挿入を許した近似文字列パターン(approximate pattern)からなる分類規則と,2)アミノ酸の様々な生化学的特徴を実数値で表現したAAindexデータベースを知識ベースとしたamino acid indexを元に,蛋白の特徴量を計算し分類する規則,の二つを組み合わせたものを考案した。最適パラメータ(alphabet indexing, amino acid indexおよびパターン)の全探索空間は巨大であるが,高速な計算機を用いる事と,枝刈り探索を主とする文字列パターンマッチングアルゴリズム研究の最新の成果を利用する事で,探索空間をある程度網羅的に探す事ができ,ニューラルネットワークに迫る分類精度を達成する分類規則を得る事ができた.結果として得られた分類規則は専門家によって生物学的な解釈が可能であり,簡単なルールで高い精度を得る事ができると言う点で意義のある発見であった. 発見された知識を元に作成した分類システム,iPSORTをhttp://hypothesiscreator.net/iPSORT/,およびhttp://biocaml.org/ipsort/にて公開している.
|
-
[Publications] H.Bannai, et al.: "Views : Fundamental Building Blocks in the Process of Knowledge Discovery"Proceedings of the 14th International FLAIRS Conference. 233-238 (2001)
-
[Publications] 坂内英夫, 他: "ゲノムデータからの知識発見支援システム"蛋白質 核酸 酵素. 46・16. 2555-2560 (2001)
-
[Publications] H.Bannai, et al.: "Concepts for Accelerating the Computational Knowledge Discovery Process"Linkoping Electronic Articles in Computer and Information Science. 6. (2001)
-
[Publications] H.Bannai, et al.: "More Speed and More Pattern Variations for Knowledge Discovery System BONSAI"Genome Informatics. 12. 454-455 (2001)
-
[Publications] H.Bannai, et al.: "Extensive feature detection of N-terminal protein sorting signals"Bioinformatics. 18・2. 298-305 (2002)