2005 Fiscal Year Annual Research Report
Project/Area Number |
16300092
|
Research Institution | Kyoto University |
Principal Investigator |
阿久津 達也 京都大学, 化学研究所, 教授 (90261859)
|
Co-Investigator(Kenkyū-buntansha) |
上田 展久 京都大学, 化学研究所, 助手 (80346048)
宮野 悟 東京大学, 医科学研究所, 教授 (50128104)
丸山 修 九州大学, 大学院・数理学研究院, 助教授 (20282519)
|
Keywords | グラフカーネル / 特徴ベクトル / 木構造 / アルゴリズム / 編集距離 / タンパク質細胞内局在部位予測 / サポートベクターマシン / パターンマッチング |
Research Abstract |
本基盤研究では本年度、主に以下の三種類のテーマに関する研究を行った:1.パスの出現頻度に基づく特徴ベクトルからのグラフ構造の推定法、2.木構造の比較アルゴリズム、3.タンパク質配列の細胞内局在部位予測。 1.化合物の分類のために、様々なグラフカーネルが提案されている。それらの多くでは、各グラフ構造は、ラベルつきパスの出現頻度に基づいて特徴ベクトルに写像される。そこで、これらの特徴ベクトルが与えられた時に、もとのグラフ構造を推定する問題について考察した。そして、特徴ベクトルに含まれるパスの長さが定数以下で、かつ、対象となるグラフが次数限定の木である場合に、特徴ベクトルから多項式時間で推定するためのアルゴリズムを開発した。また、この問題が一般にはNP困難となることも示した。 2.順序付き木の構造比較のために、木の編集距離という測度が提案され広く利用されている。しかしながら、現在のところ最速のアルゴリズムでも0(n^3 log n)時間を要する。そこで、最適性を多少損なっても、高速に動作するアルゴリズムを開発した。このアルゴリズムは0(n^2)時間で動作し、木の高さに比例する近似精度以内で編集距離を計算する。 3.タンパク質は種類によって細胞内の各器官に輸送されてその機能を発現するが、タンパク質配列データからどの器官に輸送されるかを推定する問題はタンパク質細胞内局在部位予測と呼ばれ多くの研究が行われている。本研究ではタンパク質配列を3個の領域に分け、それぞれの領域から特徴パターンを抽出し、それを特徴ベクトルとしてサポートベクターマシンに適用して予測を行う手法を開発した。ベンチマークデータを用いた計算機実験の結果、配列データのみから予測を行う手法としては最高レベルの予測精度が得られることがわかった。さらに、この予測手法を用いて予測を行うWEBサーバーを開発し、公開した。
|
Research Products
(6 results)