研究課題/領域番号 |
14J09151
|
研究機関 | 東京大学 |
研究代表者 |
小野寺 拓 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2014-04-25 – 2016-03-31
|
キーワード | 文字列カーネル / 接尾辞木 / タンパク質立体構造 / contact map |
研究実績の概要 |
近年ウェブページやゲノム配列などの大量の文字列データが安価に得られるようになったことで、これらから有用な情報を抽出するための手法の重要性が増している。本研究の目的は大規模文字列解析を効率的に行うためのアルゴリズムとデータ構造の開発である。そのためのアプローチとして、研究代表者がそれまでに行ってきた研究を発展させて、文字列カーネルに基づく高速文字列分類手法を研究する. 具体的な問題として当初は自然言語の文の意味に基づくクラスタリングを高速化することを予定していた。しかし、既存手法を吟味したところさらなる高速化は困難であることが分かった。一方、この既存手法のアイディアを使ってタンパク質の立体構造の分類に文字列カーネルを応用できる可能性があることに気づき、ターゲットをこちらに変えた。タンパク質立体構造の分類はタンパク質の機能予測、データベースの管理などに応用がある重要な問題であるが、既存手法は立体構造のアラインメントに基づくため大量の計算時間が必要であった。 我々はタンパク質のアミノ酸残基同士の隣接関係を表すグラフに基づくカーネルおよびその効率的な計算法を開発した。このカーネルは既存手法と異なりアミノ酸残基同士の対応付けという組み合わせ最適化問題や、RMSDなどの代数的な照合を含まず、文字列に対するカーネルのテクニックを応用できる。また、カーネルを効率的に求めるために、接尾辞木というデータ構造の新しい一般化を考案した。このデータ構造は既知の一見無関係に見える二つのデータ構造の中間的なデータ構造として解釈することができ、本研究に限らず文字列アルゴリズム一般の文脈でも興味深いものである。このデータ構造を用いて新しく提案したカーネルをひじょうに効率的に求めるアルゴリズムを開発した。 現在、提案手法の分類精度を評価するための計算機実験を行っている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究実績の概要で述べたように、本研究では、途中で一度ターゲットとする問題を変更した。 この軌道修正は研究目的の変更を必要とするほど大きなものではなく、また、当初の問題に対する考察が変更後の問題に対する重要なアイディアにつながったので無駄ではなかったものの、当初の予定にはないことであったため、その分計画の進捗が遅れることになった。
|
今後の研究の推進方策 |
既に理論面の考察は終わっているので、今後は計算機実験により提案手法の有効性を評価し、結果を論文にまとめる。 実験では既存手法との比較の他に、提案手法について考えられる様々なバリエーションのうち主要なものについて、性能に与える影響を見る。
|