研究課題/領域番号 |
24300059
|
研究種目 |
基盤研究(B)
|
研究機関 | 九州大学 |
研究代表者 |
池田 大輔 九州大学, システム情報科学研究院, 准教授 (00294992)
|
研究分担者 |
山田 泰寛 島根大学, 総合理工学研究科, 助教 (50529609)
中藤 哲也 九州大学, 情報基盤研究開発センター, 助教 (20253502)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | テキストマイニング / 稀少パタン発見 / 例外パタン / 近似文字列照合 |
研究概要 |
本研究では、頻出なパタンを組み合わせた非頻出なパタン発見の研究を行う。非頻出なパタン候補は多いが、頻出なサブパタンを組み合わせたパタンの頻度が相対的に多い(絶対的には少ない)ものを発見することで、意味のある非頻出なパタン=稀少パタンを発見する。 そのために、既に構築した例外文字列発見の枠組みを拡張することが基本的な方針であった。この手法により、検定ベースの従来手法では見つけられなかったパタンが発見できることをは示されていたが、得られたパタンの評価は十分ではなかった。そこで本年度は、代表的な細菌のゲノム配列(大腸菌や枯草菌など)を用いて、得られたパタンの評価を行った。これにより、見つかったパタンが高い確率で生物的なfeature(RNAやトランスポゾン、ファージ等)によく合致することを示した。また、どのfeatureに合致するかはGCコンテンツに依存していることを示唆する結果を得た。この結果は、国際会議で発表した。 このように有効性が確認された一方で、実際にゲノム配列を評価する際に背景集合と多くのパラメータ設定が必要なことが欠点として認識された。そこで、枠組みを再考し、(1)単一文書集合内で頻出な部分パタンを求め、連結してパタンを求める手法、(2)単一文書集合から塊で現れる部分パタンを統合し大きなパタンを「純度が高いパタン(pure pattern)」として発見する枠組みを構築し、細菌のゲノム配列で評価した。前者は、単一集合で頻出なパタンを定めるため、得られたパタンの粒度が低く、featureにほとんど合致しない種があることが分かった(国際会議投稿中)。後者については、(1)よりもさらにシンプルだが、例外文字列より正確にfeatureを捉えていることが分かった(国際会議発表済み)。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
計画では、(1)パタンの意味的な評価と枠組み構築、(2)パタン拡張とアルゴリズム開発、(4)サブパタンの知識ベース構築、(4)実証実験に分けて研究を進め、24年度は主に(1)(2)を行う予定であった。(1)の評価については十分な結果が得られた。一方で、(2)のアルゴリズムのうち、不一致を許容する部分は未着手である。しかし、純度の高いパタンという新しい有望な枠組みを構築でき、こちらのパタン発見アルゴリズムを提案し、この評価を行えたので、おおむね順調と評価できる。 また、自然言晒や情報検索での予備実験や、音楽やマイクロブログのデータ収集も進んでいる。
|
今後の研究の推進方策 |
24年度の結果を受けて例外文字列発見の枠組みを拡張する方向とあわせて、純度が高いパタンも扱う。どちらの場合も、計画していたパタンの表現力向上を主に行う。言い方をかえれば、これまでは見つかった複数のパタンは独立に扱っていたが、近い場合や似ている場合に単一のパタンとして扱うようにする。
|
次年度の研究費の使用計画 |
24年度に計画していた、不一致を許すなどパタンの表現能力を高くするアルゴリズムは未着手であり、これに必要なコン ピュータの購入を行わなかったため、約25万円分の次年度使用額が生じた。上述の通り、計算機実験が重要であり、高性能のコンピュータを導入する。また、データ収集するサーバの準備、既存のデータセットやコーパスの比較検討、収集プログラムの構築等を行うため、ディスクを多く搭載したサーバと収集作業補助のための謝金を計上する。
|