2013 Fiscal Year Annual Research Report
大規模テキストデータ中の部分構造と稀少な複合パタンの階層的な発見
Project/Area Number |
24300059
|
Research Institution | Kyushu University |
Principal Investigator |
池田 大輔 九州大学, システム情報科学研究科(研究院, 准教授 (00294992)
|
Co-Investigator(Kenkyū-buntansha) |
山田 泰寛 島根大学, 総合理工学研究科(研究院), 助教 (50529609)
中藤 哲也 九州大学, 学内共同利用施設等, 助教 (20253502)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | テキストマイニング / 希少パタン発見 / 例外パタン / 近似文字列照合 |
Research Abstract |
本研究では、頻出なパタンを組み合わせた非頻出なパタン発見の研究を行う。非頻出なパタン候補は多いが、頻出なサブパタンを組み合わせたパタンの頻度が相対的に多い(絶対的には少ない)ものを発見することで、意味のある非頻出なパタン=稀少パタンを発見する。 そのために、既に構築した例外文字列発見の枠組みを拡張することが基本的な方針であった。これまで、この手法によりは、検定ベースの従来手法では見つけられなかったパタンが発見できること、代表的な細菌のゲノム配列(大腸菌や枯草菌など)を用いて特定のfeature (RNAやトランスポゾン、ファージ等)によく合致することを示した。一方で、実際に利用する際に背景集合と多くのパラメータ設定が必要なことが欠点として認識された。 本年度は、(1)単一文書集合内で頻出な部分パタンを求め、連結してパタンを求める手法、(2)単一文書集合から塊で現れる部分パタンを統合し大きなパタンを「純度が高いパタン(pure pattern)」として発見する枠組みを構築し、評価を行った。前者は、単一集合で頻出なパタンを定めるため、得られたパタンの粒度が低く、featureにほとんど合致しない種があることが分かり、汎用的な枠組みとしては使えないことが分かった。一方で、後者については、(1)よりもさらにシンプルだが、例外文字列より正確にfeatureを捉えていることが分かり、さらに、これが水平伝播と関係する遺伝子によく合致することが分かった。水平伝播は、親から子へと伝播する垂直伝播に対し、よりダイナミックな進化に関連していると考えられており、非常に重要な発見である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
計画では、(1)パタンの意味的な評価と枠組み構築、(2)パタン拡張とアルゴリズム開発、(3)サブパタンの知識ベース構築、(4)実証実験に分けて研究を進め、24年度は主に(1)(2)を行う予定であった。(1)の評価については十分な結果が得られたが、例外文字列の欠点が認識されたため、(2), (3)についてはほとんど進捗がない。しかし、その代りに新しく、純度の高いパタンという新しい有望な枠組みを構築でき、水平伝播に関係する部分配列の特定という重要な発見を行うことができた。(4)については、音楽や自然言語、位置情報を持つテキストデータに対するデータ収集や予備実験を行っている。
|
Strategy for Future Research Activity |
25年度までの結果を受けて例外文字列発見の枠組みを拡張する方向とあわせて、純度が高いパタンも扱う。例外文字列発見に関しては、複数の階層にまたがるパタン発見を、主にゲノム配列を対象に行う。純度が高いパタンについては、より広範に使えるテキストマイニングの枠組みとして捉えなおしつつ、他のデータへの適用を行いながら、その有効性を示す。
|
Research Products
(8 results)