研究課題/領域番号 |
24300059
|
研究種目 |
基盤研究(B)
|
配分区分 | 一部基金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 九州大学 |
研究代表者 |
池田 大輔 九州大学, システム情報科学研究科(研究院, 准教授 (00294992)
|
研究分担者 |
中藤 哲也 九州大学, 情報基盤研究開発センター, 助教 (20253502)
山田 泰寛 島根大学, 大学院総合理工学研究科, 助教 (50529609)
|
連携研究者 |
馬場 謙介 九州大学, 附属図書館, 准教授 (70380681)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 例外文字列パタン / 純度の高いパタン / purity measure |
研究成果の概要 |
本研究では、テキストデータ中の頻出な部分構造を組み合わせた非頻出なパタン発見の研究を行う。テキストにはZipf則があり、非頻出なパタン候補は無数にあるが、頻出なパタンを組み合わせたパタンの頻度が相対的に多い(絶対的には少ない)ものを発見することで、意味のある非頻出なパタン=稀少パタンを発見する。 このため、既に構築した例外文字列発見の枠組みを拡張と、新たに提案した「純度が高いパタン(pure pattern)」の枠組みで研究を行った。両者とも、細菌のゲノム配列におけるパタン発見での有効性を確認し、さらに、位置情報を持つブログデータやコンテキストの表現、学術論文への関連語発見等への適用も行った。
|
自由記述の分野 |
テキストマイニング
|