研究課題/領域番号 |
24300059
|
研究機関 | 九州大学 |
研究代表者 |
池田 大輔 九州大学, システム情報科学研究科(研究院, 准教授 (00294992)
|
研究分担者 |
中藤 哲也 九州大学, 学内共同利用施設等, 助教 (20253502)
山田 泰寛 島根大学, 総合理工学研究科(研究院), 助教 (50529609)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | テキストマイニング / 稀少パタン発見 / 例外パタン / 近似文字列照合 / purity |
研究実績の概要 |
本研究では、頻出なパタンを組み合わせた非頻出なパタン発見の研究を行う。非頻出なパタン候補は多いが、頻出なサブパタンを組み合わせたパタンの頻度が相対的に多い(絶対的には少ない)ものを発見することで、意味のある非頻出なパタン=稀少パタンを発見する。 そのために、既に構築した例外文字列発見の枠組みを拡張することが基本的な方針であり、前年度までに生物情報学の国際会議及び論文誌で成果を発表した。これに加えて、昨年度から、テキストに塊として現われる部分パタンを含む大きなパタンを「純度が高いパタン(pure pattern)」として発見する枠組みを構築し、細菌のゲノム配列で有効性を確認していた。今年度は、ドメイン固有の知識として、pure patternの発生に関する簡単な仮定を置き、このようなパタンの頻度分布を予測した。具体的には、大きなパタンが部分パタンを含むかどうかの二項分布と考え、ある長さm以上であれば常に含まれるというパラメータを用意する。これにより、長さが与えられると、ある部分文字列の純度が測れる。15種の細菌のゲノムデータを用い、予測の分布と実際の頻度分布と比較することで、予測の有効性を示した(国際会議発表)。 また、他の分野のドメイン固有の知識として、位置情報付きのマイクロブログからの意味のあるクラスタの発見を行った。位置情報のみからなるクラスタリングに加え、固有の知識としてマイクロブログのテキストを用い、これにより、粒度の細かい階層的なクラスタが得られることを示した(国際会議発表)。
|
現在までの達成度 (段落) |
26年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
26年度が最終年度であるため、記入しない。
|
次年度使用額が生じた理由 |
26年度が最終年度であるため、記入しない。
|
次年度使用額の使用計画 |
26年度が最終年度であるため、記入しない。
|