• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 研究成果報告書

大規模テキストデータ中の部分構造と稀少な複合パタンの階層的な発見

研究課題

  • PDF
研究課題/領域番号 24300059
研究種目

基盤研究(B)

配分区分一部基金
応募区分一般
研究分野 知能情報学
研究機関九州大学

研究代表者

池田 大輔  九州大学, システム情報科学研究科(研究院, 准教授 (00294992)

研究分担者 中藤 哲也  九州大学, 情報基盤研究開発センター, 助教 (20253502)
山田 泰寛  島根大学, 大学院総合理工学研究科, 助教 (50529609)
連携研究者 馬場 謙介  九州大学, 附属図書館, 准教授 (70380681)
研究期間 (年度) 2012-04-01 – 2015-03-31
キーワード例外文字列パタン / 純度の高いパタン / purity measure
研究成果の概要

本研究では、テキストデータ中の頻出な部分構造を組み合わせた非頻出なパタン発見の研究を行う。テキストにはZipf則があり、非頻出なパタン候補は無数にあるが、頻出なパタンを組み合わせたパタンの頻度が相対的に多い(絶対的には少ない)ものを発見することで、意味のある非頻出なパタン=稀少パタンを発見する。
このため、既に構築した例外文字列発見の枠組みを拡張と、新たに提案した「純度が高いパタン(pure pattern)」の枠組みで研究を行った。両者とも、細菌のゲノム配列におけるパタン発見での有効性を確認し、さらに、位置情報を持つブログデータやコンテキストの表現、学術論文への関連語発見等への適用も行った。

自由記述の分野

テキストマイニング

URL: 

公開日: 2016-06-03  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi