2007 Fiscal Year Annual Research Report
言語のスケールフリー性に着目した大規模テキストからの特徴的なパターン発見
Project/Area Number |
19700150
|
Research Institution | Kyushu University |
Principal Investigator |
池田 大輔 Kyushu University, システム情報科学研究院, 准教授 (00294992)
|
Keywords | テキストマイニング / 例外文字列発見 / 接尾辞木 |
Research Abstract |
平成19年度は主にパターンの特徴づけに注力しつつ、20年度で用いる計算機実験のための環境を整えた。 ●パターンの特徴づけ: 確率分布を用いて、背景分布からの距離による特徴的なパターンの定式化を計画した。そのために、特徴的なパターンの発見と同時に背景部分の自動的な推定を行う「例外文字列発見問題」の定式化と効率のよいアルゴリズムを提案した。この枠組みでは2つの文書集合に対し、片方に頻出する2つの部分文字列パターンを見つけ、これを連接してできた新たな部分文字列パターンがもう一方に頻出する時にこれを「例外的」なパターンとして抽出する。 ●アルゴリズムの構築と実装: 上述の例外文字列パターンの発見アルゴリズムとして、文字列に対するデータ構造である接尾辞木を用いたアルゴリズムを構築し、実装した。また、後述するデータ等を用いて実験を行い提案アルゴリズムの有効性を確認した(物品費使用)。 ●実験環境の構築: 計画の通り、ランダムなデータなどの人工的なデータを生成するプログラムを作成した(謝金使用)。また、現実のWeb上のデータを用いた検証も20年度に計画しており、そのためのプログデータ等の収集を行った(謝金使用)。 ●より複雑なパターンの検討: 例外文字列パターンは頻出な文字列の連接で定義されるが、より複雑なパターンへの拡張を視野にいれ、部分列への拡張を検討した。具体的には頻出な文字列間にギャップを挿入したものを検討し、計算量の検討を行った。その結果、提案したアルゴリズムをほぼ同等の計算時間でギャップを導入したより複雑なパターンの発見が可能になるとの見通しを得た。 これらの成果は現在国際会議に投稿中である。
|