2005 Fiscal Year Annual Research Report
Project/Area Number |
04J06552
|
Research Institution | Kyushu University |
Principal Investigator |
山田 泰寛 九州大学, 情報基盤センター, 特別研究員(DC2)
|
Keywords | テキスト・マイニング / 交代数 / 部分文字列増幅法 / 共通パタン / テンプレート / PLRラッパー / スパム |
Research Abstract |
1.共通パタン特定アルゴリズムの開発 (1)交代数と部分文字列増幅法を用いた共通パタンの発見 交代数による文書集合からの共通パタンの発見について、頻度fによる交代数A(f+1)とA(f)の差分をとることにより、ある特定の頻度において、その差分が自然な分布から乖離していることが分かった。また、この頻度は部分文字列増幅法において自然な分布から乖離している頻度と一致した。 これより、頻度fによる交代数A(f)を用いた新たな共通パタン発見アルゴリズムを開発し、高い精度が得られることを実験により確認した。 (2)接尾辞配列を用いた高速部分文字列計算アルゴリズムの開発 共通パタン特定アルゴリズムである部分文字列増幅法では、部分文字列の頻度を数えるために、何度も文字列を走査する必要があった。これに対し、接尾辞配列を利用したアルゴリズムに改良することにより、頻度のカウントの高速化を行なった。入力の長さをnとすると、O(n)の速さで動く。また、実験により従来の手法に比べ、高速に部分文字列をカウントすることを確認した。 2.共通パタン特定アルゴリズムの実践 (1)スパムの発見 部分文字列増幅法を用いて、大量のブログからコメントスパムを発見することに成功した。 (2)木構造と文字列を組み合わせたラッパー生成アルゴリズムに関する実験 同種の項目を多数含む半構造化文書から各項目を抽出するために、これまで提案したPLR(Path-Left-Right)ラッパーについて、30サイトのWebページを用いて実験を行ない、交代数による共通パタン発見アルゴリズムを用いたPLRラッパー生成アルゴリズムの有効性を確認した。
|
Research Products
(3 results)