2004 Fiscal Year Annual Research Report
Project/Area Number |
04J06552
|
Research Institution | Kyushu University |
Principal Investigator |
山田 泰寛 九州大学, 情報基盤センター, 特別研究員(DC2)
|
Keywords | 交代数 / テキスト・マイニング / 部分文字列増幅法 / 頻出パタンマイニング / テンプレート / ラッパー / テストベッド |
Research Abstract |
与えられた文書集合からの頻出パタン(部分文字列)の発見について以下の2つの研究を行った。 1.交代数による頻出パタンの発見 これまでに提案した部分文字列の長さnと頻度a(%)を用いた交代数A(n,a)による頻出パタンの発見について、その現象を理解するため、30サイトから取得した半構造化文書2,022ファイルに対して、長さ1〜30までの部分文字列と頻度の上位1〜100%について網羅的に交代数と頻出パタン特定の精度に関する評価を行った。その結果、頻出パタンの発見のためには、部分文字列の長さは重要ではなく、頻度が重要であることが分かった。これに基づいて、新しく頻度fによる交代数A(f)を定義し、その現象を調べた。頻出パタンを含まない文書に比べ、頻出パタンを含む文書では、ある特定の頻度fにおいて、大きく交代数が変化していることが分かった。 2.総出現数による頻出パタンの発見 総出現数による頻出パタンの発見の応用として、収集したWebページの集合から、テンプレートに着目し、同じテンプレートを持つページにクラスタリングする手法を提案し、実験を行った。 次に、与えられたWeb文書群から必要な箇所を抽出するプログラム(ラッパー)の評価を行なうためのテストベッドを作成した。 3.ラッパーの評価のためのテストベッドの作成 36,050個の検索サイトからランダムに100サイトを選び、その中から検索結果のページを得られるものを51サイト特定した。次に、それぞれのサイトに対して検索結果を5ページ取得し、その検索結果のページからラッパーが抜き出すべき正解を特定し抽出した。その正解を用いたラッパーの評価手法について提案した。
|
Research Products
(7 results)