グラフ構造解析を用いたハイパーテキストの順位づけ,クラスタリング,特徴語抽出
Project/Area Number |
13780244
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
計算機科学
|
Research Institution | Kyushu University |
Principal Investigator |
池田 大輔 九州大学, 情報基盤センター, 講師 (00294992)
|
Project Period (FY) |
2001 – 2002
|
Project Status |
Completed (Fiscal Year 2002)
|
Budget Amount *help |
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2002: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2001: ¥1,400,000 (Direct Cost: ¥1,400,000)
|
Keywords | Webグラフ / 特徴語抽出 / 特異値解析 / クラスタリング |
Research Abstract |
本研究の目的は、リンク構造を持つ大量のWebページの順位づけとクラスダリング手法を構築、これを利用した検索エンジンの構築である。 今年度の実績は以下のとおりである。 1 テキスト部分の抽出 Webページはコンテンツ以外にもマークアップのための情報や構造化のための情報を含む。前年度に、このようなファイルからコンテンツ部分のみを抜きだすアルゴリズムを開発実装した。本年度はさらに、これを拡張しWebページだけでなく、構造を持つ任意のテキストに適用可能なように拡張した。この結果は11月にドイツ・リューベックで行われた国際会議で発表した。 ここまでの抽出アルゴリズムは、構造化の情報を利用していなかったが、これを利用するようにした場合の抽出精度について調べ、従来のものより高精度あることを示した。この結果は、現在国際ワークショップに投稿中である。 2 Webグラフの定義拡張 Webグラフとは、Webページとリンク情報の構造を表わすものである。これをキーワードやパタンも表現可能なようにいくつかの定義の拡張を行なった。 さらに、前年度に収集していた上述したデータベースの実データを用いた実証実験を行った。この過程において、類似の見栄えを持つ文字列の特徴付けるアルゴリズムを開発し、グラフの作成をより高精度に行えることを確認した。この結果は、現在国際会議に投稿中である。
|
Report
(2 results)
Research Products
(6 results)