2002 Fiscal Year Annual Research Report
グラフ構造解析を用いたハイパーテキストの順位づけ,クラスタリング,特徴語抽出
Project/Area Number |
13780244
|
Research Institution | Kyushu University |
Principal Investigator |
池田 大輔 九州大学, 情報基盤センター, 講師 (00294992)
|
Keywords | Webグラフ / 特徴語抽出 / 特異値解析 / クラスタリング |
Research Abstract |
本研究の目的は、リンク構造を持つ大量のWebページの順位づけとクラスダリング手法を構築、これを利用した検索エンジンの構築である。 今年度の実績は以下のとおりである。 1 テキスト部分の抽出 Webページはコンテンツ以外にもマークアップのための情報や構造化のための情報を含む。前年度に、このようなファイルからコンテンツ部分のみを抜きだすアルゴリズムを開発実装した。本年度はさらに、これを拡張しWebページだけでなく、構造を持つ任意のテキストに適用可能なように拡張した。この結果は11月にドイツ・リューベックで行われた国際会議で発表した。 ここまでの抽出アルゴリズムは、構造化の情報を利用していなかったが、これを利用するようにした場合の抽出精度について調べ、従来のものより高精度あることを示した。この結果は、現在国際ワークショップに投稿中である。 2 Webグラフの定義拡張 Webグラフとは、Webページとリンク情報の構造を表わすものである。これをキーワードやパタンも表現可能なようにいくつかの定義の拡張を行なった。 さらに、前年度に収集していた上述したデータベースの実データを用いた実証実験を行った。この過程において、類似の見栄えを持つ文字列の特徴付けるアルゴリズムを開発し、グラフの作成をより高精度に行えることを確認した。この結果は、現在国際会議に投稿中である。
|
Research Products
(3 results)
-
[Publications] Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proceedings of the 5th International conference on Discovery Science(Lecture Notes in Computer Science). 2534. 332-339 (2002)
-
[Publications] S.Hirokawa, D.Ikeda: "Visualization and Analysis of Web Graphs"Progress in Discovery Science(Lecture Notes in Computer Science). 2581. 616-627 (2002)
-
[Publications] 池田大輔, 山田泰寛, 廣川左千男: "Web上の多言語テキストデータからのラッパー自動生成"九州大学情報基盤センター年報. 3(予定). (2003)