2002 年度実績報告書

グラフ構造解析を用いたハイパーテキストの順位づけ,クラスタリング,特徴語抽出

研究課題

研究課題/領域番号	13780244
研究機関	九州大学
研究代表者	池田大輔九州大学, 情報基盤センター, 講師 (00294992)
キーワード	Webグラフ / 特徴語抽出 / 特異値解析 / クラスタリング
研究概要	本研究の目的は、リンク構造を持つ大量のWebページの順位づけとクラスダリング手法を構築、これを利用した検索エンジンの構築である。今年度の実績は以下のとおりである。 1 テキスト部分の抽出 Webページはコンテンツ以外にもマークアップのための情報や構造化のための情報を含む。前年度に、このようなファイルからコンテンツ部分のみを抜きだすアルゴリズムを開発実装した。本年度はさらに、これを拡張しWebページだけでなく、構造を持つ任意のテキストに適用可能なように拡張した。この結果は11月にドイツ・リューベックで行われた国際会議で発表した。ここまでの抽出アルゴリズムは、構造化の情報を利用していなかったが、これを利用するようにした場合の抽出精度について調べ、従来のものより高精度あることを示した。この結果は、現在国際ワークショップに投稿中である。 2 Webグラフの定義拡張 Webグラフとは、Webページとリンク情報の構造を表わすものである。これをキーワードやパタンも表現可能なようにいくつかの定義の拡張を行なった。さらに、前年度に収集していた上述したデータベースの実データを用いた実証実験を行った。この過程において、類似の見栄えを持つ文字列の特徴付けるアルゴリズムを開発し、グラフの作成をより高精度に行えることを確認した。この結果は、現在国際会議に投稿中である。

研究成果
(3件)

すべてその他

すべて文献書誌 (3件)

[文献書誌] Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proceedings of the 5th International conference on Discovery Science(Lecture Notes in Computer Science). 2534. 332-339 (2002)
[文献書誌] S.Hirokawa, D.Ikeda: "Visualization and Analysis of Web Graphs"Progress in Discovery Science(Lecture Notes in Computer Science). 2581. 616-627 (2002)
[文献書誌] 池田大輔, 山田泰寛, 廣川左千男: "Web上の多言語テキストデータからのラッパー自動生成"九州大学情報基盤センター年報. 3(予定). (2003)

2002 年度 実績報告書

グラフ構造解析を用いたハイパーテキストの順位づけ,クラスタリング,特徴語抽出

研究代表者

池田 大輔 九州大学, 情報基盤センター, 講師 (00294992)

研究成果

[文献書誌] Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proceedings of the 5th International conference on Discovery Science(Lecture Notes in Computer Science). 2534. 332-339 (2002)

[文献書誌] S.Hirokawa, D.Ikeda: "Visualization and Analysis of Web Graphs"Progress in Discovery Science(Lecture Notes in Computer Science). 2581. 616-627 (2002)

[文献書誌] 池田大輔, 山田泰寛, 廣川左千男: "Web上の多言語テキストデータからのラッパー自動生成"九州大学情報基盤センター年報. 3(予定). (2003)

2002 年度実績報告書

池田大輔九州大学, 情報基盤センター, 講師 (00294992)