2001 Fiscal Year Annual Research Report
グラフ構造解析を用いたハイパーテキストの順位づけ,クラスタリング,特徴語抽出
Project/Area Number |
13780244
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Research Institution | Kyushu University |
Principal Investigator |
池田 大輔 九州大学, 情報基盤センター, 講師 (00294992)
|
Keywords | Webグラフ / 特徴語抽出 / 特異値解析 / クラスタリング |
Research Abstract |
本研究の目的は、リンク構造を持つ大量のWebページの順位づけとクラスタリング手法を構築し、これを利用した検索エンジンの構築である。今年度の実績は以下のとおりである。 1 データベース構築およびデータ収集 本研究が対象とするデータはWwebページとそのリンク情報であり、収集したWebページとリンク情報へのアクセスを提供するデータベースを開発した。これにより、以下に述べる計算機実験が可能となった。 2 必要部分の抽出 Webページはコンテンツ以外にもマークアップのための情報や構造化のための情報を含む。このようなファイルからコンテンツ部分のみを抜きだすアルゴリズムを開発し実装した。アルゴリズムは、コンテンツが書かれた自然言語にも、マークアップ言語にも依存しない。また、多数のWebページを対象に計算機実験を行ない、その有効性を確認した。この結果は11月にワシントンで行われた国際会議で発表した。 3 Webグラフの定義拡張 Webグラフとは、Webページとリンク情報の構造を表わすものである。これをキーワードやパタンも表現可能なようにいくつかの定義の拡張を行なった。上述したデータベースの実データを用いた実証実験が不可欠であるが、実験はこれからの課題である。
|
Research Products
(3 results)
-
[Publications] Daisuke Ikeda, Sachio Hirokawa: "Visualization and Analysis of Web Graphs"Progresses in Discovery Science, Lecture Notes in Computer Science(to appera).
-
[Publications] Daisuke Ikeda, Yasuhiro Yamada, Sachio Hirokawa: "Eliminating Useless Parts in Semi-structured Documents using Alternation Counts"Proceedings of the 4th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence. 2226. 113-127 (2001)
-
[Publications] Yasuhiro Yamada, Daisuke Ikeda, Sachio Hirokawa: "SCOOP : A Record Extractor without Knowledge on Input"Proceedings of the 4th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence. 2226. 482-487 (2002)