• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2001 年度 実績報告書

グラフ構造解析を用いたハイパーテキストの順位づけ,クラスタリング,特徴語抽出

研究課題

研究課題/領域番号 13780244
研究種目

奨励研究(A)

研究機関九州大学

研究代表者

池田 大輔  九州大学, 情報基盤センター, 講師 (00294992)

キーワードWebグラフ / 特徴語抽出 / 特異値解析 / クラスタリング
研究概要

本研究の目的は、リンク構造を持つ大量のWebページの順位づけとクラスタリング手法を構築し、これを利用した検索エンジンの構築である。今年度の実績は以下のとおりである。
1 データベース構築およびデータ収集
本研究が対象とするデータはWwebページとそのリンク情報であり、収集したWebページとリンク情報へのアクセスを提供するデータベースを開発した。これにより、以下に述べる計算機実験が可能となった。
2 必要部分の抽出
Webページはコンテンツ以外にもマークアップのための情報や構造化のための情報を含む。このようなファイルからコンテンツ部分のみを抜きだすアルゴリズムを開発し実装した。アルゴリズムは、コンテンツが書かれた自然言語にも、マークアップ言語にも依存しない。また、多数のWebページを対象に計算機実験を行ない、その有効性を確認した。この結果は11月にワシントンで行われた国際会議で発表した。
3 Webグラフの定義拡張
Webグラフとは、Webページとリンク情報の構造を表わすものである。これをキーワードやパタンも表現可能なようにいくつかの定義の拡張を行なった。上述したデータベースの実データを用いた実証実験が不可欠であるが、実験はこれからの課題である。

  • 研究成果

    (3件)

すべて その他

すべて 文献書誌 (3件)

  • [文献書誌] Daisuke Ikeda, Sachio Hirokawa: "Visualization and Analysis of Web Graphs"Progresses in Discovery Science, Lecture Notes in Computer Science(to appera).

  • [文献書誌] Daisuke Ikeda, Yasuhiro Yamada, Sachio Hirokawa: "Eliminating Useless Parts in Semi-structured Documents using Alternation Counts"Proceedings of the 4th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence. 2226. 113-127 (2001)

  • [文献書誌] Yasuhiro Yamada, Daisuke Ikeda, Sachio Hirokawa: "SCOOP : A Record Extractor without Knowledge on Input"Proceedings of the 4th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence. 2226. 482-487 (2002)

URL: 

公開日: 2003-04-03   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi