本研究の目的は、リンク構造を持つ大量のWebページの順位づけとクラスタリング手法を構築し、これを利用した検索エンジンの構築である。今年度の実績は以下のとおりである。 1 データベース構築およびデータ収集 本研究が対象とするデータはWwebページとそのリンク情報であり、収集したWebページとリンク情報へのアクセスを提供するデータベースを開発した。これにより、以下に述べる計算機実験が可能となった。 2 必要部分の抽出 Webページはコンテンツ以外にもマークアップのための情報や構造化のための情報を含む。このようなファイルからコンテンツ部分のみを抜きだすアルゴリズムを開発し実装した。アルゴリズムは、コンテンツが書かれた自然言語にも、マークアップ言語にも依存しない。また、多数のWebページを対象に計算機実験を行ない、その有効性を確認した。この結果は11月にワシントンで行われた国際会議で発表した。 3 Webグラフの定義拡張 Webグラフとは、Webページとリンク情報の構造を表わすものである。これをキーワードやパタンも表現可能なようにいくつかの定義の拡張を行なった。上述したデータベースの実データを用いた実証実験が不可欠であるが、実験はこれからの課題である。
|