研究概要 |
ネットワークの相互接続点において,両者の違いを吸収して円滑に通信を行うために,高度な情報の中継/変換技術が必要になっている.本研究では,このような機能を「高度ネットワーク情報フィルタリング」と呼び,平成9年度から本年度にかけての2年間を用いて,その高度化に必要な要素技術を検討した. 本年度では特に,HTTPのプロキシーサーバに焦点をあてて,そのアクセス統計を利用して中継サーバの最適配置や類似クライアントの自動抽出を行うための分析手法を検討した.ここで,大規模サイトにおいては短期間であってもログファイルの量は膨大なものになることから,あらかじめ定めた数学的な情報基準にしたがってログデータを要約することを試み,さらに,要約したデータに対して文献検索の分野で近年注目されている自動索引づけ手法LSI(Latent Semantic Indexing)を適用することで,クライアント間の類似度を求める手法を提案した.また,提案手法を用いて,実際に大規模プロキシーサイトで観察されたログデータを分析し,単純な頻度に基づく方法よりも,クライアント間の類似関係を有効に抽出できることを示した. 本研究で提案した手法は,大量のデータから有用な情報を抽出するデータ発掘の前処理として用いることもできる.そこで,大量の単語を含む全文テキスト(論文)の類似度計算問題に対しても同様のデータ集約を適用して,有効性を調べた.
|