2001 Fiscal Year Annual Research Report

Webページを自動的に格付け、分類する新世代サーチエンジンの開発

Research Project

Project/Area Number	12558038
Research Institution	Keio University
Principal Investigator	上田修一慶應義塾大学, 文学部, 教授 (50134218)
Co-Investigator(Kenkyū-buntansha)	渡邊道子鉄道技術研究所, 技術支援部, 技師久野高志作新学院大学, 女子短期大学部, 専任講師 (30310212) 安形輝亜細亜大学, 国際関係学部, 専任講師 (80306505)
Keywords	WWW / 情報検索 / 自動分類 / Webページ / サーチエンジン / 自動格付け
Research Abstract	WWWは,従来の情報メディアとは異なった異なった数々の特徴を持っており,本研究は,Webページ総量の推定や標本抽出などの基礎的調査を行う一方,情報源として役立つWebページを自動的に判断し自動分類を行う方法を考案し,次世代サーチエンジンの基礎研究を行うものである。第一年度は,収集したWebページ群から情報源となりうる分類されたページ群を取り出すまでの手順のうち,ページタイプの自動判定,情報源として有用なページの自動判定を行った。WWWの表現と機能としての特性から,Webページタイプとして標準,表紙,目次,掲示板,チャット,リンク集,日記,入力フォームを設定,各ページタイプの出現頻度を調査した後,標本集合を用いてWebページから得られる量的な指標やHTMLタグの出現頻度の主成分分析により,タイプ分けのアルゴリズムを考案した。126種の判定ルールとその重みを設定した。標準タイプの識別に関しては75%以上の再現率・精度を得ることができた。一方,テキスト中の語の出現状況を調べ,rよい情報源である」の判定で高得点を得たページの形態素解析を行い,語の出現状況をもとに,有用な情報源の自動判定を試みた。その結果,語の出現頻度によって約80%の有用なページを自動判定することができた。第二年度は,Webページの総量の推定を行った。2001年9月現在のWebページ総量の32億ページであることが判明した。次に,第一年度に行った調査を拡大し,ページ判定,格付けそれに分類ずみの3000ページの標本ページを作成し,これをもとに,自動分類を行うとともにページタイプの自動判定,情報源として有用なページの自動判定のアルゴリズムを改良した。これを検索システムに組み込み,国立情報学研究所の第2回NTCIRワークショップWebタスクに参加した。

Research Products
(6 results)

All Other

All Publications (6 results)

[Publications] 上田修一: "情報源としてのWWW"メディア・コミュニケーション. 51. 42-50 (2001)
[Publications] 安形輝: "WWW調査におけるサンプル集合の収集法"三田図書館・情報学会研究大会発表論文集. 2000. 37-40 (2000)
[Publications] 久野高志他: "Webページのタイプ判定法"日本図書館情報学会研究大会発表要綱. 2000. 55-58 (2000)
[Publications] 上田修一他: "Webページ評価の視点と基準"三田図書館・情報学会研究大会発表論文集. 2000. 33-36 (2000)
[Publications] 安形輝他: "World Wide Webの測定:Webページ推定手法の比較"三田図書館・情報学会研究大会発表論文集. 2001. 17-20 (2001)
[Publications] 久野高志他: "情報検索システムとしてみたサーチエンジン"日本図書館情報学会研究大会発表要綱. 2001. 47-50 (2001)

2001 Fiscal Year Annual Research Report

Webページを自動的に格付け、分類する新世代サーチエンジンの開発

Principal Investigator

上田 修一 慶應義塾大学, 文学部, 教授 (50134218)

Research Products

[Publications] 上田修一: "情報源としてのWWW"メディア・コミュニケーション. 51. 42-50 (2001)

[Publications] 安形 輝: "WWW調査におけるサンプル集合の収集法"三田図書館・情報学会研究大会発表論文集. 2000. 37-40 (2000)

[Publications] 久野高志他: "Webページのタイプ判定法"日本図書館情報学会研究大会発表要綱. 2000. 55-58 (2000)

[Publications] 上田修一他: "Webページ評価の視点と基準"三田図書館・情報学会研究大会発表論文集. 2000. 33-36 (2000)

[Publications] 安形 輝他: "World Wide Webの測定:Webページ推定手法の比較"三田図書館・情報学会研究大会発表論文集. 2001. 17-20 (2001)

[Publications] 久野高志他: "情報検索システムとしてみたサーチエンジン"日本図書館情報学会研究大会発表要綱. 2001. 47-50 (2001)

上田修一慶應義塾大学, 文学部, 教授 (50134218)

[Publications] 安形輝: "WWW調査におけるサンプル集合の収集法"三田図書館・情報学会研究大会発表論文集. 2000. 37-40 (2000)

[Publications] 安形輝他: "World Wide Webの測定:Webページ推定手法の比較"三田図書館・情報学会研究大会発表論文集. 2001. 17-20 (2001)