研究概要 |
WWWは,従来の情報メディアとは異なった異なった数々の特徴を持っている。本研究は,Webページ総量の推定や標本抽出などの基礎的調査を行う一方,情報源として役立つWebページを自動的に判断し自動分類を行う方法を考案し,次世代サーチエンジンの基礎的研究を行うものである。 本年度は収集したWebページ群から情報源となりうる分類されたページ群を取り出すまでの手順のうち,ページタイプの自動判定,情報源として有用なページの自動判定を行った。 WWWの表現と機能としての特性から,標準,表紙,目次,掲示板,チャット,リンク集,日記,入力フォームをWebページタイプとして設定し,各ページタイプの出現頻度を調査した後標本集合を用いてWebページから得られる量的な指標やHTMLタグの出現頻度の主成分分析により,タイプ分けのアルゴリズムを考案した。126種の判定ルールとその重みを設定した。標準タイプの識別に関しては75%以上の再現率・精度を得ることができた。 Webページの評価について作成者,利用者,物理的アクセス条件の三つの視点から仮の評価項目を定め,9名の被験者を用いて,これらの項目と「よい情報源」の関係をみた。その結果,情報源となりうるページの判定に用いることができるのは,各ページのテキストであることが明らかになった。テキスト中の語の出現状況を調べ,「よい情報源である」の判定で高得点を得たページの形態素解析を行い,語の出現状況をもとに,有用な情報源の自動判定を試みた。その結果語の出現頻度によって約80%の有用なページを自動判定することができた。
|