研究概要 |
本研究課題では,様々なデータレコード間のリンクを行う際のリファレンスとして利用可能な品質を持つ情報資源を構築することを目指して,指定されたカテゴリのWebページを高再現率かつ高精度に収集するための分類方式を構築することを目的とする。当面の応用としては論文,研究者,プロジェクトなどのデータコレクション間のナビゲーション機能を想定している。 本年度はまず,想定している応用に要求されるサービス品質を検討し,情報資源としての目標性能を再現率95%,精度99%と設定した。この目標に対して,まずWebページの自動分類の高性能化を図るため,周辺ページの内容情報を効果的に利用するためのリンクとディレクトリ階層を考慮した素性の提案を行い,研究代表者らが作成した100GBのWebデータに基づくテストデータResJ-01,及びWeb分類用テストデータとして広く用いられているWebKBを用いた実験を通じて評価を行った。この結果,提案の素性により基本分類性能を大幅に改良できることを示した。次に,再現率と精度を保証しつつ人手判定コストを最小化するためのスキームを提案するとともに,再現率または制度の制約下での分類器のチューニング方法についてRedJ-01を用いて実験を行い分類性能の特性を明らかにすることにより,提案スキームに必要な高精度分類器と高再現率分類器の実装方法を明らかにした。 また,次年度以降に行う大規模データを用いた実験の準備のため,1.36TBのWebデータに対して,単語分割,リンク抽出,アンカーテキスト抽出,インデクス構築などの処理を行った。さらに,研究者を対象としてサンプルデータを抽出し,ホームページの3段階による適合判定を開始した。
|