• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2006 Fiscal Year Annual Research Report

大規模WWWデータからの情報資源構築のための高性能分類方式の研究

Research Project

Project/Area Number 18300037
Research InstitutionNational Institute of Informatics

Principal Investigator

大山 敬三  国立情報学研究所, コンテンツ科学研究系, 教授 (90177022)

Co-Investigator(Kenkyū-buntansha) 高須 淳宏  国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
相澤 彰子  国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
高久 雅生  情報・システム研究機構・新領域融合研究センター, 融合プロジェクト研究員 (00399271)
KeywordsWebページ分類 / テキスト分類 / 機械学習 / 周辺ページ / 性能保証 / 判定コスト / 情報資源 / 情報検索
Research Abstract

本研究課題では,様々なデータレコード間のリンクを行う際のリファレンスとして利用可能な品質を持つ情報資源を構築することを目指して,指定されたカテゴリのWebページを高再現率かつ高精度に収集するための分類方式を構築することを目的とする。当面の応用としては論文,研究者,プロジェクトなどのデータコレクション間のナビゲーション機能を想定している。
本年度はまず,想定している応用に要求されるサービス品質を検討し,情報資源としての目標性能を再現率95%,精度99%と設定した。この目標に対して,まずWebページの自動分類の高性能化を図るため,周辺ページの内容情報を効果的に利用するためのリンクとディレクトリ階層を考慮した素性の提案を行い,研究代表者らが作成した100GBのWebデータに基づくテストデータResJ-01,及びWeb分類用テストデータとして広く用いられているWebKBを用いた実験を通じて評価を行った。この結果,提案の素性により基本分類性能を大幅に改良できることを示した。次に,再現率と精度を保証しつつ人手判定コストを最小化するためのスキームを提案するとともに,再現率または制度の制約下での分類器のチューニング方法についてRedJ-01を用いて実験を行い分類性能の特性を明らかにすることにより,提案スキームに必要な高精度分類器と高再現率分類器の実装方法を明らかにした。
また,次年度以降に行う大規模データを用いた実験の準備のため,1.36TBのWebデータに対して,単語分割,リンク抽出,アンカーテキスト抽出,インデクス構築などの処理を行った。さらに,研究者を対象としてサンプルデータを抽出し,ホームページの3段階による適合判定を開始した。

  • Research Products

    (6 results)

All 2007 2006

All Journal Article (6 results)

  • [Journal Article] Web Page Classification Considering Page Group Structure for Building a High-Quality Homepage Collection2007

    • Author(s)
      Yuxin Wang, Keizo Oyama
    • Journal Title

      Proc. 3rd International Conference on Web Information Systems and Technologies (WEBIST 2007) Vol. WIA

      Pages: 170-175

  • [Journal Article] Combining Page Group Structure and Content for Roughly Filtering Researchers' Homepages with High Recall2006

    • Author(s)
      Yuxin Wang, Keizo Oyama
    • Journal Title

      情報処理学会論文誌データベース Vol.47, No.SIG 8 (TOD 30)

      Pages: 11-23

  • [Journal Article] An Analysis on Topic Features and Difficulties based on Web Navigational Retrieval Experiments2006

    • Author(s)
      Masao Takaku, Keizo Oyama, Akiko Aizawa
    • Journal Title

      Proc. Asia Information Retrieval Symposium (AIRS) 2006 LNCS, Vol. 4182/2006

      Pages: 625-632

  • [Journal Article] Web Page Classification Exploiting Contents of Surrounding Pages for Building a High-quality Homepage Collection2006

    • Author(s)
      Yuxin Wang, Keizo Oyama
    • Journal Title

      Proc. 9th International Conference on Asian Digital Libraries (ICADL2006) LNCS, Vol. 4312/2006

      Pages: 515-518

  • [Journal Article] An Approximate Multi-word Matching Algorithm for Robust Document Retrieval2006

    • Author(s)
      Atsuhiro Takasu
    • Journal Title

      Proc. ACM Conference on Knowledge and Information Management (CIKM)

      Pages: 34-42

  • [Journal Article] Quality Enhancement in Information Extraction from Scanned Documents2006

    • Author(s)
      Atsuhiro Takasu, Kenro Aihara
    • Journal Title

      Proc. ACM Symposium on Document Engineering (DocEng)

      Pages: 122-124

URL: 

Published: 2008-05-08   Modified: 2012-10-02  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi