大規模WWWデータからの情報資源構築のための高性能分類方式の研究

Research Project Number:18300037

FY2006 Annual Research Report

Principal Investigator

    • 大山 敬三
    • Researcher Number:90177022
    • 国立情報学研究所・コンテンツ科学研究系・教授

Basic Information of this Research Project

  • Project Year

    FY2006〜FY2006

  • Research Field

    メディア情報学・データベース

  • Screaning Classification

    一般

  • Research Category

    基盤研究(B)

  • Research Institution

    国立情報学研究所

  • Budget Amount

    • FY2006:¥2300000 (Direct:¥2300000)
    • FY2007:¥3770000 (Direct:¥2900000, Indirect:¥870000)
    • FY2008:¥3380000 (Direct:¥2600000, Indirect:¥780000)

Co-Investigators

    • 高須 淳宏
    • Researcher Number:90216648
    • 国立情報学研究所・コンテンツ科学研究系・教授
    • 相澤 彰子
    • Researcher Number:90216648
    • 国立情報学研究所・コンテンツ科学研究系・教授
    • 高久 雅生
    • Researcher Number:00399271
    • 情報・システム研究機構・新領域融合研究センター・融合プロジェクト研究員


Abstract

本研究課題では,様々なデータレコード間のリンクを行う際のリファレンスとして利用可能な品質を持つ情報資源を構築することを目指して,指定されたカテゴリのWebページを高再現率かつ高精度に収集するための分類方式を構築することを目的とする。当面の応用としては論文,研究者,プロジェクトなどのデータコレクション間のナビゲーション機能を想定している。

本年度はまず,想定している応用に要求されるサービス品質を検討し,情報資源としての目標性能を再現率95%,精度99%と設定した。この目標に対して,まずWebページの自動分類の高性能化を図るため,周辺ページの内容情報を効果的に利用するためのリンクとディレクトリ階層を考慮した素性の提案を行い,研究代表者らが作成した100GBのWebデータに基づくテストデータResJ-01,及びWeb分類用テストデータとして広く用いられているWebKBを用いた実験を通じて評価を行った。この結果,提案の素性により基本分類性能を大幅に改良できることを示した。次に,再現率と精度を保証しつつ人手判定コストを最小化するためのスキームを提案するとともに,再現率または制度の制約下での分類器のチューニング方法についてRedJ-01を用いて実験を行い分類性能の特性を明らかにすることにより,提案スキームに必要な高精度分類器と高再現率分類器の実装方法を明らかにした。

また,次年度以降に行う大規模データを用いた実験の準備のため,1.36TBのWebデータに対して,単語分割,リンク抽出,アンカーテキスト抽出,インデクス構築などの処理を行った。さらに,研究者を対象としてサンプルデータを抽出し,ホームページの3段階による適合判定を開始した。

Publications

Journal article

  • Yuxin Wang, Keizo Oyama: "Combining Page Group Structure and Content for Roughly Filtering Researchers' Homepages with High Recall" 情報処理学会論文誌データベース Vol.47, No.SIG 8 (TOD 30). 11-23 (2006),

  • Masao Takaku, Keizo Oyama, Akiko Aizawa: "An Analysis on Topic Features and Difficulties based on Web Navigational Retrieval Experiments" Proc. Asia Information Retrieval Symposium (AIRS) 2006 LNCS, Vol. 4182/2006. 625-632 (2006),

  • Yuxin Wang, Keizo Oyama: "Web Page Classification Exploiting Contents of Surrounding Pages for Building a High-quality Homepage Collection" Proc. 9th International Conference on Asian Digital Libraries (ICADL2006) LNCS, Vol. 4312/2006. 515-518 (2006),

  • Yuxin Wang, Keizo Oyama: "Web Page Classification Considering Page Group Structure for Building a High-Quality Homepage Collection" Proc. 3rd International Conference on Web Information Systems and Technologies (WEBIST 2007) Vol. WIA. 170-175 (2007)

  • Atsuhiro Takasu: "An Approximate Multi-word Matching Algorithm for Robust Document Retrieval" Proc. ACM Conference on Knowledge and Information Management (CIKM). 34-42 (2006)

  • Atsuhiro Takasu, Kenro Aihara: "Quality Enhancement in Information Extraction from Scanned Documents" Proc. ACM Symposium on Document Engineering (DocEng). 122-124 (2006)

URI of this page

http://kaken.nii.ac.jp/en/p/18300037/2006/3/ja