• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2007 Fiscal Year Annual Research Report

大規模WWWデータからの情報資源構築のための高性能分類方式の研究

Research Project

Project/Area Number 18300037
Research InstitutionNational Institute of Informatics

Principal Investigator

大山 敬三  National Institute of Informatics, コンテンツ科学研究系, 教授 (90177022)

Co-Investigator(Kenkyū-buntansha) 高須 淳宏  国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
相澤 彰子  国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
高久 雅生  国立情報学研究所, 情報・システム研究機構新領域融合研究センター, 融合プロジェクト研究員 (00399271)
KeywordsWebページ分類 / テキスト分類 / 機械学習 / 周辺ページ / 性能保証 / 判定コスト / 情報資源 / 情報検索
Research Abstract

本研究課題では,様々なデータレコード間のリンクを行う際のリファレンスとして利用可能な品質を持つ情報資源を構築することを目指して,指定されたカテゴリのWebページを高再現率かつ高精度に収集するための分類方式を構築することを目的とする。当面の応用としては論文,研究者,プロジェクトなどのデータコレクション間のナビゲーション機能を想定している。
本年度は,前年度に作成を開始した大規模テストデータを整備するため,データセットの準備と判定作業を進めたが,条件が合わなかったため十分な量のサンプルを確保できなかった。このため,さらに別のデータセットを用いて大規模テストデータの整備をするための準備を進め,来年度も継続することとした。
一方,昨年度行った実験の分析の結果,提案手法においては,情報源として利用している周辺ページ中に含まれている一部のページが性能を阻害する要因となっていることが判明した。この対策として,予め周辺ページを分類し不要ページを除外するフィルタを機械学習により実現するという新規手法を考案した。本フィルタの学習には,従来から用いている学習用データから機械的に導出可能な弱ラベル付きデータを用いており,新たな学習用データを必要としない。テストデータを用いた実験により評価を行った結果,本手法により分類性能を大幅に向上できることが確認された。本手法は同一Webサイト上のローカルな情報のみを用いているため,様々なカテゴリに適用できる汎用性を備えるとともに,共参照やアンカーテキストのように第三者による付加情報に依存する必要がなく,網羅性の高い情報収集に利用可能なことを特長としている。

  • Research Products

    (3 results)

All 2008 2007

All Journal Article (3 results) (of which Peer Reviewed: 3 results)

  • [Journal Article] 大規模データベースを利用したリンケージシステムの提案と実装2008

    • Author(s)
      相澤彰子, 高久雅生, 大山敬三
    • Journal Title

      日本データベース学会Letters 6(4)

      Pages: 17-20

    • Peer Reviewed
  • [Journal Article] Framework for Building a High-Quality Web Page Collection Considering Page Group Structure2007

    • Author(s)
      Yuxin Wang, Keizo Oyama
    • Journal Title

      Proc. APWeb/WAIM 2007, HuangShan, China, June 16-18, 2007 LNCS 4505

      Pages: 95-107

    • Peer Reviewed
  • [Journal Article] A Smoothing Method for a Statistical String Similarity2007

    • Author(s)
      Atsuhiro Takasu, Kenro Aihara, Taizo Yamada
    • Journal Title

      Proc. IEEE Intl. Conf. on Information Reuse and Integration (IRI2007)

      Pages: 67-72

    • Peer Reviewed

URL: 

Published: 2010-06-11   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi