• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2008 Fiscal Year Annual Research Report

大規模WWWデータからの情報資源構築のための高性能分類方式の研究

Research Project

Project/Area Number 18300037
Research InstitutionNational Institute of Informatics

Principal Investigator

大山 敬三  National Institute of Informatics, コンテンツ科学研究系, 教授 (90177022)

KeywordsWebページ分類 / テキスト分類 / 機械学習 / 周辺ページ / 性能保証 / 判定コスト / 情報資源 / 情報検索
Research Abstract

本研究課題では,様々なデータレコード間のリンクを行う際のリファレンスとして利用可能な品質を持つ情報資源を構築することを目指して,指定されたカテゴリのWebページを高再現率かつ高精度に収集するための分類方式を構築することを目的とする。当面の応用としては論文,研究者,プロジェクトなどのデータコレクション間のナビゲーション機能を想定している。
本年度は,昨年度までに開発した分類方式に基づき,十分な品質の情報資源を実現するための分類器構成について以下のように研究を行った。まず,情報資源に求められる所与の高精度並びに高再現率の制約条件下における分類特性を,実験及び理論解析を通じて分析し,分類器の最適化を行った。次に,精度及び再現率のそれぞれの制約条件に対応した分類器を部品として用い,所与の性能を統計的に保証可能な多段の分類器の構成を考案し,実験により評価を行った。また,分類結果を用いてWebサーチエンジンに組み込むことによりナビゲーション機能を実現するためのプロトタイプシステムを開発した。
特に,情報源として周辺ページを用いる手法では,一部のページが性能を阻害する要因となることから,予め周辺ページを分類し不要ページを除外するフィルタを機械学習により実現する新規手法を考案した。本手法は人手による新たな学習用データの作成を必要としないことを特長とする。テストデータを用いた実験により評価を行った結果,分類性能を大幅に向上できることが確認された。本手法は様々なカテゴリに適用できる汎用性を備えるとともに,共参照やアンカーテキストのように第三者による付加情報に依存する必要がなく,網羅性の高い情報収集に利用可能なことを特長としている。

  • Research Products

    (4 results)

All 2009 2008

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (2 results)

  • [Journal Article] Building web page collections efficiently exploiting local surrounding pages2009

    • Author(s)
      Yuxin WANG, Keizo OYAMA
    • Journal Title

      Progress in Informatics No. 6

      Pages: 27-39

    • Peer Reviewed
  • [Journal Article] Web Page Classification based on Surrounding Page Model representing Connection Type and Directory Hierarchy2009

    • Author(s)
      Yuxin WANG, Keizo OYAMA
    • Journal Title

      情報処理学会論文誌データベース TOD42号(印刷中)

    • Peer Reviewed
  • [Presentation] Name Disambiguation of Japanese Researchers : A Case Study with Statistics Research Community2008

    • Author(s)
      Masao Takaku, Akiko Aizawa, Yasumasa Baba
    • Organizer
      Joint Meeting of 4th World Conference of the IASC and 6^<th> Conference of the Asian Regional Section of the IASC on Computational Statistics & Data Analysis (IASC2008)
    • Place of Presentation
      Yokohama, Japan
    • Year and Date
      2008-12-05
  • [Presentation] Web Page Classification exploiting Surrounding Pages with Noisy Page Filtering2008

    • Author(s)
      Yuxin Wang, Keizo Oyama
    • Organizer
      The 2008 International Conference on Data Mining (DMIN2008)
    • Place of Presentation
      Las Vegas, Nevada, USA
    • Year and Date
      2008-07-14

URL: 

Published: 2010-06-11   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi