2008 Fiscal Year Annual Research Report
大規模WWWデータからの情報資源構築のための高性能分類方式の研究
Project/Area Number |
18300037
|
Research Institution | National Institute of Informatics |
Principal Investigator |
大山 敬三 National Institute of Informatics, コンテンツ科学研究系, 教授 (90177022)
|
Keywords | Webページ分類 / テキスト分類 / 機械学習 / 周辺ページ / 性能保証 / 判定コスト / 情報資源 / 情報検索 |
Research Abstract |
本研究課題では,様々なデータレコード間のリンクを行う際のリファレンスとして利用可能な品質を持つ情報資源を構築することを目指して,指定されたカテゴリのWebページを高再現率かつ高精度に収集するための分類方式を構築することを目的とする。当面の応用としては論文,研究者,プロジェクトなどのデータコレクション間のナビゲーション機能を想定している。 本年度は,昨年度までに開発した分類方式に基づき,十分な品質の情報資源を実現するための分類器構成について以下のように研究を行った。まず,情報資源に求められる所与の高精度並びに高再現率の制約条件下における分類特性を,実験及び理論解析を通じて分析し,分類器の最適化を行った。次に,精度及び再現率のそれぞれの制約条件に対応した分類器を部品として用い,所与の性能を統計的に保証可能な多段の分類器の構成を考案し,実験により評価を行った。また,分類結果を用いてWebサーチエンジンに組み込むことによりナビゲーション機能を実現するためのプロトタイプシステムを開発した。 特に,情報源として周辺ページを用いる手法では,一部のページが性能を阻害する要因となることから,予め周辺ページを分類し不要ページを除外するフィルタを機械学習により実現する新規手法を考案した。本手法は人手による新たな学習用データの作成を必要としないことを特長とする。テストデータを用いた実験により評価を行った結果,分類性能を大幅に向上できることが確認された。本手法は様々なカテゴリに適用できる汎用性を備えるとともに,共参照やアンカーテキストのように第三者による付加情報に依存する必要がなく,網羅性の高い情報収集に利用可能なことを特長としている。
|
Research Products
(4 results)