2007 Fiscal Year Annual Research Report
大規模WWWデータからの情報資源構築のための高性能分類方式の研究
Project/Area Number |
18300037
|
Research Institution | National Institute of Informatics |
Principal Investigator |
大山 敬三 National Institute of Informatics, コンテンツ科学研究系, 教授 (90177022)
|
Co-Investigator(Kenkyū-buntansha) |
高須 淳宏 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
高久 雅生 国立情報学研究所, 情報・システム研究機構新領域融合研究センター, 融合プロジェクト研究員 (00399271)
|
Keywords | Webページ分類 / テキスト分類 / 機械学習 / 周辺ページ / 性能保証 / 判定コスト / 情報資源 / 情報検索 |
Research Abstract |
本研究課題では,様々なデータレコード間のリンクを行う際のリファレンスとして利用可能な品質を持つ情報資源を構築することを目指して,指定されたカテゴリのWebページを高再現率かつ高精度に収集するための分類方式を構築することを目的とする。当面の応用としては論文,研究者,プロジェクトなどのデータコレクション間のナビゲーション機能を想定している。 本年度は,前年度に作成を開始した大規模テストデータを整備するため,データセットの準備と判定作業を進めたが,条件が合わなかったため十分な量のサンプルを確保できなかった。このため,さらに別のデータセットを用いて大規模テストデータの整備をするための準備を進め,来年度も継続することとした。 一方,昨年度行った実験の分析の結果,提案手法においては,情報源として利用している周辺ページ中に含まれている一部のページが性能を阻害する要因となっていることが判明した。この対策として,予め周辺ページを分類し不要ページを除外するフィルタを機械学習により実現するという新規手法を考案した。本フィルタの学習には,従来から用いている学習用データから機械的に導出可能な弱ラベル付きデータを用いており,新たな学習用データを必要としない。テストデータを用いた実験により評価を行った結果,本手法により分類性能を大幅に向上できることが確認された。本手法は同一Webサイト上のローカルな情報のみを用いているため,様々なカテゴリに適用できる汎用性を備えるとともに,共参照やアンカーテキストのように第三者による付加情報に依存する必要がなく,網羅性の高い情報収集に利用可能なことを特長としている。
|
Research Products
(3 results)