研究概要 |
Wikipediaは,「群集の叡智」と呼ばれる形式の新しいソーシャルメディアであり,知識抽出のためのコーパスとして,その有用性が研究者の間でも急速に注目を集めはじめている.このため,「誰でも編集可能である」という特性が大規模なコンテンツの構築を可能にしている一方で,情報の信頼性を如何に確保するかが大きな課題となっている.本研究では,Wikipediaにおける情報の質向上や関係性に影響を与える要素を調査し利用することによって,精度の高い意味抽出を目指す. 本年度では,Wikipediaに存在する概念構造の分野による偏りに着目し,ある程度整理された情報源であるWikipediaと大量の情報を持つWebを融合することにより,Wikipedia中の概念構造において欠落した概念を同定する手法を設計し,評価した.評価の結果,Wikipediaには存在しないが,実際には存在する概念をWeb上の膨大な情報の中から発見できることを確認した.しかし,同義語判別処理の精度向上が必要であることも分かった. また,昨年度に構築したWikipediaの概念を元にしたテストコレクションである「WikiSimi Test Collection」を用い,学習データとして機械学習手法に適用することにより,記事内のリンク数やカテゴリへの所属情報などWikipediaの記事から取得可能な情報や,これまで提案されてきた概念間関連度の測定手法の値などで,どのような要素が概念間関連度の測定に影響を与えているかを調査した.さらに,回帰問題を解くことができる機械学習手法によって,それら種々の情報(条件)を考慮した概念間関連度の測定を行った.評価実験の結果,提案手法はほとんどの概念間で従来手法よりも高精度に概念間関連度を測定できていることが分かった.本研究成果は,概念間の関連度という汎用性の高い知識源を提供することを可能とし,情報検索や文書分類,連想支援などの研究やアプリケーションで利用することができる.
|