研究概要 |
Wikipediaは,「群集の叡智」と呼ばれる形式の新しいソーシャルメディアであり,知識抽出のためのコーパスとして,その有用性が研究者の間でも急速に注目を集めはじめている.一方で,Wikipediaの情報には内容に偏りがあったり,また虚偽の情報が記載されているケースも存在する.このため,「誰でも編集可能である」という特性が大規模なコンテンツの構築を可能にしている一方で,情報の信頼性を如何に確保するかが大きな課題となっている。 そこで本研究ではWikipediaにおいて情報の信頼性を評価し向上するための技術を開発することによって,Wikipediaの情報の質や精度の高い意味情報の抽出を目指す.本年度では,どのような因子が情報の信頼性に影響を及ぼすのかを多角的に調査した.その中で特に注目した点は,Wikipediaは概念構造が分野により偏りがあるということである.例えば,日本語版Wikipedia場合,サブカルチャーに関する項目は非常に充実している一方,手薄な分野も存在する.これは,ユーザの文化的背景の影響という意味では興味深い現象ではあるが,百科事典的情報源としては網羅性の確保が重要である.そこで,ある程度整理された情報源であるWikipediaと大量の情報を持つWebを融合することにより,Wikipedia中の欠落する概念を同定し,提示及び自動的に概念構造に追加する手法を設計している.また,同時にWikipediaから概念の関連構造を構築する手法の有効性を評価するためのテストコレクション「WikiSimi Test Collection」を構築した.これは,複数の被験者に約2000ペアの概念の関連度をスコアリングしてもらうことによって構築した.これは来年度以降,設計中の手法の評価に用いることができるだけでなく,他の研究者にも利用価値の高いテストコレクションである.
|