World Wide Web上には大量のテキスト情報が蓄積され、現在も急速に増加を続けているが、それらの中には内容に関して信頼性が低いものも多く含まれている。そのためWebのさらなる有効活用を進めるにあたって、いかにして信頼性の低い情報をフィルタリングしていくかは重要な課題となっている。現在までに提案された信頼性の評価手法として、発信者の属性(ドメイン等)を利用する方法、閲覧者による評価(ハイパーリンクやブックマーク等)を使用するものがあり、検索エンジンのランキングにも活かされているが、本研究ではコンテンツの内容自体に基づく信頼性評価手法の開発に取り組んだ。具体的にはテキスト情報の基本要素としての「文」に着目し、個々の文の信頼性を評価する手法を開発した。多数のWebページから同一の意味内容を持つ文章表現を収集し、それを含むページの時間的属性(最終更新日時)、空間的属性(ホストの登録住所やページ内に現れる地名の分布)を考慮しつつ、重み付けを行った上で集約を行う。結合の際の重みの設定として、より新しい情報、長い時間に渡って継続的に発信されている情報、より広範な範囲で言及されている情報は信頼性が高いと仮定した。提案手法に関して実際のWebページ集合を用いた実験を行い、有効性を示した。また、集約結果をページ評価に使用するだけでなく、それ自体を新たな情報として提供するシステムを開発した。研究の成果は雑誌論文・国際会議等にて発表を行った。
|