研究概要 |
実世界に存在するオブジェクトに関する多くの情報は,時間に関連付けられる場合が多い.例えば,人物の行動や発言,企業の製品発表などのイベントには,そのイベントが発生した時点がある.また,検索を行うユーザの側にとっても,それがいつの時点での情報なのかを確認することは重要であり,履歴の形で情報を整理してユーザに呈示することで,閲覧の支援が可能になると考えている.そこで,Webページから,履歴情報を日付とイベントの組の形で抽出をし,抽出結果から重複を除いて年表のように時系列で呈示する方式を研究する.そのために,本年度は以下の方式の研究を行った.1.履歴情報の抽出には,ページ中に現れる日付表現の抽出・正規化を行うルールが必要である.抽出ルールは,文書中に現れる日付に対応する文字列を特定するものであり,正規化ルールは,例えば,10月23日という年が省略された日付を20061023と一意に特定できる標準形に対応させるものである.これらのルールを実際のWebページに対して適用して評価実験を行い,有効性と問題点を検証した.2.実際には,同じページ内に複数のオブジェクトの情報が混在していたり,複数のページに同じオブジェクトの情報が分散している場合がある.そこで,ページ内から指定されたオブジェクト名に対応する情報だけを選択して抽出する方式の研究を行った.対象オブジェクトに関連する箇所を人手でアノテーションした訓練集合から,関連箇所抽出するルールを機械学習を用いて獲得する研究を行った.その際,文書構造を示す属性を導入することで,文書構造を利用した関連箇所抽出ルールの獲得を可能にした.
|