研究概要 |
本年度は, 文書中に出現する地名の意味を認識するための基本モジュール群の開発, そのモジュールの出力結果の制度を計測するために, 正解データをデータベース化するための実験補助システム, ならびに, 正解データの作成を行った. 作成した基本モジュールとは, 文書データに含まれる単語の出現回数に代表される単語に関する各種統計情報を入力として, 出現するランドマーク名と文書に含まれる単語間の共起回数などからランドマークの特徴となりうる単語群を新聞記事群から抽出するための基礎を成すものである. 我々が実現する文書に含まれる地名の意味認識機能は, 本年度実現した基本モジュールを組み合わせることにより定義される. さらに,文書に含まれる地名の意味認識機能の精度を計測すべく, 新聞記事に含まれる地名が指す正解ランドマークを本研究代表者自ら抽出し, 正解集の作成を行った. 総数として約4,000の新聞記事に含まれる地名を対象とした正解集作成を目指しているが, 本年度はその4分の1にあたる約1,000文書からの正解集作成を行った. ただし, この正解集は毎日新聞2002年1月から2002年3月までの冬季の記事に限定されており, 評価を行うには, 春季, 夏季, 秋季の記事を対象とした正解集作成が必須と考えている. 残りの正解集作成については, 最終年度の前期中に完成させる予定である. また, 新聞記事に含まれるランドマーク名が非常に少ないことが判明したため, Webからランドマークに関する文書を収集するためのプログラム開発を行った, このプログラムは, ランドマーク名をキーとしてYahoo! 検索エンジンに与え, その結果を収集するものである. 本年度の研究費は, プログラム開発,ランドマークに関するWebページ収集のための計算機環境整備と関連研究動向調査のための旅費に使用した.
|