研究概要 |
本研究課題は,緯度経度と関連付けられていないが,地名を含む文書データに,その地名が指す緯度経度(地名の意味)を自動認識し,それを含む文書に付与するための技術開発を行うものである.現在,インターネット上には,地名を含むが緯度経度が関連付けられていない文書データが数多く存在しているが,それらに緯度経度を付与できれば,モバイル・ユビキタス・ネットワーグ環境における場所に応じた文書活用機会を大幅に向上させることが可能になる. 本年度は,文書中に出現する地名の意味を認識するためのプログラム開発,正解データと照合しその正解率を算出するための補助ソフトウェア,ならびに,正解データの作成を行った.作成したプログラムとは,新聞記事において,ランドマークと共起する単語群の統計情報収集,ならびに,収集した情報を元に,ILF(Inverse Landmark Frequency)という提案指標に基づいて,ランドマークの特徴を表す語の自動判別,ならびに,その特徴量算出を行うものである.ここでILFとは,複数のランドマークの特徴になりえる語の特徴量を減じる効果をもたらすものである. 文書に含まれる地名の意味認識機能の精度を計測すべく,本研究開発において作成した提案システムと,文書検索分野における既存の語の特徴量算出に基づく比較対象システム,さらに,ILFと既存手法を組み合わせた計8システムを実装し,それらの意味認識精度の比較を行った.その結果,ILFと既存手法を組み合わせた方式が最も高性能(80%を超える意味認識率)であり,提案方式の妥当性を明らかにした. 本年度の研究費は,特に,8システムの比較評価において,多数の文書解析処理を必要とすることから,その時間軽減のために,各システムの性能評価を行うための複数台のパソコン購入に充てた.さらに,その成果発表のための旅費に使用した.
|