本年度は以下の項目について研究を行った。それぞれについて得られた成果を述べる。 1.時空間語辞書の構築 利用者が検索語として入力する時刻や位置およびテキストデータベースに格納された文書の中に現れる時刻や位置の意味を緯度、経度および西暦で記述するための辞書を構築した。この辞書には地名として住居表示や公共施設名、駅を、時刻名として祝日や記念日を登録し、それらの位置や時刻を緯度と経度の組または西暦表示によって表示した。 2.辞書の検索プログラムの実装 地名と時刻名からそれらの緯度、経度と西暦表示を調べるためのプログラムを実装した。地名を検索するときに表記の省略が多く見られることから、検索語を表す文字列との完全一致だけでなく部分一致も許すようにパターンマッチングを行うプログラムを実装した。これにより検索語とマッチする可能性のある地名を列挙できるようになった。 3.地名と時刻の自動抽出プログラムの実装 日本語テキストの形態素解析ソフトウェアを用いて文書中の名詞を抽出し、それを時空間語辞書から探すことにより辞書に登録された地名あるいは時刻名を抽出するプログラムを実装した。抽出された地名と時刻名は文書のメタデータとして記憶するようにした。 4.複数の時空間語の突合せによる絞込み 省略された地名の場合、地名の表す緯度と経度の組として複数の候補が考えられる、そのような候補から可能性を絞るために、文書に現れた地名のレイアウト上の位置関係を利用して可能な位置の組を絞るプログラムを実装した。同一の文、同一の段落というレイアウト上の関係を用いて文章中において近い地名は実空間においても近いという仮説の元に実装している。このプログラムについては今後とも改良が必要であり、次年度以降も継続して取り組みたい。
|