研究概要 |
本研究課題では,マルチメディア文書データ(文字情報に,文書構造(タグ情報),画像,音声,動画が組み合わされたデータ,その代表がWebページ)に含まれる地名から,その地名がさす緯度経度を計算するためのシステム(マルチメディア文書データを対象としたジオ・コーディング・システム)の研究を行っている.ここで,ジオ・コーディング・システムとは,入力された住所名から,それが指す緯度経度を計算するためのシステムを表すが,マルチメディア文書データに含まれる地名表現は次の特徴を持つので,従来のジオ・コーディング・システムをマルチメディア文書データに直接適用することが困難である:(特徴)マルチメディア文書データに含まれる地名が従来のジオ・コーディング・システムが入力として受け付ける住所名と一致せず,多くの場合,住所名表現の一部を表す. 本研究課題では,マルチメディア文書データの文脈認識を伴って緯度経度を選定するためのメカニズムの実現を行うが,本年度は,文書データ内における地名を特定するための文脈として,主に新聞記事データから得られた知見であるが,文書全体を地名認識のための文脈として用いるよりも,その第1文のみを文脈として利用したほうが精度の向上(約5%)があることを確認した.すなわち,文書データの構造に依存した文脈認識機能の有効性を明らかにした.さらに,画像データの類似度に基づいたジオ・コーディング・システムの実現を行ったが,ある地点に関して10数枚の画像をそろえる条件を満たす場合に限り,ジオ・コーディングの精度が向上することを明らかにした.
|