研究実績の概要 |
本研究は, 長期間に渡る時系列文書データを対象とした検索に有効な語彙的意味処理技術の開発を目的とする. 具体的には, (1) 分野語義辞書を開発し, (2) 時系列モデルに基づき語義の局所・大域特徴量を抽出することにより, 意味に基づく時系列データ処理を実施する. またこれらを用いることで出来事に関する記事全体の背景と各記事の話題が認識可能となり, ユーザが指定した出来事に関する一連の内容を高精度で抽出・提示できることを示す. 今年度は,局所・大域的特徴量を抽出するために,以下を行った. 1. 話題・背景語の抽出 25 年度に開発した分野語義辞書を用い, ある出来事に関する続報記事の訓練データから話題語と背景語を抽出した. 2. 時間推移による重み付け関数のモデル化 ある出来事に関する一定量の続報記事データを訓練データとして用いることにより, 話題語が出現した時期以降の時間差と語の重要性の度合いを示す分布関数を求めた.
|