2014 Fiscal Year Research-status Report
時系列文書を対象とした語義に関する局所・大域的特徴量の抽出と続報記事判定への適用
Project/Area Number |
25330255
|
Research Institution | University of Yamanashi |
Principal Investigator |
福本 文代 山梨大学, 総合研究部, 教授 (60262648)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 時系列テキストデータ / 意味処理 / 話題語 / 背景語 / 続報記事 |
Outline of Annual Research Achievements |
本研究は, 長期間に渡る時系列文書データを対象とした検索に有効な語彙的意味処理技術の開発を目的とする. 具体的には, (1) 分野語義辞書を開発し, (2) 時系列モデルに基づき語義の局所・大域特徴量を抽出することにより, 意味に基づく時系列データ処理を実施する. またこれらを用いることで出来事に関する記事全体の背景と各記事の話題が認識可能となり, ユーザが指定した出来事に関する一連の内容を高精度で抽出・提示できることを示す. 今年度は,局所・大域的特徴量を抽出するために,以下を行った. 1. 話題・背景語の抽出 25 年度に開発した分野語義辞書を用い, ある出来事に関する続報記事の訓練データから話題語と背景語を抽出した. 2. 時間推移による重み付け関数のモデル化 ある出来事に関する一定量の続報記事データを訓練データとして用いることにより, 話題語が出現した時期以降の時間差と語の重要性の度合いを示す分布関数を求めた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は局所・大域的特徴量の抽出であり,背景語・話題語の抽出,及び重み付け関数を求めることについては結果が得られている.また,これらの評価についても新聞記事を用いた検証を実施済みであることからおおむね順調であると考える.
|
Strategy for Future Research Activity |
今後は,提案手法の有効性を検証するために,続報記事データを用いた実験が主な課題となる.また得られた成果を国際学会に投稿することにより成果の公開を実施する予定である.
|
Causes of Carryover |
手法の精度検証のためのデータ作成に時間を要したため,計算機購入を見合わせたことから差が生じた.
|
Expenditure Plan for Carryover Budget |
定量的な評価を実施するために前年度見合わせた計算機を購入する.また成果公開のための学会投稿料と旅費に使用する.
|
Remarks |
http://www.ccn.yamanashi.ac.jp/~fukumoto/fukumoto.html
|