2013 Fiscal Year Research-status Report
時系列文書を対象とした語義に関する局所・大域的特徴量の抽出と続報記事判定への適用
Project/Area Number |
25330255
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | University of Yamanashi |
Principal Investigator |
福本 文代 山梨大学, 医学工学総合研究部, 教授 (60262648)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 分野語義辞書 / 続報記事抽出 / 時系列データ処理 |
Research Abstract |
本研究は,長期間に渡る時系列文書データを対象とした検索に有効な語彙的意味処理技術の開発を目的とする.具体的には,1. 分野語義辞書を開発し,2. 時系列モデルに基づき語義の局所・大域特徴量を抽出することにより,意味に基づく時系列データ処理を実施する.またこれらを用いることで出来事に関する記事全体の背景と各記事の話題が認識可能となり,ユーザが指定した出来事に関する一連の内容を高精度で抽出・提示できることを示す.今年度は,英語についてはReuters, WordNet,日本語については毎日新聞, EDRを用い,先ず,Reuters, 毎日新聞の各分野で頻出する単語を分野ごとに収集した.次に各分野に特有な語義を同定するため,分野ごとにグラフ構造を作成した.具体的には,辞書中の名詞語義をノードとし,ノード間のエッジの重みは各語を説明するgloss text 間の類似度とするグラフ構造を作成した.得られたグラフ構造に対してMarkov Random Walkモデルを適用し,各分野に頻出する語義を抽出する手法を提案した.現在,Markov Random Walkモデルで用いる固有値計算手法について,大規模疎行列に対応可能な計算手法を実装し,検証を行っている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度の当初計画は,1. 語義解消, 2. Markov Random Walk を用いた分野名の同定,3. WordNet,及びEDRを用いた実験と成果の公開である.このうち3の実験まで実施しているためおおむね順調であると考えられる.
|
Strategy for Future Research Activity |
引き続き実験・評価を実施すると同時に,分野語義に関する成果を論文としてまとめる.また次年度計画である局所・大域的特徴量の抽出を行う.具体的には,25年度に開発した分野語義辞書を用い,ある出来事に関する続報記事の訓練データから,話題語と背景語を抽出する.また各語について,時間推移による重み付け関数のモデル化を実施し,要約タスクへの適用を試みる.
|
Expenditure Plans for the Next FY Research Funding |
初年度計算機設備としてPC2台を購入する予定であったが、言語データ分析と手法の検討、ならびに固有値計算の実装に時間を要したため、1台のみ購入し実装・検証を行った. 初年度2台のうち購入を見送った残り1台は最終年度に購入し、大規模日本語、及び英語コーパスと辞書を用いた定量的な実験・評価のために使用する予定である.
|