2015 Fiscal Year Annual Research Report
時系列文書を対象とした語義に関する局所・大域的特徴量の抽出と続報記事判定への適用
Project/Area Number |
25330255
|
Research Institution | University of Yamanashi |
Principal Investigator |
福本 文代 山梨大学, 総合研究部, 教授 (60262648)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 分野語義辞書 / 転移学習 / 素性選択 / 文書分類 / 続報記事抽出 |
Outline of Annual Research Achievements |
本研究は,長期間に渡る時系列文書データを対象とした検索に有効な語彙的意味処理技術の開発を目的とする.具体的には,(1) 分野語義辞書を開発し,(2) 時系列モデルに基づき語義の局所・大域特徴量を抽出することにより,意味に基づく時系列データ処理を実施した.またこれらを用いることで,訓練データと作成時期が異なるテストデータを高精度で分類することが可能となることを示す. 分野語義辞書は,分野ラベル付きコーパスとしてReuters’96, 及び毎日新聞96, 97年を用い,各分野ごとに名詞単語を抽出した.次に辞書としてWordNet, EDRを用い,各分野ごとに,名詞の各語義をノード,語義同士の類似度をエッジとするグラフを作成し,固有値計算を用いることで,語義のスコアリングを行うことで,各分野の主要語義を求める手法を提案した.訓練データと作成時期が異なるテストデータの分類については,局所・大域的特長量(素性)を抽出した後,これらを用い, TrAdaBoostを適用することで分類器を作成,テストデータを分類する手法を提案した.TrAdaBoostは転移学習の一つであり,訓練データとは異なる分野のテスト事例を分類するために考案された手法である.本研究はこれを時系列データに適用することにより分類を行った.
|
Research Products
(6 results)