研究実績の概要 |
本研究は,長期間に渡る時系列文書データを対象とした検索に有効な語彙的意味処理技術の開発を目的とする.具体的には,(1) 分野語義辞書を開発し,(2) 時系列モデルに基づき語義の局所・大域特徴量を抽出することにより,意味に基づく時系列データ処理を実施した.またこれらを用いることで,訓練データと作成時期が異なるテストデータを高精度で分類することが可能となることを示す. 分野語義辞書は,分野ラベル付きコーパスとしてReuters’96, 及び毎日新聞96, 97年を用い,各分野ごとに名詞単語を抽出した.次に辞書としてWordNet, EDRを用い,各分野ごとに,名詞の各語義をノード,語義同士の類似度をエッジとするグラフを作成し,固有値計算を用いることで,語義のスコアリングを行うことで,各分野の主要語義を求める手法を提案した.訓練データと作成時期が異なるテストデータの分類については,局所・大域的特長量(素性)を抽出した後,これらを用い, TrAdaBoostを適用することで分類器を作成,テストデータを分類する手法を提案した.TrAdaBoostは転移学習の一つであり,訓練データとは異なる分野のテスト事例を分類するために考案された手法である.本研究はこれを時系列データに適用することにより分類を行った.
|