研究実績の概要 |
本研究は、訓練文書と作成時期が異なるテスト文書を分類するために有効な語彙的意味処理技術と教師付き学習手法の開発した。具体的には, 作成時期にかかわらず、一貫して分野を特徴付ける語義と分野に依存して決まる語義を抽出する手法を提案し、テスト事例の単語数が少ないショートテキストをはじめとする分類が困難な事例の高精度な分類手法を提案した。具体的には、(1) 深層学習の一つであるConvolutional Neural Network(CNN)を用い、分野の階層構造を学習することにより、ショートテキストを高精度で分類する手法を提案した。情報がスパースであるために分類が困難な下位レベルの分野に属するショートテキストに対し階層構造が分野の粒度を表現しているという点に注目し、CNNにFine-tuning と呼ばれる技法を取り入れることにより上位レベルの豊富な情報を下位に転移する手法を提案した。(2) 単語の語義のうち, 分野に依存して決まる語義, 例えば スポーツ記事に出現したCourtはテニスコートの意味でよく用いられ, 法律分野で出現したCourtは裁判所の意味で用いられるという点に注目し, 分野依存語義タスクを補助的に用いることにより文書分類の精度の向上を目指す手法を提案した.ロイターを含む4種類のデータを用いた定量的な評価より、本手法がState-of-the-art手法であるXML-CNNを上回ることを確認した。
|