2019 Fiscal Year Research-status Report
Learning Timeline Difference for Text Categorization based on Global Features of Word Senses and Category Modification
Project/Area Number |
17K00299
|
Research Institution | University of Yamanashi |
Principal Investigator |
福本 文代 山梨大学, 大学院総合研究部, 教授 (60262648)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | CNNs / 転移学習 / 分野の階層構造 / マルチタスク学習 / 分野依存語義 |
Outline of Annual Research Achievements |
本研究は、訓練文書と作成時期が異なるテスト文書を分類するために有効な語彙的意味処理技術と教師付き学習手法の開発した。具体的には, 作成時期にかかわらず、一貫して分野を特徴付ける語義と分野に依存して決まる語義を抽出する手法を提案し、テスト事例の単語数が少ないショートテキストをはじめとする分類が困難な事例の高精度な分類手法を提案した。具体的には、(1) 深層学習の一つであるConvolutional Neural Network(CNN)を用い、分野の階層構造を学習することにより、ショートテキストを高精度で分類する手法を提案した。情報がスパースであるために分類が困難な下位レベルの分野に属するショートテキストに対し階層構造が分野の粒度を表現しているという点に注目し、CNNにFine-tuning と呼ばれる技法を取り入れることにより上位レベルの豊富な情報を下位に転移する手法を提案した。(2) 単語の語義のうち, 分野に依存して決まる語義, 例えば スポーツ記事に出現したCourtはテニスコートの意味でよく用いられ, 法律分野で出現したCourtは裁判所の意味で用いられるという点に注目し, 分野依存語義タスクを補助的に用いることにより文書分類の精度の向上を目指す手法を提案した.ロイターを含む4種類のデータを用いた定量的な評価より、本手法がState-of-the-art手法であるXML-CNNを上回ることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
提案手法の実験結果まで得られているが、成果の公開がまだなされていない。今後、検討している国際学会への投稿、及び成果の公開を行う予定である。
|
Strategy for Future Research Activity |
本手法の有効性を検証するため、他タスク、具体的にはパラフレーズ同定タスクに適用する予定である。
|
Causes of Carryover |
研究成果の公開について、検討している国際学会が次年度に連続して開催予定であるため、この会議への投稿、及び成果の公開をめざす。現在、提案した手法の汎用性を検証するため他タスクとしてパラフレーズ認識タスクに適用、論文としてまとめ投稿中である。また、語義タスクについても論文を今後国際学科へ投稿予定である。これらの印刷費用、及び学会参加旅費として次年度に計上する。
|
Remarks |
http://cl.cs.yamanashi.ac.jp/thesis_e.html
|