2017 Fiscal Year Research-status Report
Learning Timeline Difference for Text Categorization based on Global Features of Word Senses and Category Modification
Project/Area Number |
17K00299
|
Research Institution | University of Yamanashi |
Principal Investigator |
福本 文代 山梨大学, 大学院総合研究部, 教授 (60262648)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 分野語義 / 文書分類 / 深層学習 / ヒトの修正過程 |
Outline of Annual Research Achievements |
本研究は,訓練文書と作成時期が異なるテスト文書を分類するために有効な語彙的意味処理技術と教師付き学習手法を開発することを目的とする.具体的には,(1) 作成時期にかかわらず,一貫して分野を特徴付ける語義を抽出する手法を提案し,(2) 分類誤りに対するヒトの修正過程を学習に取り入れることにより,分類が困難なテスト事例の高精度な分類を目指す.本研究は,既存の正解ラベル付き訓練文書を最大限活用することにより新規のテスト文書を分類するため,教師付き学習の本質的な問題である正解ラベル付与に伴う労力の大幅な削減に貢献できる.同時に,情報検索における前処理や膨大な知識の管理基盤,及び各種分類問題のコア技術として産業界における様々な分野での利用が期待できる.平成29年度の実施内容は、分野語義データベースの開発であり,具体的には、語義解消と分野語義データベースの構築,実験と成果の公開である.分野語義については,局所的な情報として,統計手法により類似対訳文書を抽出し,対訳文書から対訳語を抽出する手法を提案した.また大域的な情報として,Word Mover Distance (MWD)により語義文同士の類似度を求め,各分野ごとにPageRank を適用することにより分野語義を抽出する手法を提案した.さらにこれら局所的な情報と大域的な情報を統合することにより,対訳語義を抽出する手法を提案した.これらを研究報告として論文 (KEOD),及びSpringer にまとめた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成29年度の実施内容は、分野語義データベースの開発であり,具体的には、語義解消と分野語義データベースの構築,実験と成果の公開である.分野語義については,局所的な情報として,統計手法により類似対訳文書を抽出し,対訳文書から対訳語を抽出する手法を提案した.また大域的な情報として,Word Mover Distance (MWD)により語義文同士の類似度を求め,各分野ごとにPageRank を適用することにより分野語義を抽出する手法を提案した.さらにこれら局所的な情報と大域的な情報を統合することにより,対訳語義を抽出する手法を提案した.
|
Strategy for Future Research Activity |
平成30年度は,大域的な分野依存語義の抽出と分類誤りに対する修正過程のモデル化を実施する.具体的には,大域的な分野依存語義に関しては,分野ごと,年度ごとにWord2Vecを用いることにより意味的に類似した語義を抽出する.任意の分野において,作成時期が異なる訓練文書の両方に出現する語義は,作成時期にかかわらず一貫してその分野を特徴づけているため,各分野ごとにこれらの語義を抽出する.分野誤りに対する修正過程のモデル化については,クラウドソーシングを利用することにより正解分野が付与されるまでの分野名の履歴を蓄積する.履歴における分野から分野への遷移確率を求め,確率値に応じた重みを算出する.
|
Causes of Carryover |
当初購入予定であった深層学習用ワークステーションTAITAN Vの出荷が遅れ,平成29年度中の発注が難しかったため,本年度に購入する予定である.旅費に関しては,上記計算機購入の関係で,大規模実験が実施できなかったため,平成30年度に論文を投稿した後,使用する予定である.
|
Remarks |
http://cl.cs.yamanashi.ac.jp/
|