2020 Fiscal Year Research-status Report
Study on Improving Performance of Natural Language Processing by Integrating Collocation Extraction and Deep Learning
Project/Area Number |
19K20333
|
Research Institution | University of Tsukuba |
Principal Investigator |
若林 啓 筑波大学, 図書館情報メディア系, 准教授 (40631908)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 連語抽出 / 深層学習 / 隠れマルコフモデル / 対話システム / 文書要約 / クラウドソーシング / 能動学習 / 自然言語教示 |
Outline of Annual Research Achievements |
(1) 連語抽出手法の改良を進めた.抽出すべき連語はドメインによって異なるため,訓練データを豊富に与えることが難しいという課題に対して,これまで遠距離教師あり学習や能動学習を連語抽出に適用する手法の提案を進めてきた.当該年度では,これらの手法の改良を進めたことに加えて,自然言語によって抽出すべき連語の特徴を教示することを可能にする自然言語教示手法や,クラウドソーシングで集めた回答を連語抽出に活用する手法の研究を進めた.これらの研究成果は,国際学術雑誌1本,国際会議録論文2本として公表した. (2) 連語の考慮による自然言語処理アプリケーションの精度向上への影響の研究を進めた.深層学習に基づく文書要約手法において,自動抽出された連語を考慮するsemantic content generalization手法の改良を行い,国際会議録論文として公表した.提案手法は,条件によっては,要約元文書の単語を直接コピーする機能を持つpointer generator networkの精度をさらに向上させることができることが分かったが,その性質については更なる調査が必要である.今後,連語抽出手法で得られた成果との統合により,より効果的な手法を模索できると考えられる.また,対話システムの自然言語理解においても,連語の確率モデルを明示的に考慮する手法の開発を行い,特に訓練データが少量かつ不正確な時に,ロバストな性能を持つことを明らかにした.この成果については,現在国際会議に投稿中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1) 連語抽出手法の改良に関して,当初の計画に掲げていた言語資源の活用の研究は順調に進んでおり,成果が出ている.統計モデルの拡張による分割型連語抽出手法の改良に関しては,前年度に提案したサイレント隠れマルコフモデルを応用した連語抽出手法の提案に予定よりも時間がかかっているが,アルゴリズムの構築や実装は着実に進んでおり,翌年度に成果を報告できると考えている.構築中の手法は,分割型連語抽出手法のモデル構造パラメータの決定が難しいというこれまで課題に対応して,変分ベイズ推論に基づいて連語の前後関係に関するモデル構造をデータ駆動的に推定することを目指すものである. (2) 連語を考慮した自然言語処理アプリケーションの精度向上に関しては,文書要約や対話システムを対象とした手法の提案および精度への影響の検証を行うことができている.より詳細な分析が必要と考えられる部分が残っているが,概ね順調に研究が進捗しているといえる. (3) 連語抽出手法と深層学習手法の融合に関しては,ここ最近で急速に研究が進んでいる深層学習の最新の研究動向(ニューラル隠れマルコフモデルやBERT,変分オートエンコーダなど)を踏まえながら,アルゴリズムの検討および予備実験を進めている.これまでの研究成果に基づいて,最終年度の課題として取り組む準備が整っている状況である.
|
Strategy for Future Research Activity |
サイレント隠れマルコフモデルを応用した連語抽出手法の研究について,早急にアルゴリズム構築および実験を進め,最終年度中に成果を論文としてまとめる計画である.さらに最終年度は,連語抽出手法と深層学習手法の融合に関する手法について重点的に研究を進める.これまでの検討や予備実験の結果等を踏まえて,深層学習モジュールの中で分割型連語抽出を行う手法の提案を目指す.現在は,サイレント隠れマルコフモデルに基づく分割型連語抽出モデルを変分分布のモデルとして援用し,変分オートエンコーダにおける期待値のモンテカルロ近似の枠組みを用いることで,深層学習モデルの訓練と同時に連語の推定も最適化する手法の提案を目指す計画である. また,これまでに提案した連語抽出手法の改良および自然言語処理アプリケーションの精度向上の手法に関しては,不足している分析を補いつつ,成果を論文にまとめる作業を中心に行う予定である.
|
Causes of Carryover |
新型コロナウイルスの影響で学会の現地開催が中止になっているため,計上していた旅費を使用しなかったことが主な理由である.これに代わり,オンラインで研究ミーティングを行うための機器およびサービスライセンスの購入や,クラウドソーシングによる評価データの増量を使途として使用しているが,若干の次年度使用が生じた.次年度使用分は,引き続きクラウドソーシングによる評価データの増量に活用する計画である.
|