2021 Fiscal Year Research-status Report
Study on Improving Performance of Natural Language Processing by Integrating Collocation Extraction and Deep Learning
Project/Area Number |
19K20333
|
Research Institution | University of Tsukuba |
Principal Investigator |
若林 啓 筑波大学, 図書館情報メディア系, 准教授 (40631908)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 連語抽出 / 深層学習 / 隠れマルコフモデル / 対話システム / 文書要約 / クラウドソーシング / 能動学習 / 自然言語教示 |
Outline of Annual Research Achievements |
(1) 連語抽出手法の高度化に関する研究を進めた.抽出すべき連語はドメインによって異なるため,訓練データを豊富に与えることが難しい.これまで,この課題に対して,既存辞書の知識を利用した遠距離教師あり学習や,専門家によるフィードバックを反映してモデルを更新する能動学習,自然言語によって抽出すべき連語の特徴を教示することを可能にする自然言語教示,複数の作業者の回答を集約するクラウドソーシング技術を,それぞれ連語抽出に適用する手法の提案を進めてきた.当該年度では,これまでに構築した手法の評価実験を進めるとともに,これらの研究成果を国際会議録論文3編にまとめて報告した. (2) 連語の考慮による自然言語処理アプリケーションの精度向上に関する研究を進めた.これまでに,深層学習に基づく文書要約手法において,自動抽出された連語を考慮するsemantic content generalization手法の改良を行い,有効性の検証を行なった.当該年度は特に,対話システムの自然言語理解タスクにおいて,連語の確率モデルを明示的に考慮する手法の開発を行った.提案手法は,ユーザの発話の中でシステムに直接与えたい情報を表す部分だけでなく,その周辺の特徴的な連語表現の確率を明示的にモデル化することで,言語理解タスクを発話全体の最も尤もらしい分割を決定する問題に帰着させる.この方式により,提案手法は特に訓練データが少量かつ不正確な時にも精度の低下を抑えることができ,頑健な性能を持つことを明らかにした.この成果を国際会議録論文1編にまとめて報告した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1) 連語抽出手法の改良に関して,当初の計画に掲げていた言語資源に代表される追加知識の活用の研究は順調に進行し,計画以上の成果を達成している.統計モデルの拡張による分割型連語抽出手法の改良に関しては,前年度までに提案したサイレント隠れマルコフモデルを応用した連語抽出手法の構築に予定よりも時間がかかっている.構築中の手法は,分割型連語抽出手法のモデル構造パラメータの決定が難しいというこれまで課題に対応して,変分ベイズ推論に基づいて連語の前後関係に関するモデル構造をデータ駆動的に推定することを目指すものである.変分ベイズ推論のアルゴリズム構築と実装は一通り完了したものの,評価実験において予想していた性能が出ず,原因の解明を行なっているところである. (2) 連語を考慮した自然言語処理アプリケーションの精度向上に関しては,文書要約や対話システムを対象とした手法の提案および精度への影響の検証を行うことができている.一部の成果報告の作業が残っているものの,概ね計画は遂行完了しているといえる. (3) 連語抽出手法と深層学習手法の融合に関しては,後段タスクの精度向上に寄与するような連語の抽出を動的に行う手法の構築を行なった.提案手法は,後段タスクのモデルの最適化と,単語列の一部を連語として切り出すモデルの最適化を,統一された枠組みの中で同時に行う.これまでに行なった実験の結果から,後段タスクに依存した連語の抽出が可能になっていることが示されたが,後段タスクの精度自体は従来手法と大きく変化しないことが明らかになった.この成果は国内会議録論文として,2022年度人工知能学会全国大会で発表することが決まっている.この課題は当初の計画において最も挑戦的と位置付けていたものであり,計画としては概ね順調に進展しているといえる.
|
Strategy for Future Research Activity |
次年度は,サイレント隠れマルコフモデルを応用した連語抽出手法について,評価実験をより精緻に進め,成果を論文としてまとめる計画である.提案手法の狙いである,分割型連語抽出手法のモデル構造パラメータの決定が難しいという問題に対する効果の検証が現時点では不十分であり,データ駆動的な推定の結果得られるモデル構造の性質や,その連語抽出の性能における効果を評価する. また,連語抽出手法と深層学習手法の融合に関する手法について,さらに分析を加えて国際会議での発表を目指す.特に,適切な連語の抽出ができているにも関わらず,後段タスクの精度の向上が限定的である点について,考察を深める必要がある.再帰型ニューラルネットワークなどの近年の深層学習モデルは,単語やサブワードなどのより細かいトークン列の情報から内部的に連語の特徴を十分に抽出できていることを示唆する既存研究もあり,関連について調査する予定である.
|
Causes of Carryover |
新型コロナウイルスの影響で学会の現地開催が中止になっているため,計上していた旅費を使用しなかったことが主な理由である.これに代わり,故障したPCの代替機の購入,オンラインで研究ミーティングを行うためのサービスのライセンスや機器の購入,クラウドソーシングによる評価データの増量を使途として使用しているが,若干の次年度使用額が生じた.次年度使用分は,成果発表に係る論文掲載費や,クラウドソーシングによる評価データの増量に活用する計画である.
|