研究課題/領域番号 |
19K20333
|
研究機関 | 筑波大学 |
研究代表者 |
若林 啓 筑波大学, 図書館情報メディア系, 准教授 (40631908)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 連語抽出 / 深層学習 / 隠れマルコフモデル / 自然言語処理 / 文書要約 / 遠距離教師あり学習 / 能動学習 |
研究実績の概要 |
これまで取り組んできた分割型連語抽出手法で用いる統計モデルの改良を進めた.これまでのモデルのベースとなっている階層型隠れマルコフモデルは,系列分割を行うための階層構造が固定的であり,データに合わせて柔軟に構造を変えることができないため,外部知識や外部モデルとの連携が困難であった.当該年度は,階層型隠れマルコフモデルよりも表現能力が高く,かつ柔軟な構造を持つサイレント隠れマルコフモデルを提案し,その理論と推論アルゴリズムを構築した.サイレント隠れマルコフモデルにおける系列分割は,サイレント状態(観測値を出力しない内部状態)を潜在的に経由している箇所の推定に基づいて行われる.このモデルは数学的にもシンプルで拡張性が高いことから,連語の手がかりとなる外部知識を用いた半教師あり学習手法や,深層学習との同時学習手法など,これまで難しかった拡張を行う上で有効な基盤となることが期待される. また,連語の考慮による自然言語処理アプリケーションの精度向上の影響の研究を進めた.当該年度は,深層学習に基づく文書要約手法において,自動抽出された連語を考慮するsemantic content generalizationと呼ばれる手法の効果を検証し,特定の種類の連語を用いた場合に精度が向上することを明らかにした. 並行して,連語抽出モデルの学習において,外部知識を活用して抽出精度を向上させる手法の開発を進めた.連語の手がかりとなる言語資源に基づいてコーパスに部分的なアノテーションを付与し,それを共学習手法によって拡張することで,未知の連語を抽出する遠距離教師あり学習手法を提案した.また,能動学習によって人からのフィードバックを得ながら学習する連語抽出手法を提案した.これらの手法は,大量の教師データを明示的に用意することが難しい連語抽出において有効なアプローチであることが示唆される.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
連語抽出手法の改良に関して,当初の計画に掲げていた言語資源の活用や,統計モデルの拡張の研究が順調に進んでおり,成果が出てきている.連語を考慮した深層学習手法の改良については,連語を考慮した深層学習手法を検討し,文書要約の精度向上への効果を確認できたことから,一定の進捗を得ている. ここ最近で急速に研究が進んだBERTなどの文章埋め込み手法が,連語の特徴も考慮できている可能性が指摘されており,連語特徴量抽出手法に関する部分については当初予定していた計画の変更を余儀なくされた.この対応として,提案アプローチが依然有効なトピックモデリングや対話システムなどのアプリケーションの検討を進めている.
|
今後の研究の推進方策 |
連語抽出手法の改良については,当該年度に構築したサイレント隠れマルコフモデルに基づいて,言語資源を活用した分割型連語抽出手法の構築を進める.具体的には,推論アルゴリズムの半教師あり学習への対応や,ノンパラメトリックベイズモデリングに基づくデータ駆動的な構造パラメータの推定手法の構築を検討する.また,近年提案されたニューラル隠れマルコフモデルの枠組みを援用して,連語抽出手法と深層学習を融合したモデルの構築を目指す. 連語を考慮した深層学習手法の改良については,BERTなどの文章埋め込み手法に対する位置付けを再検討しながら研究を進める.BERTなどの文章埋め込み手法は実数ベクトル空間上の変換の中で連語の特徴抽出を行うのに対して,本研究のアプローチは連語をシンボリックに扱う点で本質的に異なっている.このアプローチは,キーワードや文章を直接出力するアプリケーションであるトピックモデリングや対話システム,文書要約において,出力を連語単位で行うことができる長所がある.この長所を活かした文章生成手法であるsemantic content generalization手法を拡張して,本研究のアプローチの有効性を検証する計画である.
|
次年度使用額が生じた理由 |
当初計画ではサーバおよびGPUの購入を予定していたが,中止した.これは,(1)ここ最近で急速に研究が進んでいるBERTなどの文章埋め込みの研究動向を調査する必要があると判断し,国際会議参加のための旅費に回したこと,(2)当初は研究計画の遂行において計算資源の不足がボトルネックになると考えていたが,最新の深層学習手法等の実装にかかる人的リソースの不足が問題であることが明らかになったため,実装のための人件費に回したこと,の2つが理由である.この計画変更に加えて,新型コロナウイルスの影響で年度末の学会の現地開催が中止になり,計上していた旅費を使用しなかったため,次年度使用が生じた. 次年度使用分は,主に成果発表のための旅費として使用する予定である.もし新型コロナウイルスの影響が長引いて学会の現地開催の中止が続く場合は,実験の完全性の向上のため当初計画通りサーバおよびGPUを購入する.
|