• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

Study on Improving Performance of Natural Language Processing by Integrating Collocation Extraction and Deep Learning

Research Project

Project/Area Number 19K20333
Research InstitutionUniversity of Tsukuba

Principal Investigator

若林 啓  筑波大学, 図書館情報メディア系, 准教授 (40631908)

Project Period (FY) 2019-04-01 – 2022-03-31
Keywords連語抽出 / 深層学習 / 隠れマルコフモデル / 対話システム / 文書要約 / クラウドソーシング / 能動学習 / 自然言語教示
Outline of Annual Research Achievements

(1) 連語抽出手法の改良を進めた.抽出すべき連語はドメインによって異なるため,訓練データを豊富に与えることが難しいという課題に対して,これまで遠距離教師あり学習や能動学習を連語抽出に適用する手法の提案を進めてきた.当該年度では,これらの手法の改良を進めたことに加えて,自然言語によって抽出すべき連語の特徴を教示することを可能にする自然言語教示手法や,クラウドソーシングで集めた回答を連語抽出に活用する手法の研究を進めた.これらの研究成果は,国際学術雑誌1本,国際会議録論文2本として公表した.
(2) 連語の考慮による自然言語処理アプリケーションの精度向上への影響の研究を進めた.深層学習に基づく文書要約手法において,自動抽出された連語を考慮するsemantic content generalization手法の改良を行い,国際会議録論文として公表した.提案手法は,条件によっては,要約元文書の単語を直接コピーする機能を持つpointer generator networkの精度をさらに向上させることができることが分かったが,その性質については更なる調査が必要である.今後,連語抽出手法で得られた成果との統合により,より効果的な手法を模索できると考えられる.また,対話システムの自然言語理解においても,連語の確率モデルを明示的に考慮する手法の開発を行い,特に訓練データが少量かつ不正確な時に,ロバストな性能を持つことを明らかにした.この成果については,現在国際会議に投稿中である.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

(1) 連語抽出手法の改良に関して,当初の計画に掲げていた言語資源の活用の研究は順調に進んでおり,成果が出ている.統計モデルの拡張による分割型連語抽出手法の改良に関しては,前年度に提案したサイレント隠れマルコフモデルを応用した連語抽出手法の提案に予定よりも時間がかかっているが,アルゴリズムの構築や実装は着実に進んでおり,翌年度に成果を報告できると考えている.構築中の手法は,分割型連語抽出手法のモデル構造パラメータの決定が難しいというこれまで課題に対応して,変分ベイズ推論に基づいて連語の前後関係に関するモデル構造をデータ駆動的に推定することを目指すものである.
(2) 連語を考慮した自然言語処理アプリケーションの精度向上に関しては,文書要約や対話システムを対象とした手法の提案および精度への影響の検証を行うことができている.より詳細な分析が必要と考えられる部分が残っているが,概ね順調に研究が進捗しているといえる.
(3) 連語抽出手法と深層学習手法の融合に関しては,ここ最近で急速に研究が進んでいる深層学習の最新の研究動向(ニューラル隠れマルコフモデルやBERT,変分オートエンコーダなど)を踏まえながら,アルゴリズムの検討および予備実験を進めている.これまでの研究成果に基づいて,最終年度の課題として取り組む準備が整っている状況である.

Strategy for Future Research Activity

サイレント隠れマルコフモデルを応用した連語抽出手法の研究について,早急にアルゴリズム構築および実験を進め,最終年度中に成果を論文としてまとめる計画である.さらに最終年度は,連語抽出手法と深層学習手法の融合に関する手法について重点的に研究を進める.これまでの検討や予備実験の結果等を踏まえて,深層学習モジュールの中で分割型連語抽出を行う手法の提案を目指す.現在は,サイレント隠れマルコフモデルに基づく分割型連語抽出モデルを変分分布のモデルとして援用し,変分オートエンコーダにおける期待値のモンテカルロ近似の枠組みを用いることで,深層学習モデルの訓練と同時に連語の推定も最適化する手法の提案を目指す計画である.
また,これまでに提案した連語抽出手法の改良および自然言語処理アプリケーションの精度向上の手法に関しては,不足している分析を補いつつ,成果を論文にまとめる作業を中心に行う予定である.

Causes of Carryover

新型コロナウイルスの影響で学会の現地開催が中止になっているため,計上していた旅費を使用しなかったことが主な理由である.これに代わり,オンラインで研究ミーティングを行うための機器およびサービスライセンスの購入や,クラウドソーシングによる評価データの増量を使途として使用しているが,若干の次年度使用が生じた.次年度使用分は,引き続きクラウドソーシングによる評価データの増量に活用する計画である.

  • Research Products

    (9 results)

All 2021 2020

All Journal Article (5 results) (of which Peer Reviewed: 5 results,  Open Access: 4 results) Presentation (4 results)

  • [Journal Article] Drifting and Popularity: A Study of Time Series Analysis of Topics2021

    • Author(s)
      Muhammad Haseeb UR Rehman Khan, Kei Wakabayashi
    • Journal Title

      Proceedings of the Seventh International Conference on Big Data, Small Data, Linked Data and Open Data

      Volume: - Pages: 16-22

    • Peer Reviewed
  • [Journal Article] Partial Annotation Scheme for Active Learning on Named Entity Recognition Tasks2020

    • Author(s)
      Koga Kobayashi, Kei Wakabayashi
    • Journal Title

      Journal of Data Intelligence

      Volume: 1 Pages: 319-332

    • DOI

      10.26421/JDI1.3-2

    • Peer Reviewed / Open Access
  • [Journal Article] Batch Prioritization of Data Labeling Tasks for Training Classifiers2020

    • Author(s)
      Masanori Kimura, Kei Wakabayashi, Atsuyuki Morishima
    • Journal Title

      Proceedings of the 8th AAAI Conference on Human Computation and Crowdsourcing

      Volume: - Pages: 163-167

    • Peer Reviewed / Open Access
  • [Journal Article] Effect of Semantic Content Generalization on Pointer Generator Network in Text Summarization2020

    • Author(s)
      Yixuan Wu, Kei Wakabayashi
    • Journal Title

      Proceedings of the 22nd International Conference on Information Integration and Web-based Applications & Services

      Volume: - Pages: 72-76

    • DOI

      10.1145/3428757.3429118

    • Peer Reviewed / Open Access
  • [Journal Article] Mitigating Effect of Dictionary Matching Errors in Distantly Supervised Named Entity Recognition2020

    • Author(s)
      Koga Kobayashi, Kei Wakabayashi
    • Journal Title

      Proceedings of the 22nd International Conference on Information Integration and Web-based Applications & Services

      Volume: - Pages: 111-114

    • DOI

      10.1145/3428757.3429142

    • Peer Reviewed / Open Access
  • [Presentation] 自然言語教示によるフレーズ抽出器の学習に関する研究2021

    • Author(s)
      齊藤 亮将, 小林 滉河, 若林 啓
    • Organizer
      第13回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] 能動学習による複合語を考慮した専門用語抽出2021

    • Author(s)
      小田倉 史麿, 小林 滉河, 若林 啓
    • Organizer
      第13回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] クラウドソーシングによる訓練データセット構築における最適な冗長度の検証2021

    • Author(s)
      清水 綾女, 若林 啓
    • Organizer
      第13回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] ゼロショット文書分類向けの情報源領域から学習データの選択手法2021

    • Author(s)
      大畑 直輝, 白井 匡人, 若林 啓, 劉 健全
    • Organizer
      第13回データ工学と情報マネジメントに関するフォーラム

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi