ニューラル言語モデルからの文法の抽出に関する研究

Research Project

Project/Area Number	20K19877
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	能地宏国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (00782541)
Project Period (FY)	2020-04-01 – 2022-03-31
Project Status	Discontinued (Fiscal Year 2021)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2021: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000) Fiscal Year 2020: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Keywords	自然言語処理 / 言語モデル / 構文解析 / RNNG / 計算言語学 / ニューラルネットワーク / 教師なし構文解析
Outline of Research at the Start	自然言語の各文は単語の横並びの系列としての側面を持つとともに、文法的な句同士の階層構造としての側面を併せ持つ。近年の深層学習により、特に前者の系列の側面を捉える技術が大きく進展した。深層学習は大規模なデータからの特徴抽出を得意とするが、その点前者は対象言語のあらゆるテキストをデータとして利用できるため、相性が良いと考えられる。本研究では、大規模データから学習した前者の高精度な単語の系列モデル（言語モデル）は後者の階層構造をある程度特徴として抽出しているという観察を礎に、その特徴をあぶり出すことによる文法の教師なし学習技術を確立することを目指す。
Outline of Annual Research Achievements	自然言語処理に対するニューラルネットワークに基づくモデルとして、LSTMやTransformerなどの言語を系列として扱うモデルの有用性が高く示されているものの、言語のもつ階層構造を陽にモデル化していないことから、言語モデルとしての限界も指摘されている。本研究の目的はもともと、言語のもつ統語構造の教師なし学習を可能とするモデルを構築することで、より正確な統語構造の認識を可能にする言語モデルを実現することであった。その結果、研究期間中には、最終的な教師なし学習までは実現することができなかったものの、統語構造を扱う言語モデルに対する新しい学習法、及び推論法の確立を行うことができ、本目的に対して非常に重要かつ大きな貢献を行うことができた。具体的に、本研究の一番の成果は、リカレントニューラルネットワークグラマー（RNNG）と呼ばれる、統語構造のニューラルネットワークに基づく生成モデルに対して、新しく非常に効率的な学習法を提案し、論文発表を行い、ソフトウェアの公開を行なった点である。既存の実装と比較して、学習時に6倍程度以上の高速化を実現することができた。この成果はRNNGモデルを様々な応用に適用する可能性を押し広げるものである。またより広く、構造を陽に扱うモデルに対してミニバッチの新しい構成法に基づく効率的な学習を行う指針を示したとも言える。このような点が評価され、本成果は第27回言語処理学会年次大会で最優秀賞を受賞した他、最難関国際会議のACLに論文が採択された。2年度は、RNNGに関する研究をさらに推し進め、RNNGが統語構造を正しく認識するために必要なモデルに与えるアノテーションの量について検討を行なった。その結果、既存の教師データの全ての統語構造を与えるのは、最適ではなく、長い依存構造を正確に捉えるために一部の構造のみを与えた方が逆に性能が向上する、という点を明らかにした。

Report

(2 results)

2021 Annual Research Report
2020 Research-status Report

Research Products
(9 results)

All 2021 2020 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (7 results) Remarks (1 results)

[Journal Article] Effective Batching for Recurrent Neural Network Grammars2021
- Author(s)
  Noji Hiroshi、Oseki Yohei
- Journal Title
  
  Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021
  
  Volume: 1 Pages: 4340-4352
- DOI
  10.18653/v1/2021.findings-acl.380
- Related Report
  2021 Annual Research Report
- Peer Reviewed / Open Access
[Presentation] 再帰的ニューラルネットワーク文法による人間の文処理のモデリング2021
- Author(s)
  吉田遼, 能地宏, 大関洋平
- Organizer
  言語処理学会第27回年次大会
- Related Report
  2021 Annual Research Report
[Presentation] 依存構造から句構造への変換による多言語モデリングに向けて2021
- Author(s)
  神藤駿介, 能地宏, 宮尾祐介
- Organizer
  言語処理学会第27回年次大会
- Related Report
  2021 Annual Research Report
[Presentation] Recurrent neural network grammar の並列化2021
- Author(s)
  能地宏, 大関洋平
- Organizer
  言語処理学会第27回年次大会
- Related Report
  2021 Annual Research Report
[Presentation] 再帰的ニューラルネットワーク文法による人間の文処理のモデリング2021
- Author(s)
  吉田遼, 能地宏, 大関洋平
- Organizer
  言語処理学会第27回年次大会
- Related Report
  2020 Research-status Report
[Presentation] 依存構造から句構造への変換による多言語モデリングに向けて2021
- Author(s)
  神藤駿介, 能地宏, 宮尾祐介
- Organizer
  言語処理学会第27回年次大会
- Related Report
  2020 Research-status Report
[Presentation] Recurrent neural network grammar の並列化2021
- Author(s)
  能地宏, 大関洋平
- Organizer
  言語処理学会第27回年次大会
- Related Report
  2020 Research-status Report
[Presentation] 再帰的ニューラルネットワーク文法によるヒト文処理のモデリング2020
- Author(s)
  吉田遼, 能地宏, 大関洋平
- Organizer
  日本言語学会
- Related Report
  2020 Research-status Report
[Remarks] rnng-pytorch
- URL
  https://github.com/aistairc/rnng-pytorch
- Related Report
  2021 Annual Research Report

ニューラル言語モデルからの文法の抽出に関する研究

Principal Investigator

能地 宏 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (00782541)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Report

Research Products

[Journal Article] Effective Batching for Recurrent Neural Network Grammars2021

Author(s)

Journal Title

DOI

Related Report

[Presentation] 再帰的ニューラルネットワーク文法による人間の文処理のモデリング2021

Author(s)

Organizer

Related Report

[Presentation] 依存構造から句構造への変換による多言語モデリングに向けて2021

Author(s)

Organizer

Related Report

[Presentation] Recurrent neural network grammar の並列化2021

Author(s)

Organizer

Related Report

[Presentation] 再帰的ニューラルネットワーク文法による人間の文処理のモデリング2021

Author(s)

Organizer

Related Report

[Presentation] 依存構造から句構造への変換による多言語モデリングに向けて2021

Author(s)

Organizer

Related Report

[Presentation] Recurrent neural network grammar の並列化2021

Author(s)

Organizer

Related Report

[Presentation] 再帰的ニューラルネットワーク文法によるヒト文処理のモデリング2020

Author(s)

Organizer

Related Report

[Remarks] rnng-pytorch

URL

Related Report

能地宏国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (00782541)