研究課題/領域番号 |
20K19868
|
研究機関 | 東京大学 |
研究代表者 |
谷中 瞳 東京大学, 大学院情報理工学系研究科, 講師 (10854581)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 自然言語処理 / 自然言語推論 / 事前訓練済み言語モデル / 構成性原理 / 人工知能 / 汎化性能 |
研究実績の概要 |
文の意味を計算処理可能な形式で表し、文と文との意味的関係を判定する含意関係認識技術の実現は、計算機による人間らしい言語理解の実現に向けて解決すべき最重要課題である。近年、深層ニューラルネット(DNN)を用いた含意関係認識の研究が盛んに行われているが、文の構成的な意味におけるDNNの表現力は明らかではなく、未知のデータに対する頑健性が不透明である。本研究では、DNNの文の構成的な意味における表現力を明らかにするとともに、表現力の改善を目指す。 本年度は、【研究課題1】文の構成性原理に基づく言語モデルの評価システムの開発と【研究課題2】データ拡張と学習アルゴリズムの改良による構成的言語モデルの開発について、主に次の2つの成果を得た。 研究成果1. DNNが日本語の構成的な意味を理解しているか評価する含意関係・類似度ベンチマークJSICKの開発 前年度までは英語を中心にDNNの推論の体系性を分析する手法を開発してきたが、英語以外の言語を含めてDNNの言語理解能力を分析する手法が求められている。そこで、英語の語彙的、統語的、意味的な言語現象の構成的な組み合わせの理解を必要とする含意関係・類似度ベンチマークSICKを人手で日本語に翻訳し、さらに日本語の特性を考慮して語順や助詞を入れ替えた問題を追加した日本語の含意関係・類似度ベンチマークJSICKを構築し、一般公開した。JSICKを用いた分析によって、現在の汎用言語モデルは日本語の助詞の扱いに課題があるが、データ拡張によって改善する可能性が示唆された。 研究成果2. 日本語の時間的順序を考慮した論理推論システムの構築 形式意味論の知見に基づいて日本語文の意味を構成的に表し、時間的順序に特化した推論システムを構築した。構築したシステムは現在のDNNを用いた推論システムよりも高い精度で時間的順序に関する含意関係認識が行えることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は、【研究課題1】文の構成性原理に基づく言語モデルの評価システムの開発と【研究課題2】データ拡張と学習アルゴリズムの改良による構成的言語モデルの開発について上述の研究成果1, 2が得られた。 研究成果1は自然言語処理のトップジャーナル論文誌であるTransactions of the Association for Computational Linguistics (TACL)に採択された。 研究成果2は自然言語処理のトップ査読つき国際会議ACL2022 Student Sessionに採択された。 また、これまでの成果に関連して1本の国際ワークショップ、4件の国内会議、5件の招待講演を行っており、これらの研究成果は大きな成果であると考えられる。
|
今後の研究の推進方策 |
【研究課題1】文の構成性原理に基づく言語モデルの評価システムの開発については、日本語を対象として言語モデルの構成性に関する言語理解能力に関してさらなる分析を進める。日本語特有の言語現象として敬語を対象として、現在の汎用言語モデルが様々な統語構造からなる敬語文をどの程度構成的に表現できているのか分析を行う。 【研究課題2】データ拡張と学習アルゴリズムの改良による構成的言語モデルの開発については、これまでの研究成果でデータ拡張によってある程度構成的な意味を考慮した推論の精度改善が見られた点について、どういう形式のデータを入力として与えたときに精度改善の度合いが大きくなるのか、その可能性と限界についてさらなる調査を行う。
|
次年度使用額が生じた理由 |
2021年度に続き2022年度も新型コロナの影響により、国際学会・国内学会の多くがオンライン開催となり、旅費が計画よりも使われなかった。2023年度は国際学会・国内学会の多くが対面開催が予定されているため、計画通り旅費を支出できる見込みである。
|