2022 年度実績報告書

計算知と人知の融合による汎用言語理解基盤の構築

研究課題

研究課題/領域番号	21H04901
研究機関	早稲田大学
研究代表者	河原大輔早稲田大学, 理工学術院, 教授 (10450694)
研究分担者	鈴木潤東北大学, データ駆動科学・AI教育研究センター, 教授 (80396150) 笹野遼平名古屋大学, 情報学研究科, 准教授 (70603918)
研究期間 (年度)	2021-04-05 – 2025-03-31
キーワード	言語理解 / 転移学習 / 言語知識 / 説明性 / 深層学習
研究実績の概要	2022年度は以下の4つの研究項目について研究を行った。「人知のデザイン、構築」(研究項目1)および「計算知のデザイン、構築」(研究項目2)では、Transformerに基づく計算知に対して、人知の一つである辞書を融合する手法を考案し、形態素解析タスクに適用した。この手法は、入力文の各文字が辞書にマッチしたかどうかを埋め込みベクトルとして学習し、入力に足し合わせる。実験により、辞書の種類によっては精度が向上することを確認した。また、2021年度から継続的に構築していた日本語RoBERTaモデルのlargeサイズを公開した。「人に近い文章理解の実現に向けた計算知・人知融合モデルの構築」(研究項目3)では、事前学習済み言語モデルを、自然言語推論(NLI)データを用いてfine-tuningすることで得られた文ベクトルと、国語辞典の定義文を用いてfine-tuningすることで得られた文ベクトルを比較し、後者の方が表層的に類似していない文ペアの意味的関係性の認識に強いなど、両者の性質に違いがあることを明らかにした。また、両者を統合することで文ベクトルの性能向上が可能なことを示した。「計算知・人知融合モデルの処理過程の説明方式の確立」(研究項目4)では、巨大言語モデルに適切な例題を提示することで、思考連鎖(Chain-of-Thought)の能力で問題を解決できる可能性があることが先行研究にて示されていることに着目した。この思考連鎖の能力についてより深い検証を行い、特に否定的な意味合いを持つ単語を使うと、思考連鎖が機能しなくなるという現象をつきとめた。また、この過程で言語モデルの推論過程を適切に調査するための方法論を考案した。これ以外にもニューラルネットワークの説明性の評価基準である忠実性評価に関して現状を網羅的に調査し、言語処理タスクにおける忠実性評価の指針を示した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由計画のとおり、4つの研究項目について成果を出すことができているため、おおむね順調に進展していると評価した。2021年度に行う予定であった計算知の構築の一部は、計算資源の都合により2022年度初頭に行ったが、それによる影響はなかった。
今後の研究の推進方策	「人知のデザイン、構築」(研究項目1)は各項目からのフィードバックを受け、完成を目指す。「計算知のデザイン、構築」(研究項目2)、「人に近い文章理解の実現に向けた計算知・人知融合モデルの構築」(研究項目3)、「計算知・人知融合モデルの処理過程の説明方式の確立」(研究項目4)については、2022年度に引き続き研究を進めつつ、研究項目間のフィードバック・連携を強める。

研究成果
(13件)

すべて 2023 2022 その他

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (11件) (うち国際学会 2件) 備考 (1件)

[雑誌論文] 定義文を用いた文埋め込み構成法2023
- 著者名/発表者名
  塚越駿, 笹野遼平, 武田浩一
- 雑誌名
  
  自然言語処理
  
  巻: 30 ページ: 125～155
- DOI
  10.5715/jnlp.30.125
- 査読あり / オープンアクセス
[学会発表] 日本語WiCデータセットの構築と読みづらさ検出への応用2023
- 著者名/発表者名
  吉田あいり, 河原大輔
- 学会等名
  言語処理学会第29回年次大会
[学会発表] 機械学習を用いた川柳の面白さの予測2023
- 著者名/発表者名
  太田聖三郎, 河原大輔, 野村理朗
- 学会等名
  言語処理学会第29回年次大会
[学会発表] 言語モデルを用いた漢文の返り点付与と書き下し文生成2023
- 著者名/発表者名
  王昊, 清水博文, 河原大輔
- 学会等名
  言語処理学会第29回年次大会
[学会発表] 事前学習モデルに基づく日本語形態素解析器における辞書の利用2023
- 著者名/発表者名
  田村稔行, 河原大輔
- 学会等名
  言語処理学会第29回年次大会
[学会発表] 理論言語学の知見を応用した多言語クラスタリング2023
- 著者名/発表者名
  今井咲良, 河原大輔, 折田奈甫, 小田博宗
- 学会等名
  言語処理学会第29回年次大会
[学会発表] 日本語の分類タスクにおけるカリキュラム学習とマルチタスク学習の効果検証2023
- 著者名/発表者名
  植松拓也, 河原大輔
- 学会等名
  言語処理学会第29回年次大会
[学会発表] 日本語BigBirdの構築2023
- 著者名/発表者名
  近藤瑞希, 王昊, 井手竜也, 伊藤俊太朗, Ritvik Choudhary, 栗原健太郎, 河原大輔
- 学会等名
  言語処理学会第29回年次大会併設ワークショップ日本語言語資源の構築と利用性の向上(JLR2023)
[学会発表] 思考連鎖指示における大規模言語モデルの否定表現理解2023
- 著者名/発表者名
  葉夢宇, 栗林樹生, 舟山弘晃, 鈴木潤
- 学会等名
  言語処理学会第29回年次大会
[学会発表] XAIにおける忠実性評価手法の考察2023
- 著者名/発表者名
  牧野雅紘, 浅妻佑弥, 佐々木翔大, 鈴木潤
- 学会等名
  言語処理学会第29回年次大会
[学会発表] Automating Interlingual Homograph Recognition with Parallel Sentences2022
- 著者名/発表者名
  Yi Han, Ryohei Sasano, Koichi Takeda
- 学会等名
  Findings of the Association for Computational Linguistics: AACL-IJCNLP 2022
- 国際学会
[学会発表] Comparison and Combination of Sentence Embeddings Derived from Different Supervision Signals2022
- 著者名/発表者名
  Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda
- 学会等名
  the 11th Joint Conference on Lexical and Computational Semantics (*SEM 2022)
- 国際学会
[備考] 日本語RoBERTa large
- URL
  https://huggingface.co/nlp-waseda/roberta-large-japanese

2022 年度 実績報告書

計算知と人知の融合による汎用言語理解基盤の構築

研究代表者

河原 大輔 早稲田大学, 理工学術院, 教授 (10450694)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 定義文を用いた文埋め込み構成法2023

著者名/発表者名

雑誌名

DOI

[学会発表] 日本語WiCデータセットの構築と読みづらさ検出への応用2023

著者名/発表者名

学会等名

[学会発表] 機械学習を用いた川柳の面白さの予測2023

著者名/発表者名

学会等名

[学会発表] 言語モデルを用いた漢文の返り点付与と書き下し文生成2023

著者名/発表者名

学会等名

[学会発表] 事前学習モデルに基づく日本語形態素解析器における辞書の利用2023

著者名/発表者名

学会等名

[学会発表] 理論言語学の知見を応用した多言語クラスタリング2023

著者名/発表者名

学会等名

[学会発表] 日本語の分類タスクにおけるカリキュラム学習とマルチタスク学習の効果検証2023

著者名/発表者名

学会等名

[学会発表] 日本語BigBirdの構築2023

著者名/発表者名

学会等名

[学会発表] 思考連鎖指示における大規模言語モデルの否定表現理解2023

著者名/発表者名

学会等名

[学会発表] XAIにおける忠実性評価手法の考察2023

著者名/発表者名

学会等名

[学会発表] Automating Interlingual Homograph Recognition with Parallel Sentences2022

著者名/発表者名

学会等名

[学会発表] Comparison and Combination of Sentence Embeddings Derived from Different Supervision Signals2022

著者名/発表者名

学会等名

[備考] 日本語RoBERTa large

URL

2022 年度実績報告書

河原大輔早稲田大学, 理工学術院, 教授 (10450694)