計算知と人知の融合による汎用言語理解基盤の構築

研究課題

研究課題/領域番号	21H04901
研究種目	基盤研究(A)
配分区分	補助金
応募区分	一般
審査区分	中区分61:人間情報学およびその関連分野
研究機関	早稲田大学
研究代表者	河原大輔早稲田大学, 理工学術院, 教授 (10450694)
研究分担者	笹野遼平名古屋大学, 情報学研究科, 准教授 (70603918) 鈴木潤東北大学, データ駆動科学・AI教育研究センター, 教授 (80396150)
研究期間 (年度)	2021-04-05 – 2025-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	41,600千円 (直接経費: 32,000千円、間接経費: 9,600千円) 2023年度: 10,530千円 (直接経費: 8,100千円、間接経費: 2,430千円) 2022年度: 10,530千円 (直接経費: 8,100千円、間接経費: 2,430千円) 2021年度: 10,400千円 (直接経費: 8,000千円、間接経費: 2,400千円)
キーワード	言語理解 / 転移学習 / 言語知識 / 説明性 / 深層学習 / 基盤モデル
研究開始時の研究の概要	BERTに代表される事前学習付き深層ニューラルネットワーク「計算知」によって、様々な自然言語理解タスクの精度が向上した。しかし、計算知はテキスト中の単語共起のみに基づいており、計算機が「真に言語を理解すること」および「出力の理由を説明すること」が実現できていない。そのため、計算知を実応用で用いるにはコストとリスクが高いという大きな問題がある。本研究では、これまで人間が知識を記述してきた「人知」を計算知に統合することによって、人間の脳のような汎用言語理解基盤を創出する。
研究実績の概要	2023年度は以下の研究項目について研究を行った。人知・計算知のデザインおよび計算知の構築に関して、知識グラフなどの人知を自然言語として表現し、それを計算知(言語モデル)に融合する手法を考案した。これはLoRA (Low-Rank Adaptation)とMoE (Mixture of Experts)を統合した手法であり、常識推論タスクにおける実験によって有効性を確認した。また、知識の言語転移の原理を分析するために意味的プロービングデータセットを構築するとともに、ドメイン知識の学習について分析するために、川柳や漢詩文を用いた実験を進めた。人に近い文章理解の実現に関する研究として、文の意味を空間上の分布として表現することで、文の持つ意味の広がりや包含関係などを捉えた文の意味表現方法を考案し、含意関係にある2文の含意の方向性を自然に扱えることを実験的に示した。また、大規模言語モデル(LLM)により自動生成したNLIデータを用いた、LLMベースの文埋め込みの改良にも取り組み、自動生成したNLIデータの有用性を明らかにした。さらに、人に近い文章理解の可能性を検証するため、早押しクイズの解答システムの構築に取り組んだ。言語モデルの解釈性に関する研究として、否定的な意味を持つ単語が入力文に含まれる場合に、言語モデルの推論能力が顕著に低減する現象があることを実験的に示した。また、一般的なニューラルネットワークに対する解釈手法である特徴量帰属法の中で著名な方法である統合勾配法が、言語モデルなどの言語を扱うモデルに対して利用する場合に数値計算上の問題が発生する可能性が高い点を実験的に示し、その対応策を考案した。
現在までの達成度 (段落)	令和5年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和5年度が最終年度であるため、記入しない。

報告書

(4件)

研究成果
(42件)

すべて 2024 2023 2022 2021 その他

すべて国際共同研究 (1件) 雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 2件) 学会発表 (36件) (うち国際学会 9件、招待講演 6件) 備考 (3件)

[国際共同研究] MBZUAI(アラブ首長国連邦)
- 関連する報告書
  2023 実績報告書
[雑誌論文] 言語モデルを用いた漢詩文の返り点付与と書き下し文生成2024
- 著者名/発表者名
  王昊, 清水博文, 河原大輔
- 雑誌名
  
  自然言語処理
  
  巻: 31 号: 1 ページ: 134-154
- DOI
  10.5715/jnlp.31.134
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] 定義文を用いた文埋め込み構成法2023
- 著者名/発表者名
  塚越駿, 笹野遼平, 武田浩一
- 雑誌名
  
  自然言語処理
  
  巻: 30 号: 1 ページ: 125-155
- DOI
  10.5715/jnlp.30.125
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[学会発表] Sentence Representations via Gaussian Embedding2024
- 著者名/発表者名
  Shohei Yoda, Hayato Tsukagoshi, Ryohei Sasano, and Koichi Takeda
- 学会等名
  EACL 2024
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] The Impact of Integration Step on Integrated Gradients2024
- 著者名/発表者名
  Masahiro Makino, Yuya Asazuma, Shota Sasaki, Jun Suzuki
- 学会等名
  EACL 2024 Student Research Workshop
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] おもしろい川柳の生成2024
- 著者名/発表者名
  太田聖三郎, 河原大輔, 野村理朗
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] 意味的プロービングデータセットの構築と言語モデルの評価: イタリア語の倒置を例に2024
- 著者名/発表者名
  今井咲良, Giovanni Pasa, 小田博宗, 折田奈甫, 河原大輔
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] 大規模言語モデル開発における日本語Web文書のフィルタリング手法の検証2024
- 著者名/発表者名
  榎本倫太郎, Tolmachev Arseny, 新妻巧朗, 栗田修平, 河原大輔
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] 知識志向Mixture of LoRA Expertsの構築2024
- 著者名/発表者名
  伊藤俊太朗, 河原大輔
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] 文脈内学習における文脈内事例の寄与度推定2024
- 著者名/発表者名
  葉夢宇, 栗林樹生, 小林悟郎, 鈴木潤
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] 自動生成したNLIデータを用いた教師なし文埋め込みの改良2024
- 著者名/発表者名
  佐藤蒼馬, 塚越駿, 笹野遼平, 武田浩一
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] LLMの進展と日本語LLMの構築・評価2024
- 著者名/発表者名
  河原大輔
- 学会等名
  2024年1月音声研究会・音声言語情報処理研究会
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] Co-evolution of Japanese Large Language Models and Language Understanding Benchmarks2024
- 著者名/発表者名
  Daisuke Kawahara
- 学会等名
  電子情報通信学会 2024年3月思考と言語研究会
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models2023
- 著者名/発表者名
  Hao Wang, Hirofumi Shimizu, and Daisuke Kawahara
- 学会等名
  Findings of ACL 2023
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Building a Buzzer-Quiz Answering System2023
- 著者名/発表者名
  Naoya Sugiura, Kosuke Yamada, Ryohei Sasano, Koichi Takeda, and Katsuhiko Toyama
- 学会等名
  ACL 2023 Student Research Workshop
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Theoretical Linguistics Rivals Embeddings in Language Clustering for Multilingual Named Entity Recognition2023
- 著者名/発表者名
  Sakura Imai, Daisuke Kawahara, Naho Orita, and Hiromune Oda
- 学会等名
  ACL 2023 Student Research Workshop
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study on Syllogism2023
- 著者名/発表者名
  Mengyu Ye, Tatsuki Kuribayashi, Jun Suzuki, Goro Kobayashi, Hiroaki Funayama
- 学会等名
  EMNLP 2023
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] 機械学習を用いた川柳の面白さの予測2023
- 著者名/発表者名
  太田聖三郎, 河原大輔, 野村理朗
- 学会等名
  日本認知科学会第40回大会
- 関連する報告書
  2023 実績報告書
[学会発表] 非言語データを用いた対照学習による文埋め込み学習の日本語における効果検証2023
- 著者名/発表者名
  清水博文, 河原大輔
- 学会等名
  人工知能学会全国大会(第37回)
- 関連する報告書
  2023 実績報告書
[学会発表] 日本語BERTにおけるトークナイザの違いによる影響の検証2023
- 著者名/発表者名
  伊藤俊太朗, 河原大輔
- 学会等名
  人工知能学会全国大会(第37回)
- 関連する報告書
  2023 実績報告書
[学会発表] 多段階転移学習による不完全発話補完の精度向上2023
- 著者名/発表者名
  尹子旗, 河原大輔
- 学会等名
  人工知能学会全国大会(第37回)
- 関連する報告書
  2023 実績報告書
[学会発表] 日本語大規模言語モデルと言語理解ベンチマークの共進化2023
- 著者名/発表者名
  河原大輔
- 学会等名
  自動車技術会エレクトロニクス部門委員会 9月公開委員会
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] 日本語大規模言語モデルと言語理解ベンチマークの共進化2023
- 著者名/発表者名
  河原大輔
- 学会等名
  第35回CSワークショップ
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] 日本語大規模言語モデルと言語理解ベンチマークの共進化2023
- 著者名/発表者名
  河原大輔
- 学会等名
  医療情報学連合大会共同企画7 「医学医療におけるAI応用」
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] 大規模言語モデルの進展と利活用2023
- 著者名/発表者名
  河原大輔
- 学会等名
  第37回光通信システムシンポジウムワークショップ1 「国際社会が直面する課題と解決策～SDGs 達成に向けたイノベーション～」
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] 日本語WiCデータセットの構築と読みづらさ検出への応用2023
- 著者名/発表者名
  吉田あいり, 河原大輔
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] 機械学習を用いた川柳の面白さの予測2023
- 著者名/発表者名
  太田聖三郎, 河原大輔, 野村理朗
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] 言語モデルを用いた漢文の返り点付与と書き下し文生成2023
- 著者名/発表者名
  王昊, 清水博文, 河原大輔
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] 事前学習モデルに基づく日本語形態素解析器における辞書の利用2023
- 著者名/発表者名
  田村稔行, 河原大輔
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] 理論言語学の知見を応用した多言語クラスタリング2023
- 著者名/発表者名
  今井咲良, 河原大輔, 折田奈甫, 小田博宗
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] 日本語の分類タスクにおけるカリキュラム学習とマルチタスク学習の効果検証2023
- 著者名/発表者名
  植松拓也, 河原大輔
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] 日本語BigBirdの構築2023
- 著者名/発表者名
  近藤瑞希, 王昊, 井手竜也, 伊藤俊太朗, Ritvik Choudhary, 栗原健太郎, 河原大輔
- 学会等名
  言語処理学会第29回年次大会併設ワークショップ日本語言語資源の構築と利用性の向上(JLR2023)
- 関連する報告書
  2022 実績報告書
[学会発表] 思考連鎖指示における大規模言語モデルの否定表現理解2023
- 著者名/発表者名
  葉夢宇, 栗林樹生, 舟山弘晃, 鈴木潤
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] XAIにおける忠実性評価手法の考察2023
- 著者名/発表者名
  牧野雅紘, 浅妻佑弥, 佐々木翔大, 鈴木潤
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] Automating Interlingual Homograph Recognition with Parallel Sentences2022
- 著者名/発表者名
  Yi Han, Ryohei Sasano, Koichi Takeda
- 学会等名
  Findings of the Association for Computational Linguistics: AACL-IJCNLP 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Comparison and Combination of Sentence Embeddings Derived from Different Supervision Signals2022
- 著者名/発表者名
  Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda
- 学会等名
  the 11th Joint Conference on Lexical and Computational Semantics (*SEM 2022)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 構造的曖昧性に基づく読みづらさの検出2022
- 著者名/発表者名
  吉田あいり, 河原大輔
- 学会等名
  言語処理学会第28回年次大会
- 関連する報告書
  2021 実績報告書
[学会発表] 日本語転移学習モデルにおける事前学習コーパスのフィルタリング2022
- 著者名/発表者名
  渡邊亞椰, 河原大輔
- 学会等名
  言語処理学会第28回年次大会併設ワークショップ日本語における評価用データセットの構築と利用性の向上(JED2022)
- 関連する報告書
  2021 実績報告書
[学会発表] DefSent: Sentence Embeddings using Definition Sentences2021
- 著者名/発表者名
  Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda
- 学会等名
  the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021)
- 関連する報告書
  2021 実績報告書
- 国際学会
[備考] 日本語RoBERTa large
- URL
  https://huggingface.co/nlp-waseda/roberta-large-japanese
- 関連する報告書
  2022 実績報告書
[備考] 日本語RoBERTa base
- URL
  https://huggingface.co/nlp-waseda/roberta-base-japanese
- 関連する報告書
  2021 実績報告書
[備考] 日本語GPT2 small
- URL
  https://huggingface.co/nlp-waseda/gpt2-small-japanese
- 関連する報告書
  2021 実績報告書

計算知と人知の融合による汎用言語理解基盤の構築

研究代表者

河原 大輔 早稲田大学, 理工学術院, 教授 (10450694)

41,600千円 (直接経費: 32,000千円、間接経費: 9,600千円)

報告書

研究成果

[国際共同研究] MBZUAI(アラブ首長国連邦)

関連する報告書

[雑誌論文] 言語モデルを用いた漢詩文の返り点付与と書き下し文生成2024

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[雑誌論文] 定義文を用いた文埋め込み構成法2023

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[学会発表] Sentence Representations via Gaussian Embedding2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] The Impact of Integration Step on Integrated Gradients2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] おもしろい川柳の生成2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 意味的プロービングデータセットの構築と言語モデルの評価: イタリア語の倒置を例に2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 大規模言語モデル開発における日本語Web文書のフィルタリング手法の検証2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 知識志向Mixture of LoRA Expertsの構築2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 文脈内学習における文脈内事例の寄与度推定2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 自動生成したNLIデータを用いた教師なし文埋め込みの改良2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] LLMの進展と日本語LLMの構築・評価2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Co-evolution of Japanese Large Language Models and Language Understanding Benchmarks2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Building a Buzzer-Quiz Answering System2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Theoretical Linguistics Rivals Embeddings in Language Clustering for Multilingual Named Entity Recognition2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study on Syllogism2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 機械学習を用いた川柳の面白さの予測2023

著者名/発表者名

学会等名

関連する報告書

河原大輔早稲田大学, 理工学術院, 教授 (10450694)