2021 Fiscal Year Annual Research Report

Building General Language Understanding Infrastructure by Fusing Computational and Human Intelligence

Research Project

Project/Area Number	21H04901
Research Institution	Waseda University
Principal Investigator	河原大輔早稲田大学, 理工学術院, 教授 (10450694)
Co-Investigator(Kenkyū-buntansha)	鈴木潤東北大学, データ駆動科学・AI教育研究センター, 教授 (80396150) 笹野遼平名古屋大学, 情報学研究科, 准教授 (70603918)
Project Period (FY)	2021-04-05 – 2025-03-31
Keywords	言語理解 / 転移学習 / 言語知識 / 説明性 / 深層学習
Outline of Annual Research Achievements	2021年度は「人知のデザイン、構築」(研究項目1)と「計算知のデザイン、構築」(研究項目2)の研究を進めた。「人知のデザイン、構築」(研究項目1)においては、まず、計算知と人知を融合することを念頭に、計算知、すなわち言語モデルの基盤技術となっているTransformerの性能や機能向上に関して調査、検討した。計算知と人知を融合し有益な結果を得るための課題が多くあることを確認した。続いて、汎用言語理解基盤に必要な人知としての辞書の有用性を検証した。具体的には、大規模な自然言語推論(NLI)データが整備されていない言語についても、辞書を利用することで高性能な文ベクトルが構築できることを示すため、辞書の定義文を用いた文埋め込み手法を開発した。さらに、標準的なベンチマークを用いた評価実験を通し、既存のNLIデータに基づく文埋め込み手法と同等の性能を実現すること示した。「計算知のデザイン、構築」(研究項目2)においては、基本となる計算知の設計、構築を行った。Transformerに基づく事前学習モデルの一つであるRoBERTaの性能が高いことから、日本語のRoBERTaモデルを構築した。事前学習のための日本語コーパスは、検討の結果、日本語Wikipediaおよび多言語ウェブコーパスであるCC-100の日本語部分を用いた。baseサイズの構築を完了し、公開した。largeサイズは構築中であり、2022年度に公開予定である。また、計算知を評価するための注釈付きデータセットについては、単語の意味の同一性判定タスクであるWiC (Word in Context)が日本語フレームネットを利用して構築可能であることを確認し、その構築を試行した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初の計画のとおり、2つの研究項目について成果を出すことができているため、おおむね順調に進展していると評価した。計算知の構築の一部は、計算資源の都合により、2022年度初頭に行うことにしたが、研究計画への影響は小さいと考える。
Strategy for Future Research Activity	2021年度に引き続き「人知のデザイン、構築」(研究項目1)と「計算知のデザイン、構築」(研究項目2)の研究を進める。また、「人に近い文章理解の実現に向けた計算知・人知融合モデルの構築」(研究項目3)と「計算知・人知融合モデルの処理過程の説明方式の確立」(研究項目4)の研究を開始する。「人知のデザイン、構築」(研究項目1)においては、これまでに調査、検討した人知の形式を研究項目3および4の開始に併せて提供する。また、プロトタイプが完成している日本語計算知モデルと融合するための汎用的な人知の形式を検討する。「計算知のデザイン、構築」(研究項目2)においては、日本語計算知モデルの分析を行う。その分析結果に基づき日本語計算知モデルの改良を検討する。さらに、研究項目3および4の検討結果を基に、人知との融合を見据えた改良を行う。「人に近い文章理解の実現に向けた計算知・人知融合モデルの構築」(研究項目3)は、計算知と人知の融合を目指し、国語辞典や文章構造など、異なる手掛りを教師信号として得られた言語理解モデルの性質を明らかにし、それらの特長を併せ持つモデルの構築を目指す。「計算知・人知融合モデルの処理過程の説明方式の確立」(研究項目4)は、計算知により計算される結果を人間が理解可能な形式で提示する方法論の確立を目指す。

Research Products
(5 results)

All 2022 2021 Other

All Presentation (3 results) (of which Int'l Joint Research: 1 results) Remarks (2 results)

[Presentation] 構造的曖昧性に基づく読みづらさの検出2022
- Author(s)
  吉田あいり, 河原大輔
- Organizer
  言語処理学会第28回年次大会
[Presentation] 日本語転移学習モデルにおける事前学習コーパスのフィルタリング2022
- Author(s)
  渡邊亞椰, 河原大輔
- Organizer
  言語処理学会第28回年次大会併設ワークショップ日本語における評価用データセットの構築と利用性の向上(JED2022)
[Presentation] DefSent: Sentence Embeddings using Definition Sentences2021
- Author(s)
  Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda
- Organizer
  the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021)
- Int'l Joint Research
[Remarks] 日本語RoBERTa base
- URL
  https://huggingface.co/nlp-waseda/roberta-base-japanese
[Remarks] 日本語GPT2 small
- URL
  https://huggingface.co/nlp-waseda/gpt2-small-japanese

2021 Fiscal Year Annual Research Report

Building General Language Understanding Infrastructure by Fusing Computational and Human Intelligence

Principal Investigator

河原 大輔 早稲田大学, 理工学術院, 教授 (10450694)

Current Status of Research Progress

Reason

Research Products

[Presentation] 構造的曖昧性に基づく読みづらさの検出2022

Author(s)

Organizer

[Presentation] 日本語転移学習モデルにおける事前学習コーパスのフィルタリング2022

Author(s)

Organizer

[Presentation] DefSent: Sentence Embeddings using Definition Sentences2021

Author(s)

Organizer

[Remarks] 日本語RoBERTa base

URL

[Remarks] 日本語GPT2 small

URL

河原大輔早稲田大学, 理工学術院, 教授 (10450694)