2023 Fiscal Year Annual Research Report

常識的知識を活用した言語理解・推論に基づく議論マイニングの新展開

Research Project

Project/Area Number	19H01118
Research Institution	Tokyo Institute of Technology
Principal Investigator	岡崎直観東京工業大学, 情報理工学院, 教授 (50601118)
Co-Investigator(Kenkyū-buntansha)	荒牧英治奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (70401073)
Project Period (FY)	2019-04-01 – 2024-03-31
Keywords	自然言語処理 / 大規模言語モデル / 知識獲得
Outline of Annual Research Achievements	研究項目１「議論マイニングに必要な常識的知識の獲得」では、単語の意味に関する常識的知識を大規模言語モデルから自動獲得する研究をまとめ、国際会議で発表した (Mizuki+ EACL 2023)。研究項目２「SNS上のテキストの意味解析技術の確立」においては、大規模言語モデル（LLM）が強力になった現在でも、アノテーション済みコーパスを用いた従来からの自然言語処理が使われている。我々は、このアノテーションを省コスト化し、アノテーション位置にノイズを含んだ場合に下流タスクにどれくらいの影響があるかを調査した。その結果、アノテーションの有無のみが重要で、位置についてはノイズに頑健であることを明らかにした (Andrade+ ACL 2023)。研究項目３「自動獲得した常識的知識に基づいて推論するアーキテクチャの確立」では、LLMに蓄積された常識的知識を活用する手法が主流になりつつある。ただし、単にLLMにプロンプトで問いかけるだけでは精度が不十分で、タスクの訓練データに基づくファインチューニングが精度面で有利である。我々は、タスクの訓練データをLLMで自動的に生成させるデータ拡張の新手法を提案し、その効果を実証した (Wang+ *SEM 2023)。また、LLMの推論結果の確信度を推定する新手法を提案した (Yoshikawa+ EACL 2023)。さらに、LLMの推論結果が学習時に与えられた知識に基づくものであるかを判定する手法を考案し、その研究発表が第30回言語処理学会若手奨励賞 (綿+ 2024) を受賞した。研究項目４「議論マイニングによる実社会の課題の解決」では、意見表明において評価対象やその極性を明確にするだけでなく、評価極性が暗黙的に言及される文からも、マイニング結果およびその解釈の理由をユーザに説明するためのデータセットおよび手法を開発した。
Research Progress Status	令和5年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和5年度が最終年度であるため、記入しない。

Research Products
(12 results)

All 2024 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (11 results) (of which Int'l Joint Research: 4 results, Invited: 5 results)

[Journal Article] ExtraPhrase: 生成型要約のための効率的データ拡張2023
- Author(s)
  Mengsay Loem, 高瀬翔, 金子正弘, 岡崎直観
- Journal Title
  
  自然言語処理
  
  Volume: 30巻 2号 Pages: 489～506
- DOI
  10.5715/jnlp.30.489
- Peer Reviewed
[Presentation] 大規模言語モデルにおける評価バイアスの尤度に基づく緩和2024
- Author(s)
  大井聖也, 金子正弘, 小池隆斗, Mengsay Loem, 岡崎直観
- Organizer
  言語処理学会第30回年次大会
[Presentation] 大規模言語モデルに対するサンプリングを活用したメンバーシップ推論攻撃2024
- Author(s)
  綿祐貴, 金子正弘, Youmi Ma, 岡崎直観
- Organizer
  言語処理学会第30回年次大会
[Presentation] 自然言語処理の基礎2024
- Author(s)
  岡崎直観
- Organizer
  言語処理学会第30回年次大会 (NLP2024) チュートリアルT1
- Invited
[Presentation] Semantic Specialization for Knowledge-based Word Sense Disambiguation2023
- Author(s)
  Sakae Mizuki and Naoaki Okazaki
- Organizer
  Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics: EACL 2023
- Int'l Joint Research
[Presentation] Selective-LAMA: Selective Prediction for Confidence-Aware Evaluation of Language Models2023
- Author(s)
  Hiyori Yoshikawa and Naoaki Okazaki
- Organizer
  Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics: EACL 2023
- Int'l Joint Research
[Presentation] Comparative evaluation of boundary-relaxed annotation for Entity Linking performance2023
- Author(s)
  Gabriel Herman Bernardim Andrade, Shuntaro Yada and Eiji Aramaki
- Organizer
  Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
- Int'l Joint Research
[Presentation] Generative Data Augmentation for Aspect Sentiment Quad Prediction2023
- Author(s)
  An Wang, Junfeng Jiang, Youmi Ma, Ao Liu, and Naoaki Okazaki
- Organizer
  Proceedings of the 12th Joint Conference on Lexical and Computational Semantics (*SEM)
- Int'l Joint Research
[Presentation] 生成AIによる新しい医療言語処理: 創薬から臨床まで2023
- Author(s)
  荒牧英治
- Organizer
  CHUGAI INNOVATION DAY 2023
- Invited
[Presentation] 大規模言語モデル～言語モデルと自然言語処理のフロンティア2023
- Author(s)
  岡崎直観
- Organizer
  2023年度統計関連学会連合大会
- Invited
[Presentation] 次世代AIの舵取り：進化するAI技術と未来への展望2023
- Author(s)
  岡崎直観, 辻井潤一, 松原仁, 樋口知之
- Organizer
  データサイエンス協会10thシンポジウム～データサイエンスの最前線～
- Invited
[Presentation] 大規模言語モデルと科学研究2023
- Author(s)
  岡崎直観
- Organizer
  第46回日本分子生物学会年会研究倫理委員会企画・研究倫理フォーラム
- Invited

2023 Fiscal Year Annual Research Report

常識的知識を活用した言語理解・推論に基づく議論マイニングの新展開

Principal Investigator

岡崎 直観 東京工業大学, 情報理工学院, 教授 (50601118)

Research Products

[Journal Article] ExtraPhrase: 生成型要約のための効率的データ拡張2023

Author(s)

Journal Title

DOI

[Presentation] 大規模言語モデルにおける評価バイアスの尤度に基づく緩和2024

Author(s)

Organizer

[Presentation] 大規模言語モデルに対するサンプリングを活用したメンバーシップ推論攻撃2024

Author(s)

Organizer

[Presentation] 自然言語処理の基礎2024

Author(s)

Organizer

[Presentation] Semantic Specialization for Knowledge-based Word Sense Disambiguation2023

Author(s)

Organizer

[Presentation] Selective-LAMA: Selective Prediction for Confidence-Aware Evaluation of Language Models2023

Author(s)

Organizer

[Presentation] Comparative evaluation of boundary-relaxed annotation for Entity Linking performance2023

Author(s)

Organizer

[Presentation] Generative Data Augmentation for Aspect Sentiment Quad Prediction2023

Author(s)

Organizer

[Presentation] 生成AIによる新しい医療言語処理: 創薬から臨床まで2023

Author(s)

Organizer

[Presentation] 大規模言語モデル ～ 言語モデルと自然言語処理のフロンティア2023

Author(s)

Organizer

[Presentation] 次世代AIの舵取り：進化するAI技術と未来への展望2023

Author(s)

Organizer

[Presentation] 大規模言語モデルと科学研究2023

Author(s)

Organizer

岡崎直観東京工業大学, 情報理工学院, 教授 (50601118)

[Presentation] 大規模言語モデル～言語モデルと自然言語処理のフロンティア2023