自然言語文生成における内容的多様性の改善

研究課題

研究課題/領域番号	22K17943
研究種目	若手研究
配分区分	基金
審査区分	小区分61030:知能情報学関連
研究機関	東北大学
研究代表者	赤間怜奈東北大学, データ駆動科学・AI教育研究センター, 助教 (70912533)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	自然言語処理 / 深層学習 / ニューラルネットワーク / 人工知能
研究開始時の研究の概要	本研究は、深層学習型文生成技術が抱える内容的多様性の欠如を解決すべき課題として切り出し、現在の文生成モデルが既に有している理想的な表層的多様性を維持しつつ、内容的多様性の改善に取り組むものである。具体的には、深層学習型生成モデルの内部で内容的多様性の欠落が生じるメカニズムの調査と、生成時に内容的多様性を保持する仕組みの確立を目的とする。本研究は、近年の自然言語処理を支える基盤技術の改善に繋がる学術的価値の高い試みであり、研究成果は分野全体に広く還元されることが期待できる。
研究実績の概要	本研究は、深層学習型文生成技術が抱える内容的多様性の欠如を解決すべき課題として切り出し、現在の文生成モデルが既に有している理想的な表層的多様性を維持しつつ、欠点である内容的多様性の改善に取り組むものである。これを達成するために、具体的には、深層学習型生成モデルの内部で内容的多様性の欠落が生じるメカニズムの解明と、そこで得られた知見に基づき生成時に内容的多様性を保持する仕組みの確立を目指す。2年目にあたる本年度は、昨年度から継続して表層的多様性および内容的多様性に焦点を当てたモデル横断的な性能調査および分析に関する研究に取り組むことに加え、深層学習型生成モデルの学習過程あるいは生成過程での内容的多様性の欠落が生じるメカニズムの解明に向けた下準備にも着手した。具体的な取り組みの一例として、昨年から新たに開発している規範的な言語表現で構成されている分析用対話コーパスに、形態論情報や係り受け情報などの基礎解析アノテーションの付与を進めている。これにより、テキストの内容機能と表層機能との切り分けと、それに基づいて生成モデルの内部挙動の傾向に関する分析が可能になると考えている。成果の一部は国内の分野最大規模の学会で発表した。今後は、分析用コーパスの整備とそれを用いたモデルの内部解析を引き続き進めていくとともに、生成時の内容的および表層的多様性に関する独立制御を実現するための方法論についても本格的に検討していく。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由大枠としては当初の計画に沿って進めることができている。昨年は、本課題の遂行において既存のデータセットに加え新たな分析用データセットが必要であることが判明したため、当初の計画には含まれていないデータセットの開発も追加でおこなったが、これがあることによって当初から予定していた深層学習型生成モデルの挙動分析をより効率的におこなうことができる。モデルの分析と並行して、対話応答生成タスクにおける評価尺度についても表層的および内容的多様性の観点から再検討をおこない、それぞれの多様性を適切に定量化するための方法論について議論を進めている。当初の計画で挙げた3つのマイルストーンのうちの2つについてはその達成に向けて問題なく進んでいると考えられるため、順調に進展していると判断する。
今後の研究の推進方策	基本的な方針としては、引き続き当初の研究計画に沿って研究を進めていく予定である。少なくとも現時点では、研究計画の変更あるいは見直しはとくに必要ないと判断する。今後、文生成モデルにおいて内容的多様性が欠落する要因を調査していく上で鍵となるのが生成モデルの内部挙動分析における切り口と分析の方法論であるが、ここについては自然言語処理ならびに周辺分野で近年盛んに取り組まれている深層学習・機械学習モデルの解釈性に関する研究領域の知見を積極的に取り入れていくことを考えている。生成時の多様性制御については、まずは表層的多様性を無視してでも内容的多様性を実現することに重点を置き、それを達成した後に表層的多様性と内容的多様性の共存を実現すること目指す。多様性制御の実現度合いを適切に測定するためには、生成モデルの性能を表層的多様性とは明確に分離して内容的多様性の観点から評価する指標や方法論が必要であるため、とくに優先して取り組むべき内容のひとつと認識している。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(19件)

すべて 2024 2023 2022

すべて雑誌論文 (4件) (うち査読あり 4件、オープンアクセス 4件) 学会発表 (15件) (うち国際学会 3件、招待講演 2件)

[雑誌論文] Aoba_v3 bot: a multimodal chatbot system combining rules and various response generation models2023
- 著者名/発表者名
  Moriya Shoji、Shiono Daiki、Fujihara Riki、Kishinami Yosuke、Kimura Subaru、Sone Shusaku、Akama Reina、Matsumoto Yuta、Suzuki Jun、Inui Kentaro
- 雑誌名
  
  Advanced Robotics
  
  巻: 37 号: 21 ページ: 1392-1405
- DOI
  10.1080/01691864.2023.2240883
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Bipartite-play Dialogue Collection for Versatile and Practical Automatic Dialogues Evaluation2022
- 著者名/発表者名
  Shiki Sato, Yosuke Kishinami, Hiroaki Sugiyama, Reina Akama, Ryoko Tokuhisa and Jun Suzuki
- 雑誌名
  
  Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing: SRW
  
  巻: - ページ: 8-16
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Target-Guided Open-Domain Conversation Planning2022
- 著者名/発表者名
  Yosuke Kishinami, Reina Akama, Shiki Sato, Ryoko Tokuhisa, Jun Suzuki and Kentaro Inui
- 雑誌名
  
  Proceedings of the 29th International Conference on Computational Linguistics
  
  巻: - ページ: 660-668
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models2022
- 著者名/発表者名
  Shiki Sato, Reina Akama, Hiroki Ouchi, Ryoko Tokuhisa, Jun Suzuki and Kentaro Inui
- 雑誌名
  
  Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue
  
  巻: - ページ: 637-644
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 日本語日常対話コーパスへの基礎解析アノテーション2024
- 著者名/発表者名
  赤間怜奈, 浅原正幸, 若狭絢, 大村舞, 鈴木潤
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] LLMを用いた文脈考慮による攻撃性検出性能の改善2024
- 著者名/発表者名
  中野雄斗, 佐藤志貴, 赤間怜奈
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 事実正誤判定が不要な生成応答の検出に向けたデータセットの収集と分析2024
- 著者名/発表者名
  亀井遼平, 塩野大輝, 赤間怜奈, 鈴木潤
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 雑談応答生成モデルによる矛盾応答の大規模収集2024
- 著者名/発表者名
  佐藤志貴, 赤間怜奈, 鈴木潤, 乾健太郎
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 選択性を考慮した語彙エントレインメント尺度2024
- 著者名/発表者名
  守屋彰二, 佐藤志貴, 徳久良子, 赤間怜奈, 横井祥, 乾健太郎
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 英語中心の大規模言語モデルの言語横断汎化能力2024
- 著者名/発表者名
  謝素春, 佐々木翔大, Yunmeng Li, 坂田将樹, 赤間怜奈, 鈴木潤
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 応答候補の限られる発話に着目した参照応答ベースの評価基準の分析2024
- 著者名/発表者名
  佐藤魁, 守屋彰二, 赤間怜奈, 鈴木潤
- 学会等名
  第259回情報処理学会自然言語処理研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 言葉のニュアンスを計算する2023
- 著者名/発表者名
  赤間怜奈
- 学会等名
  NLP若手の会第18回シンポジウム
- 関連する報告書
  2023 実施状況報告書
- 招待講演
[学会発表] 人間同士の雑談における話題遷移モデリング2023
- 著者名/発表者名
  岸波洋介, 赤間怜奈, 佐藤志貴, 徳久良子, 鈴木潤, 乾健太郎
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] Follow-up質問による矛盾応答収集の提案2023
- 著者名/発表者名
  佐藤志貴, 赤間怜奈, 鈴木潤, 乾健太郎
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 日本語日常対話コーパスの構築2023
- 著者名/発表者名
  赤間怜奈, 磯部順子, 鈴木潤, 乾健太郎
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] Bipartite-play Dialogue Collection for Versatile and Practical Automatic Dialogues Evaluation2022
- 著者名/発表者名
  Shiki Sato, Yosuke Kishinami, Hiroaki Sugiyama, Reina Akama, Ryoko Tokuhisa and Jun Suzuki
- 学会等名
  the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing SRW
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Target-Guided Open-Domain Conversation Planning2022
- 著者名/発表者名
  Yosuke Kishinami, Reina Akama, Shiki Sato, Ryoko Tokuhisa, Jun Suzuki and Kentaro Inui
- 学会等名
  the 29th International Conference on Computational Linguistics
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models2022
- 著者名/発表者名
  Shiki Sato, Reina Akama, Hiroki Ouchi, Ryoko Tokuhisa, Jun Suzuki and Kentaro Inui
- 学会等名
  the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] 日本語日常対話コーパスの構築と自然言語処理への活用2022
- 著者名/発表者名
  赤間怜奈
- 学会等名
  Evidence-based Linguistics Workshop 2022 「日本語における評価用データセットの構築と利用性の向上」分科会
- 関連する報告書
  2022 実施状況報告書
- 招待講演

自然言語文生成における内容的多様性の改善

研究代表者

赤間 怜奈 東北大学, データ駆動科学・AI教育研究センター, 助教 (70912533)

4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Aoba_v3 bot: a multimodal chatbot system combining rules and various response generation models2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Bipartite-play Dialogue Collection for Versatile and Practical Automatic Dialogues Evaluation2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Target-Guided Open-Domain Conversation Planning2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models2022

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 日本語日常対話コーパスへの基礎解析アノテーション2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] LLMを用いた文脈考慮による攻撃性検出性能の改善2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 事実正誤判定が不要な生成応答の検出に向けたデータセットの収集と分析2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 雑談応答生成モデルによる矛盾応答の大規模収集2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 選択性を考慮した語彙エントレインメント尺度2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 英語中心の大規模言語モデルの言語横断汎化能力2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 応答候補の限られる発話に着目した参照応答ベースの評価基準の分析2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 言葉のニュアンスを計算する2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 人間同士の雑談における話題遷移モデリング2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Follow-up質問による矛盾応答収集の提案2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 日本語日常対話コーパスの構築2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Bipartite-play Dialogue Collection for Versatile and Practical Automatic Dialogues Evaluation2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Target-Guided Open-Domain Conversation Planning2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models2022

著者名/発表者名

学会等名

赤間怜奈東北大学, データ駆動科学・AI教育研究センター, 助教 (70912533)