自然言語文生成における内容的多様性の改善

Research Project

Project/Area Number	22K17943
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Tohoku University
Principal Investigator	赤間怜奈東北大学, データ駆動科学・AI教育研究センター, 助教 (70912533)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000) Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Keywords	自然言語処理 / 深層学習 / ニューラルネットワーク / 人工知能
Outline of Research at the Start	本研究は、深層学習型文生成技術が抱える内容的多様性の欠如を解決すべき課題として切り出し、現在の文生成モデルが既に有している理想的な表層的多様性を維持しつつ、内容的多様性の改善に取り組むものである。具体的には、深層学習型生成モデルの内部で内容的多様性の欠落が生じるメカニズムの調査と、生成時に内容的多様性を保持する仕組みの確立を目的とする。本研究は、近年の自然言語処理を支える基盤技術の改善に繋がる学術的価値の高い試みであり、研究成果は分野全体に広く還元されることが期待できる。
Outline of Annual Research Achievements	本研究は、深層学習型文生成技術が抱える内容的多様性の欠如を解決すべき課題として切り出し、現在の文生成モデルが既に有している理想的な表層的多様性を維持しつつ、欠点である内容的多様性の改善に取り組むものである。これを達成するために、具体的には、深層学習型生成モデルの内部で内容的多様性の欠落が生じるメカニズムの解明と、そこで得られた知見に基づき生成時に内容的多様性を保持する仕組みの確立を目指す。2年目にあたる本年度は、昨年度から継続して表層的多様性および内容的多様性に焦点を当てたモデル横断的な性能調査および分析に関する研究に取り組むことに加え、深層学習型生成モデルの学習過程あるいは生成過程での内容的多様性の欠落が生じるメカニズムの解明に向けた下準備にも着手した。具体的な取り組みの一例として、昨年から新たに開発している規範的な言語表現で構成されている分析用対話コーパスに、形態論情報や係り受け情報などの基礎解析アノテーションの付与を進めている。これにより、テキストの内容機能と表層機能との切り分けと、それに基づいて生成モデルの内部挙動の傾向に関する分析が可能になると考えている。成果の一部は国内の分野最大規模の学会で発表した。今後は、分析用コーパスの整備とそれを用いたモデルの内部解析を引き続き進めていくとともに、生成時の内容的および表層的多様性に関する独立制御を実現するための方法論についても本格的に検討していく。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 大枠としては当初の計画に沿って進めることができている。昨年は、本課題の遂行において既存のデータセットに加え新たな分析用データセットが必要であることが判明したため、当初の計画には含まれていないデータセットの開発も追加でおこなったが、これがあることによって当初から予定していた深層学習型生成モデルの挙動分析をより効率的におこなうことができる。モデルの分析と並行して、対話応答生成タスクにおける評価尺度についても表層的および内容的多様性の観点から再検討をおこない、それぞれの多様性を適切に定量化するための方法論について議論を進めている。当初の計画で挙げた3つのマイルストーンのうちの2つについてはその達成に向けて問題なく進んでいると考えられるため、順調に進展していると判断する。
Strategy for Future Research Activity	基本的な方針としては、引き続き当初の研究計画に沿って研究を進めていく予定である。少なくとも現時点では、研究計画の変更あるいは見直しはとくに必要ないと判断する。今後、文生成モデルにおいて内容的多様性が欠落する要因を調査していく上で鍵となるのが生成モデルの内部挙動分析における切り口と分析の方法論であるが、ここについては自然言語処理ならびに周辺分野で近年盛んに取り組まれている深層学習・機械学習モデルの解釈性に関する研究領域の知見を積極的に取り入れていくことを考えている。生成時の多様性制御については、まずは表層的多様性を無視してでも内容的多様性を実現することに重点を置き、それを達成した後に表層的多様性と内容的多様性の共存を実現すること目指す。多様性制御の実現度合いを適切に測定するためには、生成モデルの性能を表層的多様性とは明確に分離して内容的多様性の観点から評価する指標や方法論が必要であるため、とくに優先して取り組むべき内容のひとつと認識している。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(19 results)

All 2024 2023 2022

All Journal Article (4 results) (of which Peer Reviewed: 4 results, Open Access: 4 results) Presentation (15 results) (of which Int'l Joint Research: 3 results, Invited: 2 results)

[Journal Article] Aoba_v3 bot: a multimodal chatbot system combining rules and various response generation models2023
- Author(s)
  Moriya Shoji、Shiono Daiki、Fujihara Riki、Kishinami Yosuke、Kimura Subaru、Sone Shusaku、Akama Reina、Matsumoto Yuta、Suzuki Jun、Inui Kentaro
- Journal Title
  
  Advanced Robotics
  
  Volume: 37 Issue: 21 Pages: 1392-1405
- DOI
  10.1080/01691864.2023.2240883
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Bipartite-play Dialogue Collection for Versatile and Practical Automatic Dialogues Evaluation2022
- Author(s)
  Shiki Sato, Yosuke Kishinami, Hiroaki Sugiyama, Reina Akama, Ryoko Tokuhisa and Jun Suzuki
- Journal Title
  
  Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing: SRW
  
  Volume: - Pages: 8-16
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Target-Guided Open-Domain Conversation Planning2022
- Author(s)
  Yosuke Kishinami, Reina Akama, Shiki Sato, Ryoko Tokuhisa, Jun Suzuki and Kentaro Inui
- Journal Title
  
  Proceedings of the 29th International Conference on Computational Linguistics
  
  Volume: - Pages: 660-668
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models2022
- Author(s)
  Shiki Sato, Reina Akama, Hiroki Ouchi, Ryoko Tokuhisa, Jun Suzuki and Kentaro Inui
- Journal Title
  
  Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue
  
  Volume: - Pages: 637-644
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access
[Presentation] 日本語日常対話コーパスへの基礎解析アノテーション2024
- Author(s)
  赤間怜奈, 浅原正幸, 若狭絢, 大村舞, 鈴木潤
- Organizer
  言語処理学会第30回年次大会
- Related Report
  2023 Research-status Report
[Presentation] LLMを用いた文脈考慮による攻撃性検出性能の改善2024
- Author(s)
  中野雄斗, 佐藤志貴, 赤間怜奈
- Organizer
  言語処理学会第30回年次大会
- Related Report
  2023 Research-status Report
[Presentation] 事実正誤判定が不要な生成応答の検出に向けたデータセットの収集と分析2024
- Author(s)
  亀井遼平, 塩野大輝, 赤間怜奈, 鈴木潤
- Organizer
  言語処理学会第30回年次大会
- Related Report
  2023 Research-status Report
[Presentation] 雑談応答生成モデルによる矛盾応答の大規模収集2024
- Author(s)
  佐藤志貴, 赤間怜奈, 鈴木潤, 乾健太郎
- Organizer
  言語処理学会第30回年次大会
- Related Report
  2023 Research-status Report
[Presentation] 選択性を考慮した語彙エントレインメント尺度2024
- Author(s)
  守屋彰二, 佐藤志貴, 徳久良子, 赤間怜奈, 横井祥, 乾健太郎
- Organizer
  言語処理学会第30回年次大会
- Related Report
  2023 Research-status Report
[Presentation] 英語中心の大規模言語モデルの言語横断汎化能力2024
- Author(s)
  謝素春, 佐々木翔大, Yunmeng Li, 坂田将樹, 赤間怜奈, 鈴木潤
- Organizer
  言語処理学会第30回年次大会
- Related Report
  2023 Research-status Report
[Presentation] 応答候補の限られる発話に着目した参照応答ベースの評価基準の分析2024
- Author(s)
  佐藤魁, 守屋彰二, 赤間怜奈, 鈴木潤
- Organizer
  第259回情報処理学会自然言語処理研究発表会
- Related Report
  2023 Research-status Report
[Presentation] 言葉のニュアンスを計算する2023
- Author(s)
  赤間怜奈
- Organizer
  NLP若手の会第18回シンポジウム
- Related Report
  2023 Research-status Report
- Invited
[Presentation] 人間同士の雑談における話題遷移モデリング2023
- Author(s)
  岸波洋介, 赤間怜奈, 佐藤志貴, 徳久良子, 鈴木潤, 乾健太郎
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Research-status Report
[Presentation] Follow-up質問による矛盾応答収集の提案2023
- Author(s)
  佐藤志貴, 赤間怜奈, 鈴木潤, 乾健太郎
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Research-status Report
[Presentation] 日本語日常対話コーパスの構築2023
- Author(s)
  赤間怜奈, 磯部順子, 鈴木潤, 乾健太郎
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Research-status Report
[Presentation] Bipartite-play Dialogue Collection for Versatile and Practical Automatic Dialogues Evaluation2022
- Author(s)
  Shiki Sato, Yosuke Kishinami, Hiroaki Sugiyama, Reina Akama, Ryoko Tokuhisa and Jun Suzuki
- Organizer
  the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing SRW
- Related Report
  2022 Research-status Report
- Int'l Joint Research
[Presentation] Target-Guided Open-Domain Conversation Planning2022
- Author(s)
  Yosuke Kishinami, Reina Akama, Shiki Sato, Ryoko Tokuhisa, Jun Suzuki and Kentaro Inui
- Organizer
  the 29th International Conference on Computational Linguistics
- Related Report
  2022 Research-status Report
- Int'l Joint Research
[Presentation] N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models2022
- Author(s)
  Shiki Sato, Reina Akama, Hiroki Ouchi, Ryoko Tokuhisa, Jun Suzuki and Kentaro Inui
- Organizer
  the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue
- Related Report
  2022 Research-status Report
- Int'l Joint Research
[Presentation] 日本語日常対話コーパスの構築と自然言語処理への活用2022
- Author(s)
  赤間怜奈
- Organizer
  Evidence-based Linguistics Workshop 2022 「日本語における評価用データセットの構築と利用性の向上」分科会
- Related Report
  2022 Research-status Report
- Invited

自然言語文生成における内容的多様性の改善

Principal Investigator

赤間 怜奈 東北大学, データ駆動科学・AI教育研究センター, 助教 (70912533)

¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Aoba_v3 bot: a multimodal chatbot system combining rules and various response generation models2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Bipartite-play Dialogue Collection for Versatile and Practical Automatic Dialogues Evaluation2022

Author(s)

Journal Title

Related Report

[Journal Article] Target-Guided Open-Domain Conversation Planning2022

Author(s)

Journal Title

Related Report

[Journal Article] N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models2022

Author(s)

Journal Title

Related Report

[Presentation] 日本語日常対話コーパスへの基礎解析アノテーション2024

Author(s)

Organizer

Related Report

[Presentation] LLMを用いた文脈考慮による攻撃性検出性能の改善2024

Author(s)

Organizer

Related Report

[Presentation] 事実正誤判定が不要な生成応答の検出に向けたデータセットの収集と分析2024

Author(s)

Organizer

Related Report

[Presentation] 雑談応答生成モデルによる矛盾応答の大規模収集2024

Author(s)

Organizer

Related Report

[Presentation] 選択性を考慮した語彙エントレインメント尺度2024

Author(s)

Organizer

Related Report

[Presentation] 英語中心の大規模言語モデルの言語横断汎化能力2024

Author(s)

Organizer

Related Report

[Presentation] 応答候補の限られる発話に着目した参照応答ベースの評価基準の分析2024

Author(s)

Organizer

Related Report

[Presentation] 言葉のニュアンスを計算する2023

Author(s)

Organizer

Related Report

[Presentation] 人間同士の雑談における話題遷移モデリング2023

Author(s)

Organizer

Related Report

[Presentation] Follow-up質問による矛盾応答収集の提案2023

Author(s)

Organizer

Related Report

[Presentation] 日本語日常対話コーパスの構築2023

Author(s)

Organizer

Related Report

[Presentation] Bipartite-play Dialogue Collection for Versatile and Practical Automatic Dialogues Evaluation2022

Author(s)

Organizer

Related Report

[Presentation] Target-Guided Open-Domain Conversation Planning2022

Author(s)

Organizer

Related Report

[Presentation] N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models2022

Author(s)

Organizer

赤間怜奈東北大学, データ駆動科学・AI教育研究センター, 助教 (70912533)