• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

自然言語文生成における内容的多様性の改善

Research Project

Project/Area Number 22K17943
Research InstitutionTohoku University

Principal Investigator

赤間 怜奈  東北大学, データ駆動科学・AI教育研究センター, 助教 (70912533)

Project Period (FY) 2022-04-01 – 2025-03-31
Keywords自然言語処理 / 深層学習 / ニューラルネットワーク / 人工知能
Outline of Annual Research Achievements

本研究は、深層学習型文生成技術が抱える内容的多様性の欠如を解決すべき課題として切り出し、現在の文生成モデルが既に有している理想的な表層的多様性を維持しつつ、欠点である内容的多様性の改善に取り組むものである。これを達成するために、具体的には、深層学習型生成モデルの内部で内容的多様性の欠落が生じるメカニズムの解明と、そこで得られた知見に基づき生成時に内容的多様性を保持する仕組みの確立を目指す。2年目にあたる本年度は、昨年度から継続して表層的多様性および内容的多様性に焦点を当てたモデル横断的な性能調査および分析に関する研究に取り組むことに加え、深層学習型生成モデルの学習過程あるいは生成過程での内容的多様性の欠落が生じるメカニズムの解明に向けた下準備にも着手した。具体的な取り組みの一例として、昨年から新たに開発している規範的な言語表現で構成されている分析用対話コーパスに、形態論情報や係り受け情報などの基礎解析アノテーションの付与を進めている。これにより、テキストの内容機能と表層機能との切り分けと、それに基づいて生成モデルの内部挙動の傾向に関する分析が可能になると考えている。成果の一部は国内の分野最大規模の学会で発表した。今後は、分析用コーパスの整備とそれを用いたモデルの内部解析を引き続き進めていくとともに、生成時の内容的および表層的多様性に関する独立制御を実現するための方法論についても本格的に検討していく。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

大枠としては当初の計画に沿って進めることができている。昨年は、本課題の遂行において既存のデータセットに加え新たな分析用データセットが必要であることが判明したため、当初の計画には含まれていないデータセットの開発も追加でおこなったが、これがあることによって当初から予定していた深層学習型生成モデルの挙動分析をより効率的におこなうことができる。モデルの分析と並行して、対話応答生成タスクにおける評価尺度についても表層的および内容的多様性の観点から再検討をおこない、それぞれの多様性を適切に定量化するための方法論について議論を進めている。当初の計画で挙げた3つのマイルストーンのうちの2つについてはその達成に向けて問題なく進んでいると考えられるため、順調に進展していると判断する。

Strategy for Future Research Activity

基本的な方針としては、引き続き当初の研究計画に沿って研究を進めていく予定である。少なくとも現時点では、研究計画の変更あるいは見直しはとくに必要ないと判断する。今後、文生成モデルにおいて内容的多様性が欠落する要因を調査していく上で鍵となるのが生成モデルの内部挙動分析における切り口と分析の方法論であるが、ここについては自然言語処理ならびに周辺分野で近年盛んに取り組まれている深層学習・機械学習モデルの解釈性に関する研究領域の知見を積極的に取り入れていくことを考えている。生成時の多様性制御については、まずは表層的多様性を無視してでも内容的多様性を実現することに重点を置き、それを達成した後に表層的多様性と内容的多様性の共存を実現すること目指す。多様性制御の実現度合いを適切に測定するためには、生成モデルの性能を表層的多様性とは明確に分離して内容的多様性の観点から評価する指標や方法論が必要であるため、とくに優先して取り組むべき内容のひとつと認識している。

Causes of Carryover

スケジュールの都合で中止とした出張があった(旅費)。今年度は組織内の計算機をたまたま大量かつ長時間利用することができたため、結果的に外部の計算機資源利用料が浮いた(その他)。余剰分は次年度に持ち越し、同目的で使用予定。

  • Research Products

    (9 results)

All 2024 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (8 results) (of which Invited: 1 results)

  • [Journal Article] Aoba_v3 bot: a multimodal chatbot system combining rules and various response generation models2023

    • Author(s)
      Moriya Shoji、Shiono Daiki、Fujihara Riki、Kishinami Yosuke、Kimura Subaru、Sone Shusaku、Akama Reina、Matsumoto Yuta、Suzuki Jun、Inui Kentaro
    • Journal Title

      Advanced Robotics

      Volume: 37 Pages: 1392~1405

    • DOI

      10.1080/01691864.2023.2240883

    • Peer Reviewed / Open Access
  • [Presentation] 日本語日常対話コーパスへの基礎解析アノテーション2024

    • Author(s)
      赤間 怜奈, 浅原 正幸, 若狭 絢, 大村 舞, 鈴木 潤
    • Organizer
      言語処理学会第30回年次大会
  • [Presentation] LLMを用いた文脈考慮による攻撃性検出性能の改善2024

    • Author(s)
      中野 雄斗, 佐藤 志貴, 赤間 怜奈
    • Organizer
      言語処理学会第30回年次大会
  • [Presentation] 事実正誤判定が不要な生成応答の検出に向けたデータセットの収集と分析2024

    • Author(s)
      亀井 遼平, 塩野 大輝, 赤間 怜奈, 鈴木 潤
    • Organizer
      言語処理学会第30回年次大会
  • [Presentation] 雑談応答生成モデルによる矛盾応答の大規模収集2024

    • Author(s)
      佐藤 志貴, 赤間 怜奈, 鈴木 潤, 乾 健太郎
    • Organizer
      言語処理学会第30回年次大会
  • [Presentation] 選択性を考慮した語彙エントレインメント尺度2024

    • Author(s)
      守屋 彰二, 佐藤 志貴, 徳久 良子, 赤間 怜奈, 横井 祥, 乾 健太郎
    • Organizer
      言語処理学会第30回年次大会
  • [Presentation] 英語中心の大規模言語モデルの言語横断汎化能力2024

    • Author(s)
      謝 素春, 佐々木 翔大, Yunmeng Li, 坂田 将樹, 赤間 怜奈, 鈴木 潤
    • Organizer
      言語処理学会第30回年次大会
  • [Presentation] 応答候補の限られる発話に着目した参照応答ベースの評価基準の分析2024

    • Author(s)
      佐藤 魁, 守屋 彰二, 赤間 怜奈, 鈴木 潤
    • Organizer
      第259回情報処理学会自然言語処理研究発表会
  • [Presentation] 言葉のニュアンスを計算する2023

    • Author(s)
      赤間 怜奈
    • Organizer
      NLP若手の会第18回シンポジウム
    • Invited

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi