• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

音声対話系の統一的モデリングに基づくユーザへのモデル自動適応

Research Project

Project/Area Number 23K28147
Project/Area Number (Other) 23H03457 (2023)
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeMulti-year Fund (2024)
Single-year Grants (2023)
Section一般
Review Section Basic Section 61030:Intelligent informatics-related
Basic Section 60030:Statistical science-related
Sections That Are Subject to Joint Review: Basic Section60030:Statistical science-related , Basic Section61030:Intelligent informatics-related
Research InstitutionOsaka University

Principal Investigator

武田 龍  大阪大学, 産業科学研究所, 准教授 (20749527)

Project Period (FY) 2023-04-01 – 2027-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥18,720,000 (Direct Cost: ¥14,400,000、Indirect Cost: ¥4,320,000)
Fiscal Year 2026: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2025: ¥5,590,000 (Direct Cost: ¥4,300,000、Indirect Cost: ¥1,290,000)
Fiscal Year 2024: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2023: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
Keywords音声対話システム / モデル適応 / 音声認識 / 統一的モデル化 / 音声認識モデル / 知識グラフ / ユーザ応答予測
Outline of Research at the Start

ロボットによるサービスタスクでは,その場の状況やユーザが持つ知識を会話から理解することが不可欠である.本研究では,音声対話系の統一的モデリングに基づいて,対話の状態やモデルを自動的にユーザへ適応する.統一的モデルによって予想するユーザ発話と実際の発話を比較し,システムとユーザ間に状況や知識に関する認識誤りや齟齬がないかを判断する.その違いを埋めるようにモデルへ適切にフィードバックすることでユーザへの適応を実現する.開発者が事前に詳細まで作り込む必要がない,ユーザと話せばわかる音声対話システムの実現を目指す.

Outline of Annual Research Achievements

本年度は,3つの課題の内,①統一的モデル化に向けた要素技術開発と③対話的学習に取り組み,音声対話システムの基盤モデル構築も進めた.
要素技術開発では,2つのモデルを統合するための技術開発を進めた.まず,ミッシングデータ技術を応用し,音声強調モデルの信頼度を音声認識モデル内へ伝播させることで,雑音環境下での認識率を改善した.本技術は別のモデル間の統合にも応用できる.次に,知識モデル(知識グラフ)と大規模言語モデル,エンティティ同定モデルを生成モデルの枠組みで解釈・統合し,未知エンティティの補完技術を開発した.これらは,査読付き国際会議 APSIPA,PRICAI,IJCKG で発表し,IJCKG では Best Research Paper を受賞した.
次に,対話的学習では,ユーザ応答の予測や未知語認識の高精度化に取り組んだ.第一歩として,システムがユーザに未知語を確認して教わるという状況を取り扱った.システムの質問に対するユーザ応答パタンをモデル化し,認識の際に言語予測モデルとして活用することで未知語の検出精度を改善した.また,未知語認識で用いられる音声認識と単語分割モデルに関して,性質の異なるモデルを複数統合することで未知語の検出精度を改善した.これらは,査読付き国際会議 APSIPA, IWSDS で発表した.
最後に基盤モデル構築では,実環境下で動作する音声対話システム実装のため,雑音に頑健な音声認識モデル・音声区間検出モデルの構築を進めた.複数の音声・非音声コーパスを活用し,1000時間を超えるデータを用いて各モデルのマルチコンディション学習を行った.公開に向けた準備を進めている.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

統合モデル化や対話的学習についてはおおむね順調に進展している.要素モデルに関しては音声強調モデルから知識モデルまで一通り扱い,また,対話的学習ではユーザ応答のモデル化にも着手し,国際会議で成果発表を行った.シチュエーションを限定してはいるが,音声対話システムを用いた会話データ収集も進めており,次年度に向けた準備も行えた.

Strategy for Future Research Activity

本年度の取り組みをより一般化していく方向で進める.統合モデル化では,3つ以上のモデル間の統合,ユーザの知識モデル予測などに着手する.対話的学習では,まずシチュエーションを限定したうえで,データ収集とユーザ応答・対話モデルの拡張を進める.そこに,語彙や知識モデルの適応を織り交ぜて進めていく.得られた成果は適宜,査読付き国際会議などへ投稿する.

Report

(1 results)
  • 2023 Annual Research Report
  • Research Products

    (7 results)

All 2024 2023

All Journal Article (5 results) (of which Peer Reviewed: 5 results) Presentation (2 results)

  • [Journal Article] Toward OOV-word Acquisition during Spoken Dialogue using Syllable-based ASR and Word Segmentation2024

    • Author(s)
      Ryu Takeda, Kazunori Komatani
    • Journal Title

      Proceedings of International Workshop on Spoken Dialogue Systems (IWSDS)

      Volume: -

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Link Prediction Based on Large Language Model and Knowledge Graph Retrieval under Open-World and Resource-Restricted Environment2023

    • Author(s)
      Ryu Takeda, Hokuto Munakata, Kazunori Komatani
    • Journal Title

      Proceedings of International Joint Conference on Knowledge Graphs (IJCKG)

      Volume: -

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Flexible Evidence Model to Reduce Uncertainty Mismatch Between Speech Enhancement and ASR Based on Encoder-Decoder Architecture2023

    • Author(s)
      Takeda Ryu, Sudo Yui, Komatani Kazunori
    • Journal Title

      Proceedings of Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)

      Volume: - Pages: 1830-1837

    • DOI

      10.1109/apsipaasc58517.2023.10317247

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Out-Of-Vocabulary Word Detection in Spoken Dialogues Based on Joint Decoding with User Response Patterns2023

    • Author(s)
      Miki Oshio, Hokuto Munakata, Ryu Takeda, Kazunori Komatani
    • Journal Title

      Proceedings of Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)

      Volume: - Pages: 1753-1759

    • DOI

      10.1109/apsipaasc58517.2023.10317375

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Knowledge Graph Augmentation with Entity Identification for Improving Knowledge Graph Completion Performance2023

    • Author(s)
      Shuichi Chikatsuji, Kenta Yamamoto, Ryu Takeda, Kazunori Komatani
    • Journal Title

      Proceedings of Pacific Rim International Conference on Artificial Intelligence (PRICAI)

      Volume: - Pages: 480-487

    • DOI

      10.1007/978-981-99-7019-3_43

    • ISBN
      9789819970186, 9789819970193
    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Presentation] 誤りを含む音節認識結果に対応する知識グラフ内エンティティの同定2024

    • Author(s)
      平川 巧人,大塩 幹,近辻 脩壱,武田 龍,駒谷 和範
    • Organizer
      情報処理学会全国大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 未知語認識機能を有する音声対話システムの構築とデータ収集2024

    • Author(s)
      大塩 幹,武田 龍,駒谷 和範
    • Organizer
      情報処理学会全国大会
    • Related Report
      2023 Annual Research Report

URL: 

Published: 2023-04-18   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi