• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

Spoken Language Acquisition Agent with Fluent Intonation

Research Project

Project/Area Number 22K12069
Research InstitutionTokyo Institute of Technology

Principal Investigator

篠崎 隆宏  東京工業大学, 工学院, 准教授 (80447903)

Co-Investigator(Kenkyū-buntansha) 岡本 拓磨  国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10551567)
Project Period (FY) 2022-04-01 – 2025-03-31
Keywords音声言語獲得 / 教師なし学習 / 強化学習 / 音声言語理解 / 対話システム / 音声合成 / マルチモーダル
Outline of Annual Research Achievements

本研究では、内部状態を持ち、内発的動機付けに基づいて音声から言語を自動的に獲得するエージェントについて研究している。本研究における言語獲得のフレームワークでは、エージェントの内部状態(嗜好、知識など)が外部からは直接観測できないものとして扱われる。エージェントは、内部状態に基づく欲求を満たすために外部世界への表現が必要であり、その手段として音声言語の獲得が求められる。初期状態では、エージェントは特定の言語に対する知識は持っていない。この設定では、エージェントが人間の子供のように音声対話を観察し、試行錯誤を通じて言語を獲得する能力が求められる。これまでの研究で、この枠組みを支える基本的な学習アルゴリズムの提案とその動作実証を行った。
今年度は、エージェントが音声発話を行う際の意図を連続的な潜在空間でモデル化する提案手法の実験評価と発展に取り組んだ。また、大規模な事前学習済み言語モデルの知識を活用して、エージェントの学習プロセスを加速する手法を検討した。事前学習済みモデルを用いることで、エージェントは広範な言語知識を初期状態として利用できる。この場合、内部的な発話表現と言語モデルの潜在空間間のマッピングを自律的に学習することが主な課題となる。システムのプロトタイプを実装し、連続潜在空間を利用した行動生成とソフトプロンプティングを基本とする言語モデルの接続方法を検証した。さらに、ポアソンフローモデルを用いた音声合成のアプローチについても検討した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

従来の教師なし辞書方式の音声言語獲得機構から言語モデルを用いた学習機構への拡張を行うとともに、シミュレーション実験により有効性を確認している。また教師なしでの音声対話の学習に必要な音声の認識・生成技術に取り組んだ。研究成果を国内の研究会や国際会議で発表するとともに、これまで交流の少なかった関連分野の研究者との意見交換を行った。

Strategy for Future Research Activity

学習可能なタスクのさらなるスケールアップと、自己教師あり学習のシナリオ下での音声発話の柔軟な自動制御が課題である。大規模言語モデルとの接続において、これまでの実験から、一般的な高性能言語モデルで使用される単語埋め込み空間の次元数が、強化学習で効率的に扱える次元数を大幅に上回っているため、効率的な学習を実現する上での問題であることが明らかになった。今後は、強化学習に適した次元数で連続行動空間を表現しながら、多様な発話を可能にする仕組みの発展に重点を置く。

Causes of Carryover

既存設備と研究の進捗の状況から備品支出の最適化を行ったことなどのために次年度使用額が生じた。繰り越した予算は備品の購入や成果発表関連費に使用する予定である。

  • Research Products

    (7 results)

All 2023 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (4 results) Remarks (1 results)

  • [Journal Article] Memory Network-Based End-To-End Neural ES-KMeans for Improved Word Segmentation2023

    • Author(s)
      Zhou Zehua、Yang Haoyuan、Shinozaki Takahiro
    • Journal Title

      Proc. Interspeech

      Volume: - Pages: 486-490

    • DOI

      10.21437/Interspeech.2023-1251

    • Peer Reviewed
  • [Journal Article] Continuous Action Space-based Spoken Language Acquisition Agent Using Residual Sentence Embedding and Transformer Decoder2023

    • Author(s)
      Ryota Komatsu, Yusuke Kimura, Takuma Okamoto, Takahiro Shinozaki
    • Journal Title

      Proc. IEEE ICASSP

      Volume: - Pages: -

    • DOI

      10.1109/ICASSP49357.2023.10096250

    • Peer Reviewed
  • [Presentation] A preliminary investigation of Poisson flow model for singing voice synthesis2023

    • Author(s)
      ZHU Tingyuan, OKAMOTO Takuma, SHINOZAKI Takahiro
    • Organizer
      日本音響学会
  • [Presentation] Investigating Deep Prompting Approach in Spoken Language Acquisition Agent2023

    • Author(s)
      YANG Haoyuan, OKAMOTO Takuma, SHINOZAKI Takahiro
    • Organizer
      日本音響学会
  • [Presentation] 音声言語獲得を行う自律エージェントの構成法 の考察とシステム実装2023

    • Author(s)
      篠崎 隆宏, 楊 鎬源, Phurich Saengthong, 川北 晃太, 岡本 拓磨
    • Organizer
      日本ロボット学会
  • [Presentation] 発的動機付けを備えた自律エージェントによる音声言語獲得2023

    • Author(s)
      篠崎 隆宏
    • Organizer
      Language and Robotics
  • [Remarks] 音声言語獲得公開ソフトウエア

    • URL

      https://github.com/tttslab/spolacq

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi