抑揚のある自然発話を実現する音声言語獲得エージェント

研究課題

研究課題/領域番号	22K12069
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	東京工業大学
研究代表者	篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)
研究分担者	岡本拓磨国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10551567)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	音声言語獲得 / 教師なし学習 / 強化学習 / 音声言語理解 / 対話システム / 音声合成 / マルチモーダル / 音声認識
研究開始時の研究の概要	人は特定の言語知識を持たない状態で誕生した後に周囲との関りを通して日常生活の中で表現力豊かな音声言語を獲得する、高度な学習能力を持っている。人がどのようにして複雑な学習を効率的に実現しているのかは未だ大きな謎であり、現在の音声対話ロボットの学習能力は人に大きく劣っている。本研究では、人工知能に音声言語を効率的に自動獲得させる仕組みについて取り組む。様々な学習アルゴリズムを相互作用させることで自律的で効率的な学習アルゴリズムを実現し、自動音声言語獲得の基盤技術を確立する。
研究実績の概要	本研究では、内部状態を持ち、内発的動機付けに基づいて音声から言語を自動的に獲得するエージェントについて研究している。本研究における言語獲得のフレームワークでは、エージェントの内部状態（嗜好、知識など）が外部からは直接観測できないものとして扱われる。エージェントは、内部状態に基づく欲求を満たすために外部世界への表現が必要であり、その手段として音声言語の獲得が求められる。初期状態では、エージェントは特定の言語に対する知識は持っていない。この設定では、エージェントが人間の子供のように音声対話を観察し、試行錯誤を通じて言語を獲得する能力が求められる。これまでの研究で、この枠組みを支える基本的な学習アルゴリズムの提案とその動作実証を行った。今年度は、エージェントが音声発話を行う際の意図を連続的な潜在空間でモデル化する提案手法の実験評価と発展に取り組んだ。また、大規模な事前学習済み言語モデルの知識を活用して、エージェントの学習プロセスを加速する手法を検討した。事前学習済みモデルを用いることで、エージェントは広範な言語知識を初期状態として利用できる。この場合、内部的な発話表現と言語モデルの潜在空間間のマッピングを自律的に学習することが主な課題となる。システムのプロトタイプを実装し、連続潜在空間を利用した行動生成とソフトプロンプティングを基本とする言語モデルの接続方法を検証した。さらに、ポアソンフローモデルを用いた音声合成のアプローチについても検討した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由従来の教師なし辞書方式の音声言語獲得機構から言語モデルを用いた学習機構への拡張を行うとともに、シミュレーション実験により有効性を確認している。また教師なしでの音声対話の学習に必要な音声の認識・生成技術に取り組んだ。研究成果を国内の研究会や国際会議で発表するとともに、これまで交流の少なかった関連分野の研究者との意見交換を行った。
今後の研究の推進方策	学習可能なタスクのさらなるスケールアップと、自己教師あり学習のシナリオ下での音声発話の柔軟な自動制御が課題である。大規模言語モデルとの接続において、これまでの実験から、一般的な高性能言語モデルで使用される単語埋め込み空間の次元数が、強化学習で効率的に扱える次元数を大幅に上回っているため、効率的な学習を実現する上での問題であることが明らかになった。今後は、強化学習に適した次元数で連続行動空間を表現しながら、多様な発話を可能にする仕組みの発展に重点を置く。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(14件)

すべて 2023 2022 その他

すべて雑誌論文 (5件) (うち査読あり 5件、オープンアクセス 3件) 学会発表 (7件) 備考 (2件)

[雑誌論文] Memory Network-Based End-To-End Neural ES-KMeans for Improved Word Segmentation2023
- 著者名/発表者名
  Zhou Zehua、Yang Haoyuan、Shinozaki Takahiro
- 雑誌名
  
  Proc. Interspeech
  
  巻: - ページ: 486-490
- DOI
  10.21437/interspeech.2023-1251
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[雑誌論文] Continuous Action Space-based Spoken Language Acquisition Agent Using Residual Sentence Embedding and Transformer Decoder2023
- 著者名/発表者名
  Ryota Komatsu, Yusuke Kimura, Takuma Okamoto, Takahiro Shinozaki
- 雑誌名
  
  Proc. IEEE ICASSP
  
  巻: - ページ: 1-5
- DOI
  10.1109/icassp49357.2023.10096250
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[雑誌論文] Automatic Spoken Language Acquisition Based on Observation and Dialogue2022
- 著者名/発表者名
  Komatsu Ryota、Gao Shengzhou、Hou Wenxin、Zhang Mingxin、Tanaka Tomohiro、Toyoda Keisuke、Kimura Yusuke、Hino Kent、Iwamoto Yu、Mori Kosuke、Okamoto Takuma、Shinozaki Takahiro
- 雑誌名
  
  IEEE Journal of Selected Topics in Signal Processing
  
  巻: 16 号: 6 ページ: 1480-1492
- DOI
  10.1109/jstsp.2022.3189279
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Margin Calibration for Long-Tailed Visual Recognition2022
- 著者名/発表者名
  Yidong Wang、Bowen Zhang、Wenxin Hou、Zhen Wu、Jindong Wang、Takahiro Shinozaki
- 雑誌名
  
  The 14th Asian Conference on Machine Learning
  
  巻: 189
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] DNN-Rule Hybrid Dyna-Q for Sample-Efficient Task-Oriented Dialog Policy Learning2022
- 著者名/発表者名
  Zhang Mingxin、Shinozaki Takahiro
- 雑誌名
  
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
  
  巻: - ページ: 1431-1437
- DOI
  10.23919/apsipaasc55919.2022.9980344
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] A preliminary investigation of Poisson flow model for singing voice synthesis2023
- 著者名/発表者名
  ZHU Tingyuan, OKAMOTO Takuma, SHINOZAKI Takahiro
- 学会等名
  日本音響学会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Investigating Deep Prompting Approach in Spoken Language Acquisition Agent2023
- 著者名/発表者名
  YANG Haoyuan, OKAMOTO Takuma, SHINOZAKI Takahiro
- 学会等名
  日本音響学会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 音声言語獲得を行う自律エージェントの構成法の考察とシステム実装2023
- 著者名/発表者名
  篠崎隆宏, 楊鎬源, Phurich Saengthong, 川北晃太, 岡本拓磨
- 学会等名
  日本ロボット学会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 発的動機付けを備えた自律エージェントによる音声言語獲得2023
- 著者名/発表者名
  篠崎隆宏
- 学会等名
  Language and Robotics
- 関連する報告書
  2023 実施状況報告書
[学会発表] 観察と対話に基づく自律エージェントの音声言語獲得2023
- 著者名/発表者名
  篠崎隆宏
- 学会等名
  公開シンポジウム「計算音響学の目指すもの」
- 関連する報告書
  2022 実施状況報告書
[学会発表] 残差文埋め込みを用いた連続行動空間に基づく音声言語獲得エージェント2023
- 著者名/発表者名
  小松亮太、木村友祐、岡本拓磨、篠崎隆宏
- 学会等名
  日本音響学会2023年春季研究発表会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 高効率対話方策学習のための規則知識を統合した深層DYNA-Q2022
- 著者名/発表者名
  ZHANG Mingxin、篠崎隆宏
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実施状況報告書
[備考] 音声言語獲得公開ソフトウエア
- URL
  https://github.com/tttslab/spolacq
- 関連する報告書
  2023 実施状況報告書
[備考] Spoken Language Acquisition Toolkit
- URL
  https://github.com/tttslab/spolacq
- 関連する報告書
  2022 実施状況報告書

抑揚のある自然発話を実現する音声言語獲得エージェント

研究代表者

篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Memory Network-Based End-To-End Neural ES-KMeans for Improved Word Segmentation2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Continuous Action Space-based Spoken Language Acquisition Agent Using Residual Sentence Embedding and Transformer Decoder2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Automatic Spoken Language Acquisition Based on Observation and Dialogue2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Margin Calibration for Long-Tailed Visual Recognition2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] DNN-Rule Hybrid Dyna-Q for Sample-Efficient Task-Oriented Dialog Policy Learning2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] A preliminary investigation of Poisson flow model for singing voice synthesis2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Investigating Deep Prompting Approach in Spoken Language Acquisition Agent2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声言語獲得を行う自律エージェントの構成法 の考察とシステム実装2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 発的動機付けを備えた自律エージェントによる音声言語獲得2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 観察と対話に基づく自律エージェントの音声言語獲得2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 残差文埋め込みを用いた連続行動空間に基づく音声言語獲得エージェント2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 高効率対話方策学習のための規則知識を統合した深層DYNA-Q2022

著者名/発表者名

学会等名

関連する報告書

[備考] 音声言語獲得公開ソフトウエア

URL

関連する報告書

[備考] Spoken Language Acquisition Toolkit

URL

関連する報告書

篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)

[学会発表] 音声言語獲得を行う自律エージェントの構成法の考察とシステム実装2023