2022 Fiscal Year Research-status Report

Spoken Language Acquisition Agent with Fluent Intonation

Research Project

Project/Area Number	22K12069
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)
Co-Investigator(Kenkyū-buntansha)	岡本拓磨国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10551567)
Project Period (FY)	2022-04-01 – 2025-03-31
Keywords	音声言語獲得 / 教師なし学習 / 強化学習 / 音声言語理解 / 対話システム / 音声合成 / マルチモーダル
Outline of Annual Research Achievements	音声対話エージェントが人手によるラベル付きデータに頼らずにマイクロホンやカメラを通して知覚した音声や画像から直接音声言語を学習する、音声言語獲得の仕組みについて取り組んだ。発達心理学的な知見から、エージェントが特定の言語に対する知識を持たない初期状態から出発し、共起する音声と画像の観察と対話の試行錯誤を通して自律的に音声言語を獲得することを実験タスクとしている。従来法は、エージェントの内部・外部状態に対して教師なし学習した音声辞書から単語を選択することにより最適な発話を行う仕組みとなっている。そのため、発話文が一単語発話に限られている制約がある。また音声発話の個人差を扱うことの困難性から、評価実験では合成音声が用いられていた。本年度は、従来の音声辞書に代えて書き起こしの無い音声から教師なし学習した言語モデルを使用する提案手法に取り組んだ。従来法では、音声と画像の共起をもとにした注意機構により強化学習の効率を高めていた。提案法ではそれに代わる仕組みとして、画像から文章を生成するニューラルネットと文章を入出力とするオートエンコーダを組み合わせた構造を持つネットワークをエージェントの方策関数として用いる。これにより画像と音声の関連性を教師なし学習し、エージェントが状態（場面）に応じた発話を強化学習により効率的に学習することが可能となった。また、多数話者により発声された音声をもとにエージェントの発声器官としての音声合成システムを教師なし学習する仕組みについて検討を進め、エージェントが合成音声データに変えて実音声データから音声発声を学習するための基礎的な結果を得た。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 従来の音声言語獲得エージェントは書き起こしラベルや特定の言語に対する事前知識に頼ることなく、人間では1歳児程度に相当する一単語発声を音声の観察及び対話の試行錯誤から学習できることが示されていた。しかし、単語を組み合わせて文発声をする2歳児相当以上の学習能力を持たせることは、従来法の仕組みでは難しかった。それに対して、教師なし学習により初期学習した画像認識器や音声認識器、音声合成器、画像からの文生成器などを構要素として音声対話エージェントを構成することで強化学習により効率的に音声対話を学習する仕組みを提案するとともに、計算機実験によりその有効性を示すことが出来た。研究成果を国内外の学会で発表するとともに、論文誌による発表も行った。また、発達心理学の専門家と意見交換を行い、人間の言語学習の数学モデルとしての可能性についても考察を進めた。
Strategy for Future Research Activity	初年度の研究により、従来の一単語発声に変えて複数単語発声を行うための基本的な仕組みを実現することが出来た。また、従来合成音声に限定されていた学習用音声データに実音声を使用できる見込みが得られた。これらの成果をもとに、今後は観察学習で使用するデータを大幅に増やすことによる言語獲得能力のスケールアップに取り組む予定である。言語処理分野ではChat GPTをはじめとする大規模言語モデルを用いたテキストベースの高性能な対話システムが大きな話題となっており、自然言語処理研究の研究方法にも大きな変化が生じている。Chat GPTは、ネット上でテキスト化されたデータから学習を行っている。それに対して本研究で取り組んでいる音声言語獲得は、エージェントが人間社会の中でクローズドな学習ループを形成し直接音声対話から学習を進めようとする点でより一般的で柔軟な学習能力を実現しようとするものである。大規模言語モデルの研究成果は提案エージェントにおいて方策関数の一部として用いている教師なし言語モデルに応用することができ、今後積極的に取り込んでいく予定である。
Causes of Carryover	コロナ禍により旅費支出の予想が難しかったことと、既存設備の状況と研究の進捗の状況から備品支出の最適化を行ったことなどのために次年度使用額が生じた。繰り越した予算は備品の購入や成果発表関連費に使用する予定である。

Research Products
(7 results)

All 2023 2022 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results, Open Access: 3 results) Presentation (3 results) Remarks (1 results)

[Journal Article] Automatic Spoken Language Acquisition Based on Observation and Dialogue2022
- Author(s)
  Komatsu Ryota、Gao Shengzhou、Hou Wenxin、Zhang Mingxin、Tanaka Tomohiro、Toyoda Keisuke、Kimura Yusuke、Hino Kent、Iwamoto Yu、Mori Kosuke、Okamoto Takuma、Shinozaki Takahiro
- Journal Title
  
  IEEE Journal of Selected Topics in Signal Processing
  
  Volume: 16 Pages: 1480～1492
- DOI
  10.1109/JSTSP.2022.3189279
- Peer Reviewed / Open Access
[Journal Article] Margin Calibration for Long-Tailed Visual Recognition2022
- Author(s)
  Yidong Wang、Bowen Zhang、Wenxin Hou、Zhen Wu、Jindong Wang、Takahiro Shinozaki
- Journal Title
  
  The 14th Asian Conference on Machine Learning
  
  Volume: 189 Pages: 1101--1116
- Peer Reviewed / Open Access
[Journal Article] DNN-Rule Hybrid Dyna-Q for Sample-Efficient Task-Oriented Dialog Policy Learning2022
- Author(s)
  Zhang Mingxin、Shinozaki Takahiro
- Journal Title
  
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
  
  Volume: - Pages: 1431-1437
- DOI
  10.23919/APSIPAASC55919.2022.9980344
- Peer Reviewed / Open Access
[Presentation] 観察と対話に基づく自律エージェントの音声言語獲得2023
- Author(s)
  篠崎隆宏
- Organizer
  公開シンポジウム「計算音響学の目指すもの」
[Presentation] 残差文埋め込みを用いた連続行動空間に基づく音声言語獲得エージェント2023
- Author(s)
  小松亮太、木村友祐、岡本拓磨、篠崎隆宏
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] 高効率対話方策学習のための規則知識を統合した深層DYNA-Q2022
- Author(s)
  ZHANG Mingxin、篠崎隆宏
- Organizer
  日本音響学会2022年秋季研究発表会
[Remarks] Spoken Language Acquisition Toolkit
- URL
  https://github.com/tttslab/spolacq

2022 Fiscal Year Research-status Report

Spoken Language Acquisition Agent with Fluent Intonation

Principal Investigator

篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Automatic Spoken Language Acquisition Based on Observation and Dialogue2022

Author(s)

Journal Title

DOI

[Journal Article] Margin Calibration for Long-Tailed Visual Recognition2022

Author(s)

Journal Title

[Journal Article] DNN-Rule Hybrid Dyna-Q for Sample-Efficient Task-Oriented Dialog Policy Learning2022

Author(s)

Journal Title

DOI

[Presentation] 観察と対話に基づく自律エージェントの音声言語獲得2023

Author(s)

Organizer

[Presentation] 残差文埋め込みを用いた連続行動空間に基づく音声言語獲得エージェント2023

Author(s)

Organizer

[Presentation] 高効率対話方策学習のための規則知識を統合した深層DYNA-Q2022

Author(s)

Organizer

[Remarks] Spoken Language Acquisition Toolkit

URL

篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)