• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実施状況報告書

抑揚のある自然発話を実現する音声言語獲得エージェント

研究課題

研究課題/領域番号 22K12069
研究機関東京工業大学

研究代表者

篠崎 隆宏  東京工業大学, 工学院, 准教授 (80447903)

研究分担者 岡本 拓磨  国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10551567)
研究期間 (年度) 2022-04-01 – 2025-03-31
キーワード音声言語獲得 / 教師なし学習 / 強化学習 / 音声言語理解 / 対話システム / 音声合成 / マルチモーダル
研究実績の概要

音声対話エージェントが人手によるラベル付きデータに頼らずにマイクロホンやカメラを通して知覚した音声や画像から直接音声言語を学習する、音声言語獲得の仕組みについて取り組んだ。発達心理学的な知見から、エージェントが特定の言語に対する知識を持たない初期状態から出発し、共起する音声と画像の観察と対話の試行錯誤を通して自律的に音声言語を獲得することを実験タスクとしている。
従来法は、エージェントの内部・外部状態に対して教師なし学習した音声辞書から単語を選択することにより最適な発話を行う仕組みとなっている。そのため、発話文が一単語発話に限られている制約がある。また音声発話の個人差を扱うことの困難性から、評価実験では合成音声が用いられていた。
本年度は、従来の音声辞書に代えて書き起こしの無い音声から教師なし学習した言語モデルを使用する提案手法に取り組んだ。従来法では、音声と画像の共起をもとにした注意機構により強化学習の効率を高めていた。提案法ではそれに代わる仕組みとして、画像から文章を生成するニューラルネットと文章を入出力とするオートエンコーダを組み合わせた構造を持つネットワークをエージェントの方策関数として用いる。これにより画像と音声の関連性を教師なし学習し、エージェントが状態(場面)に応じた発話を強化学習により効率的に学習することが可能となった。また、多数話者により発声された音声をもとにエージェントの発声器官としての音声合成システムを教師なし学習する仕組みについて検討を進め、エージェントが合成音声データに変えて実音声データから音声発声を学習するための基礎的な結果を得た。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

従来の音声言語獲得エージェントは書き起こしラベルや特定の言語に対する事前知識に頼ることなく、人間では1歳児程度に相当する一単語発声を音声の観察及び対話の試行錯誤から学習できることが示されていた。しかし、単語を組み合わせて文発声をする2歳児相当以上の学習能力を持たせることは、従来法の仕組みでは難しかった。それに対して、教師なし学習により初期学習した画像認識器や音声認識器、音声合成器、画像からの文生成器などを構要素として音声対話エージェントを構成することで強化学習により効率的に音声対話を学習する仕組みを提案するとともに、計算機実験によりその有効性を示すことが出来た。
研究成果を国内外の学会で発表するとともに、論文誌による発表も行った。また、発達心理学の専門家と意見交換を行い、人間の言語学習の数学モデルとしての可能性についても考察を進めた。

今後の研究の推進方策

初年度の研究により、従来の一単語発声に変えて複数単語発声を行うための基本的な仕組みを実現することが出来た。また、従来合成音声に限定されていた学習用音声データに実音声を使用できる見込みが得られた。これらの成果をもとに、今後は観察学習で使用するデータを大幅に増やすことによる言語獲得能力のスケールアップに取り組む予定である。
言語処理分野ではChat GPTをはじめとする大規模言語モデルを用いたテキストベースの高性能な対話システムが大きな話題となっており、自然言語処理研究の研究方法にも大きな変化が生じている。Chat GPTは、ネット上でテキスト化されたデータから学習を行っている。それに対して本研究で取り組んでいる音声言語獲得は、エージェントが人間社会の中でクローズドな学習ループを形成し直接音声対話から学習を進めようとする点でより一般的で柔軟な学習能力を実現しようとするものである。大規模言語モデルの研究成果は提案エージェントにおいて方策関数の一部として用いている教師なし言語モデルに応用することができ、今後積極的に取り込んでいく予定である。

次年度使用額が生じた理由

コロナ禍により旅費支出の予想が難しかったことと、既存設備の状況と研究の進捗の状況から備品支出の最適化を行ったことなどのために次年度使用額が生じた。繰り越した予算は備品の購入や成果発表関連費に使用する予定である。

  • 研究成果

    (7件)

すべて 2023 2022 その他

すべて 雑誌論文 (3件) (うち査読あり 3件、 オープンアクセス 3件) 学会発表 (3件) 備考 (1件)

  • [雑誌論文] Automatic Spoken Language Acquisition Based on Observation and Dialogue2022

    • 著者名/発表者名
      Komatsu Ryota、Gao Shengzhou、Hou Wenxin、Zhang Mingxin、Tanaka Tomohiro、Toyoda Keisuke、Kimura Yusuke、Hino Kent、Iwamoto Yu、Mori Kosuke、Okamoto Takuma、Shinozaki Takahiro
    • 雑誌名

      IEEE Journal of Selected Topics in Signal Processing

      巻: 16 ページ: 1480~1492

    • DOI

      10.1109/JSTSP.2022.3189279

    • 査読あり / オープンアクセス
  • [雑誌論文] Margin Calibration for Long-Tailed Visual Recognition2022

    • 著者名/発表者名
      Yidong Wang、Bowen Zhang、Wenxin Hou、Zhen Wu、Jindong Wang、Takahiro Shinozaki
    • 雑誌名

      The 14th Asian Conference on Machine Learning

      巻: 189 ページ: 1101--1116

    • 査読あり / オープンアクセス
  • [雑誌論文] DNN-Rule Hybrid Dyna-Q for Sample-Efficient Task-Oriented Dialog Policy Learning2022

    • 著者名/発表者名
      Zhang Mingxin、Shinozaki Takahiro
    • 雑誌名

      Asia-Pacific Signal and Information Processing Association Annual Summit and Conference

      巻: - ページ: 1431-1437

    • DOI

      10.23919/APSIPAASC55919.2022.9980344

    • 査読あり / オープンアクセス
  • [学会発表] 観察と対話に基づく自律エージェントの音声言語獲得2023

    • 著者名/発表者名
      篠崎隆宏
    • 学会等名
      公開シンポジウム「計算音響学の目指すもの」
  • [学会発表] 残差文埋め込みを用いた連続行動空間に基づく音声言語獲得エージェント2023

    • 著者名/発表者名
      小松 亮太、木村 友祐、岡本 拓磨、篠崎 隆宏
    • 学会等名
      日本音響学会2023年春季研究発表会
  • [学会発表] 高効率対話方策学習のための規則知識を統合した深層DYNA-Q2022

    • 著者名/発表者名
      ZHANG Mingxin、篠崎 隆宏
    • 学会等名
      日本音響学会2022年秋季研究発表会
  • [備考] Spoken Language Acquisition Toolkit

    • URL

      https://github.com/tttslab/spolacq

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi