2022 Fiscal Year Research-status Report
Spoken Language Acquisition Agent with Fluent Intonation
Project/Area Number |
22K12069
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)
|
Co-Investigator(Kenkyū-buntansha) |
岡本 拓磨 国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10551567)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 音声言語獲得 / 教師なし学習 / 強化学習 / 音声言語理解 / 対話システム / 音声合成 / マルチモーダル |
Outline of Annual Research Achievements |
音声対話エージェントが人手によるラベル付きデータに頼らずにマイクロホンやカメラを通して知覚した音声や画像から直接音声言語を学習する、音声言語獲得の仕組みについて取り組んだ。発達心理学的な知見から、エージェントが特定の言語に対する知識を持たない初期状態から出発し、共起する音声と画像の観察と対話の試行錯誤を通して自律的に音声言語を獲得することを実験タスクとしている。 従来法は、エージェントの内部・外部状態に対して教師なし学習した音声辞書から単語を選択することにより最適な発話を行う仕組みとなっている。そのため、発話文が一単語発話に限られている制約がある。また音声発話の個人差を扱うことの困難性から、評価実験では合成音声が用いられていた。 本年度は、従来の音声辞書に代えて書き起こしの無い音声から教師なし学習した言語モデルを使用する提案手法に取り組んだ。従来法では、音声と画像の共起をもとにした注意機構により強化学習の効率を高めていた。提案法ではそれに代わる仕組みとして、画像から文章を生成するニューラルネットと文章を入出力とするオートエンコーダを組み合わせた構造を持つネットワークをエージェントの方策関数として用いる。これにより画像と音声の関連性を教師なし学習し、エージェントが状態(場面)に応じた発話を強化学習により効率的に学習することが可能となった。また、多数話者により発声された音声をもとにエージェントの発声器官としての音声合成システムを教師なし学習する仕組みについて検討を進め、エージェントが合成音声データに変えて実音声データから音声発声を学習するための基礎的な結果を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
従来の音声言語獲得エージェントは書き起こしラベルや特定の言語に対する事前知識に頼ることなく、人間では1歳児程度に相当する一単語発声を音声の観察及び対話の試行錯誤から学習できることが示されていた。しかし、単語を組み合わせて文発声をする2歳児相当以上の学習能力を持たせることは、従来法の仕組みでは難しかった。それに対して、教師なし学習により初期学習した画像認識器や音声認識器、音声合成器、画像からの文生成器などを構要素として音声対話エージェントを構成することで強化学習により効率的に音声対話を学習する仕組みを提案するとともに、計算機実験によりその有効性を示すことが出来た。 研究成果を国内外の学会で発表するとともに、論文誌による発表も行った。また、発達心理学の専門家と意見交換を行い、人間の言語学習の数学モデルとしての可能性についても考察を進めた。
|
Strategy for Future Research Activity |
初年度の研究により、従来の一単語発声に変えて複数単語発声を行うための基本的な仕組みを実現することが出来た。また、従来合成音声に限定されていた学習用音声データに実音声を使用できる見込みが得られた。これらの成果をもとに、今後は観察学習で使用するデータを大幅に増やすことによる言語獲得能力のスケールアップに取り組む予定である。 言語処理分野ではChat GPTをはじめとする大規模言語モデルを用いたテキストベースの高性能な対話システムが大きな話題となっており、自然言語処理研究の研究方法にも大きな変化が生じている。Chat GPTは、ネット上でテキスト化されたデータから学習を行っている。それに対して本研究で取り組んでいる音声言語獲得は、エージェントが人間社会の中でクローズドな学習ループを形成し直接音声対話から学習を進めようとする点でより一般的で柔軟な学習能力を実現しようとするものである。大規模言語モデルの研究成果は提案エージェントにおいて方策関数の一部として用いている教師なし言語モデルに応用することができ、今後積極的に取り込んでいく予定である。
|
Causes of Carryover |
コロナ禍により旅費支出の予想が難しかったことと、既存設備の状況と研究の進捗の状況から備品支出の最適化を行ったことなどのために次年度使用額が生じた。繰り越した予算は備品の購入や成果発表関連費に使用する予定である。
|