研究課題/領域番号 |
22K12069
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 東京工業大学 |
研究代表者 |
篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)
|
研究分担者 |
岡本 拓磨 国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10551567)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 音声言語獲得 / 教師なし学習 / 強化学習 / 音声言語理解 / 対話システム / 音声合成 / マルチモーダル / 音声認識 |
研究開始時の研究の概要 |
人は特定の言語知識を持たない状態で誕生した後に周囲との関りを通して日常生活の中で表現力豊かな音声言語を獲得する、高度な学習能力を持っている。人がどのようにして複雑な学習を効率的に実現しているのかは未だ大きな謎であり、現在の音声対話ロボットの学習能力は人に大きく劣っている。本研究では、人工知能に音声言語を効率的に自動獲得させる仕組みについて取り組む。様々な学習アルゴリズムを相互作用させることで自律的で効率的な学習アルゴリズムを実現し、自動音声言語獲得の基盤技術を確立する。
|
研究実績の概要 |
音声対話エージェントが人手によるラベル付きデータに頼らずにマイクロホンやカメラを通して知覚した音声や画像から直接音声言語を学習する、音声言語獲得の仕組みについて取り組んだ。発達心理学的な知見から、エージェントが特定の言語に対する知識を持たない初期状態から出発し、共起する音声と画像の観察と対話の試行錯誤を通して自律的に音声言語を獲得することを実験タスクとしている。 従来法は、エージェントの内部・外部状態に対して教師なし学習した音声辞書から単語を選択することにより最適な発話を行う仕組みとなっている。そのため、発話文が一単語発話に限られている制約がある。また音声発話の個人差を扱うことの困難性から、評価実験では合成音声が用いられていた。 本年度は、従来の音声辞書に代えて書き起こしの無い音声から教師なし学習した言語モデルを使用する提案手法に取り組んだ。従来法では、音声と画像の共起をもとにした注意機構により強化学習の効率を高めていた。提案法ではそれに代わる仕組みとして、画像から文章を生成するニューラルネットと文章を入出力とするオートエンコーダを組み合わせた構造を持つネットワークをエージェントの方策関数として用いる。これにより画像と音声の関連性を教師なし学習し、エージェントが状態(場面)に応じた発話を強化学習により効率的に学習することが可能となった。また、多数話者により発声された音声をもとにエージェントの発声器官としての音声合成システムを教師なし学習する仕組みについて検討を進め、エージェントが合成音声データに変えて実音声データから音声発声を学習するための基礎的な結果を得た。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
従来の音声言語獲得エージェントは書き起こしラベルや特定の言語に対する事前知識に頼ることなく、人間では1歳児程度に相当する一単語発声を音声の観察及び対話の試行錯誤から学習できることが示されていた。しかし、単語を組み合わせて文発声をする2歳児相当以上の学習能力を持たせることは、従来法の仕組みでは難しかった。それに対して、教師なし学習により初期学習した画像認識器や音声認識器、音声合成器、画像からの文生成器などを構要素として音声対話エージェントを構成することで強化学習により効率的に音声対話を学習する仕組みを提案するとともに、計算機実験によりその有効性を示すことが出来た。 研究成果を国内外の学会で発表するとともに、論文誌による発表も行った。また、発達心理学の専門家と意見交換を行い、人間の言語学習の数学モデルとしての可能性についても考察を進めた。
|
今後の研究の推進方策 |
初年度の研究により、従来の一単語発声に変えて複数単語発声を行うための基本的な仕組みを実現することが出来た。また、従来合成音声に限定されていた学習用音声データに実音声を使用できる見込みが得られた。これらの成果をもとに、今後は観察学習で使用するデータを大幅に増やすことによる言語獲得能力のスケールアップに取り組む予定である。 言語処理分野ではChat GPTをはじめとする大規模言語モデルを用いたテキストベースの高性能な対話システムが大きな話題となっており、自然言語処理研究の研究方法にも大きな変化が生じている。Chat GPTは、ネット上でテキスト化されたデータから学習を行っている。それに対して本研究で取り組んでいる音声言語獲得は、エージェントが人間社会の中でクローズドな学習ループを形成し直接音声対話から学習を進めようとする点でより一般的で柔軟な学習能力を実現しようとするものである。大規模言語モデルの研究成果は提案エージェントにおいて方策関数の一部として用いている教師なし言語モデルに応用することができ、今後積極的に取り込んでいく予定である。
|