研究課題/領域番号 |
23K28147
|
補助金の研究課題番号 |
23H03457 (2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2023) |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
小区分60030:統計科学関連
合同審査対象区分:小区分60030:統計科学関連、小区分61030:知能情報学関連
|
研究機関 | 大阪大学 |
研究代表者 |
武田 龍 大阪大学, 産業科学研究所, 准教授 (20749527)
|
研究期間 (年度) |
2023-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
18,720千円 (直接経費: 14,400千円、間接経費: 4,320千円)
2026年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2025年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円)
2024年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
2023年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円)
|
キーワード | 音声対話システム / モデル適応 / 音声認識 / 統一的モデル化 / 音声認識モデル / 知識グラフ / ユーザ応答予測 |
研究開始時の研究の概要 |
ロボットによるサービスタスクでは,その場の状況やユーザが持つ知識を会話から理解することが不可欠である.本研究では,音声対話系の統一的モデリングに基づいて,対話の状態やモデルを自動的にユーザへ適応する.統一的モデルによって予想するユーザ発話と実際の発話を比較し,システムとユーザ間に状況や知識に関する認識誤りや齟齬がないかを判断する.その違いを埋めるようにモデルへ適切にフィードバックすることでユーザへの適応を実現する.開発者が事前に詳細まで作り込む必要がない,ユーザと話せばわかる音声対話システムの実現を目指す.
|
研究実績の概要 |
本年度は,3つの課題の内,①統一的モデル化に向けた要素技術開発と③対話的学習に取り組み,音声対話システムの基盤モデル構築も進めた. 要素技術開発では,2つのモデルを統合するための技術開発を進めた.まず,ミッシングデータ技術を応用し,音声強調モデルの信頼度を音声認識モデル内へ伝播させることで,雑音環境下での認識率を改善した.本技術は別のモデル間の統合にも応用できる.次に,知識モデル(知識グラフ)と大規模言語モデル,エンティティ同定モデルを生成モデルの枠組みで解釈・統合し,未知エンティティの補完技術を開発した.これらは,査読付き国際会議 APSIPA,PRICAI,IJCKG で発表し,IJCKG では Best Research Paper を受賞した. 次に,対話的学習では,ユーザ応答の予測や未知語認識の高精度化に取り組んだ.第一歩として,システムがユーザに未知語を確認して教わるという状況を取り扱った.システムの質問に対するユーザ応答パタンをモデル化し,認識の際に言語予測モデルとして活用することで未知語の検出精度を改善した.また,未知語認識で用いられる音声認識と単語分割モデルに関して,性質の異なるモデルを複数統合することで未知語の検出精度を改善した.これらは,査読付き国際会議 APSIPA, IWSDS で発表した. 最後に基盤モデル構築では,実環境下で動作する音声対話システム実装のため,雑音に頑健な音声認識モデル・音声区間検出モデルの構築を進めた.複数の音声・非音声コーパスを活用し,1000時間を超えるデータを用いて各モデルのマルチコンディション学習を行った.公開に向けた準備を進めている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
統合モデル化や対話的学習についてはおおむね順調に進展している.要素モデルに関しては音声強調モデルから知識モデルまで一通り扱い,また,対話的学習ではユーザ応答のモデル化にも着手し,国際会議で成果発表を行った.シチュエーションを限定してはいるが,音声対話システムを用いた会話データ収集も進めており,次年度に向けた準備も行えた.
|
今後の研究の推進方策 |
本年度の取り組みをより一般化していく方向で進める.統合モデル化では,3つ以上のモデル間の統合,ユーザの知識モデル予測などに着手する.対話的学習では,まずシチュエーションを限定したうえで,データ収集とユーザ応答・対話モデルの拡張を進める.そこに,語彙や知識モデルの適応を織り交ぜて進めていく.得られた成果は適宜,査読付き国際会議などへ投稿する.
|