2012 Fiscal Year Annual Research Report
多層モデルの階層間密統合に基づく音声理解フレームワークの研究
Project/Area Number |
21300066
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
李 晃伸 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)
|
Co-Investigator(Kenkyū-buntansha) |
西村 竜一 和歌山大学, システム工学部, 助教 (00379611)
駒谷 和範 名古屋大学, 工学(系)研究科(研究院), 准教授 (40362579)
南條 浩輝 龍谷大学, 理工学部, 助教 (50388162)
西田 昌史 同志社大学, 理工学部, 准教授 (80361442)
篠崎 隆宏 東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
秋田 祐哉 京都大学, 学内共同利用施設等, 助教 (90402742)
|
Project Period (FY) |
2009-04-01 – 2014-03-31
|
Keywords | 音声言語理解 / 音声認識 / 音声対話 / 音声インタフェース |
Research Abstract |
本研究課題の目的は,音声言語理解における音響から対話まで各層の関係と統計的性質を明らかにし,それらを密統合することで高度かつ柔軟な音声言語処理と高度な音声言語インタフェースを実現することである.H24年度は,これまでの研究成果をベースに,各層で外部制約との統合に関する研究を深化させつつ,評価・実装を推し進めた.1)システム試験実装では,汎用対話システムMMDAgentにおいて外部動的情報と連結した動作を記述するためのFST拡張について提案・実装した.2)言語モデルでは,種々の話題に適合した話し言葉言語モデルをデータ収集なしに構築するためのコーパス変換手法について検討した.3)ベイズリスク最小化探索については,認識エンジンJuliusにベイズリスク最小化機能を組み込むことで多様な制約を動的に反映した解探索を実現した.また,情報検索タスクにおいて各単語の誤りリスクの自動決定およびタスク適応を提案・評価した.4)音響モデルでは,周辺情報に基づき対象単語のモデル展開を簡略化することで計算量を削減する手法を提案した.また,種々の認識システムを柔軟に構築するためのパイプラインを用いたデコーダ実装法について研究を行い,効果的に実装できることを示した.5)プラットフォームでは,音声による大学情報検索システムにおいてベイズリスク最小化音声認識の性能を実証するとともに,tf/idfを用いた重要度に基づく検索結果提示法を提案・評価した.またデータ収集ではAndroid端末上で動作する音響データ収集プログラムおよびクラウドソーシングにより広くデータ収集を行う仕組みを実証した.6)ユーザモデルでは,対話管理の基礎となるターンテイキングの改善に取り組み,ユーザの言い淀みに起因する発話区間の検出誤りから認識誤りや不適切な応答開始を修復する方法を提案し,MMDAgentのプラグインとして実装している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
最終年度で計画している評価システム構築に向けて,各部分ごとに,実装を見据えた研究が進んでいる.1)については,システム外部や内部の動的情報を対話に組み込んで記述する仕組みを実際に仕様策定し,システムへの実装を行った.2)については,多様なタスクにおいて音声認識を動作させるのに重要な基礎技術であり,来年度は実際のシステムに組み込んでの運用と検証・評価を行う必要がある.3)は実際に認識エンジンへの組み込みおよび実証評価を行った.4)は音響モデルの取り扱いを含め認識システムを柔軟に構築するため,パイプラインを用いた設計フレームワークについて研究を進め,高精度な大語彙認識が可能であることを実証した.5)は3)と連携して実際のサービスを想定した実験を行い有効性を証明した.また,ユーザにとって効率的な情報取得を行うための方法についても成果を得ることができた.6)は認識エンジンのリアルタイム情報をもとに対話を円滑にする技術であり,これを1)のシステムに実装する段階にまで進めることができた.
|
Strategy for Future Research Activity |
まず研究代表者は1)の統括として,本基盤Bプロジェクトにおけるこれまでの研究をまとめつつ,分担者全員と情報交換や協力を行い,成果を統括したシステムの構築を行う.音声認識結果修復時の処理のオンライン化や,発話区間検出における部分音声認識系列の利用などに関して,情報交換や協力を行う. 合わせて,個別の分担部分についても,構築したシステムと関連した実験評価を中心に,本プロジェクトでの研究をまとめていく.以下,個別の部分についての推進方策を列挙する.2)では,スタイル変換とPLSA等の話題モデルを組み合わせて,実際のシステムで性能を検証する.3)では,音声入力型情報検索システムや対話システムにベイズリスク最小化Juliusを用い,モデルやリスクを動的変更する方式の評価を推進する.4)では,パイプラインを用いた認識システムの構成法についてより効率的な実装を可能にする方法を探るとともに,その枠組みに基づいた認識システムの機能を拡張することで実証を行う.5)では,さらに異なるタスクでの有効性を示すために、学会講演を対象とした音声入力による情報検索システムを構築し評価を行う予定である.また,一般利用者が研究成果に直接的に接することができる機会を多くするため,開発したソフトウェアやサービス等の研究成果をAndroid携帯端末上へ展開する.並行して,音声入出力インタフェースのHTML5化によってシステムの汎用性を高める.6)では着手しているMMDAgentのプラグイン実装を進め,システムの機能強化を図る.
|