2012 年度実績報告書

多層モデルの階層間密統合に基づく音声理解フレームワークの研究

研究課題

研究課題/領域番号	21300066
研究機関	名古屋工業大学
研究代表者	李晃伸名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)
研究分担者	西村竜一和歌山大学, システム工学部, 助教 (00379611) 駒谷和範名古屋大学, 工学(系)研究科(研究院), 准教授 (40362579) 南條浩輝龍谷大学, 理工学部, 助教 (50388162) 西田昌史同志社大学, 理工学部, 准教授 (80361442) 篠崎隆宏東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903) 秋田祐哉京都大学, 学内共同利用施設等, 助教 (90402742)
研究期間 (年度)	2009-04-01 – 2014-03-31
キーワード	音声言語理解 / 音声認識 / 音声対話 / 音声インタフェース
研究概要	本研究課題の目的は，音声言語理解における音響から対話まで各層の関係と統計的性質を明らかにし，それらを密統合することで高度かつ柔軟な音声言語処理と高度な音声言語インタフェースを実現することである．H24年度は，これまでの研究成果をベースに，各層で外部制約との統合に関する研究を深化させつつ，評価・実装を推し進めた．１）システム試験実装では，汎用対話システムMMDAgentにおいて外部動的情報と連結した動作を記述するためのFST拡張について提案・実装した．２）言語モデルでは，種々の話題に適合した話し言葉言語モデルをデータ収集なしに構築するためのコーパス変換手法について検討した．３）ベイズリスク最小化探索については，認識エンジンJuliusにベイズリスク最小化機能を組み込むことで多様な制約を動的に反映した解探索を実現した．また，情報検索タスクにおいて各単語の誤りリスクの自動決定およびタスク適応を提案・評価した．４）音響モデルでは，周辺情報に基づき対象単語のモデル展開を簡略化することで計算量を削減する手法を提案した．また，種々の認識システムを柔軟に構築するためのパイプラインを用いたデコーダ実装法について研究を行い，効果的に実装できることを示した．５）プラットフォームでは，音声による大学情報検索システムにおいてベイズリスク最小化音声認識の性能を実証するとともに，tf/idfを用いた重要度に基づく検索結果提示法を提案・評価した．またデータ収集ではAndroid端末上で動作する音響データ収集プログラムおよびクラウドソーシングにより広くデータ収集を行う仕組みを実証した．６）ユーザモデルでは，対話管理の基礎となるターンテイキングの改善に取り組み，ユーザの言い淀みに起因する発話区間の検出誤りから認識誤りや不適切な応答開始を修復する方法を提案し，MMDAgentのプラグインとして実装している．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由最終年度で計画している評価システム構築に向けて，各部分ごとに，実装を見据えた研究が進んでいる．１）については，システム外部や内部の動的情報を対話に組み込んで記述する仕組みを実際に仕様策定し，システムへの実装を行った．２）については，多様なタスクにおいて音声認識を動作させるのに重要な基礎技術であり，来年度は実際のシステムに組み込んでの運用と検証・評価を行う必要がある．３）は実際に認識エンジンへの組み込みおよび実証評価を行った．４）は音響モデルの取り扱いを含め認識システムを柔軟に構築するため，パイプラインを用いた設計フレームワークについて研究を進め，高精度な大語彙認識が可能であることを実証した．５）は３）と連携して実際のサービスを想定した実験を行い有効性を証明した．また，ユーザにとって効率的な情報取得を行うための方法についても成果を得ることができた．６）は認識エンジンのリアルタイム情報をもとに対話を円滑にする技術であり，これを１）のシステムに実装する段階にまで進めることができた．
今後の研究の推進方策	まず研究代表者は１）の統括として，本基盤Bプロジェクトにおけるこれまでの研究をまとめつつ，分担者全員と情報交換や協力を行い，成果を統括したシステムの構築を行う．音声認識結果修復時の処理のオンライン化や，発話区間検出における部分音声認識系列の利用などに関して，情報交換や協力を行う．合わせて，個別の分担部分についても，構築したシステムと関連した実験評価を中心に，本プロジェクトでの研究をまとめていく．以下，個別の部分についての推進方策を列挙する．２）では，スタイル変換とPLSA等の話題モデルを組み合わせて，実際のシステムで性能を検証する．３）では，音声入力型情報検索システムや対話システムにベイズリスク最小化Juliusを用い，モデルやリスクを動的変更する方式の評価を推進する．４）では，パイプラインを用いた認識システムの構成法についてより効率的な実装を可能にする方法を探るとともに，その枠組みに基づいた認識システムの機能を拡張することで実証を行う．５）では，さらに異なるタスクでの有効性を示すために、学会講演を対象とした音声入力による情報検索システムを構築し評価を行う予定である．また，一般利用者が研究成果に直接的に接することができる機会を多くするため，開発したソフトウェアやサービス等の研究成果をAndroid携帯端末上へ展開する．並行して，音声入出力インタフェースのHTML5化によってシステムの汎用性を高める．６）では着手しているMMDAgentのプラグイン実装を進め，システムの機能強化を図る．

研究成果
(22件)

すべて 2013 2012 その他

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (20件) (うち招待講演 3件)

[雑誌論文] 音声入力型情報検索におけるベイズリスク最小化音声認識のための単語重要度の自動推定2013
- 著者名/発表者名
  古谷　遼
- 雑誌名
  
  情報処理学会論文誌
  
  巻: Vol.54, No.7 ページ: 未定
- 査読あり
[雑誌論文] 講演に対する読点の複数アノテーションに基づく自動挿入2013
- 著者名/発表者名
  秋田　祐哉
- 雑誌名
  
  情報処理学会論文誌
  
  巻: Vol.54, No.2 ページ: 463--470
- 査読あり
[学会発表] 視覚障がい者のための重要文書抽出に基づくWeb検索支援2013
- 著者名/発表者名
  西田　昌史
- 学会等名
  電子情報通信学会総合大会
- 発表場所
  岐阜大学
- 年月日
  20130319-20130322
[学会発表] 音声認識エンジンJuliusの認識結果を用いた拡張ROVERの評価2013
- 著者名/発表者名
  古谷　遼
- 学会等名
  日本音響学会研究発表会
- 発表場所
  東京工科大学
- 年月日
  20130313-20130315
[学会発表] ウェブ集合知に基づいた語彙獲得と3-gram 確率推定による言語モデル自動生成ツール2013
- 著者名/発表者名
  田中　雅康
- 学会等名
  日本音響学会研究発表会
- 発表場所
  東京工科大学
- 年月日
  20130313-20130315
[学会発表] ユーザ参加型双方向音声案内デジタルサイネージシステムの開発・設置・運用事例2013
- 著者名/発表者名
  徳田恵一
- 学会等名
  日本音響学会研究発表会
- 発表場所
  東京工科大学
- 年月日
  20130313-15
- 招待講演
[学会発表] ユーザの言い淀みによる発話の誤分割を事後的に回復する音声対話システム2013
- 著者名/発表者名
  堀田　尚希
- 学会等名
  情報処理学会全国大会
- 発表場所
  東北大学
- 年月日
  20130306-20130308
[学会発表] 環境音認識を応用した情報提供機能を有するモバイルアプリケーションの検討2013
- 著者名/発表者名
  中西　恭介
- 学会等名
  情報処理学会第75回全国大会
- 発表場所
  東北大学
- 年月日
  20130306-20130308
[学会発表] 音声対話システムのさらなる普及には何が必要か2013
- 著者名/発表者名
  李晃伸
- 学会等名
  第95回音声言語情報処理研究会SIG-SLP(第3回対話システムシンポジウム)パネルディスカッション
- 発表場所
  静岡県熱海市
- 年月日
  20130201-02
- 招待講演
[学会発表] Pipeline Decomposition of Speech Decoders and Their Implementation Based on Delayed Evaluation2012
- 著者名/発表者名
  Takahiro Shinozaki
- 学会等名
  APSIPA Annual Summit and Conference 2012
- 発表場所
  Hollywood, California, USA
- 年月日
  20121203-20121206
[学会発表] Open Answer Scoring for S-CAT Automated Speaking Test System Using Support Vector Regression2012
- 著者名/発表者名
  Yutaka Ono
- 学会等名
  APSIPA Annual Summit and Conference 2012
- 発表場所
  Hollywood, California, USA
- 年月日
  20121203-20121206
[学会発表] Detecting child speaker based on auditory feature vectors for VTL estimation2012
- 著者名/発表者名
  Ryuichi Nisimura
- 学会等名
  APSIPA Annual Summit and Conference 2012
- 発表場所
  Hollywood, California, USA
- 年月日
  20121203-06
[学会発表] 音声入力型情報検索に対する単語信頼度によるリスコアリングを適用したベイズリスク最小化音声認識2012
- 著者名/発表者名
  志々見　亮
- 学会等名
  日本音響学会研究発表会
- 発表場所
  信州大学
- 年月日
  20120919-20120921
[学会発表] 情報検索の音声入力フロントエンドにおける認識結果からのクエリ生成方法の検討2012
- 著者名/発表者名
  古谷　遼
- 学会等名
  日本音響学会研究発表会
- 発表場所
  信州大学
- 年月日
  20120919-20120921
[学会発表] 音声認識システムのパイプライン分解と遅延評価を用いた実装法2012
- 著者名/発表者名
  篠崎　隆宏
- 学会等名
  日本音響学会研究発表会
- 発表場所
  信州大学
- 年月日
  20120919-20120921
[学会発表] 純粋関数型コンパクトデコーダHusky2 の性能評価2012
- 著者名/発表者名
  深津　澪
- 学会等名
  日本音響学会研究発表会
- 発表場所
  信州大学
- 年月日
  20120919-20120921
[学会発表] 日本語スピーキングテストシステムS-CAT のためのSVR による自由発話の自動採点2012
- 著者名/発表者名
  小野　豊
- 学会等名
  日本音響学会研究発表会
- 発表場所
  信州大学
- 年月日
  20120919-20120921
[学会発表] Automatic transcription of lecture speech using language model based on speaking-style transformation of proceeding texts2012
- 著者名/発表者名
  Yuya Akita
- 学会等名
  INTERSPEECH 2012
- 発表場所
  Portland, OR., USA
- 年月日
  20120909-20120913
[学会発表] 登録キーワードと汎用言語モデルを用いた音声認識部・応答選択部の密結合に基づく統計的音声対話システム2012
- 著者名/発表者名
  平野　隆司
- 学会等名
  第92回音声言語情報処理研究会SIG-SLP
- 発表場所
  山形県天童市
- 年月日
  20120719-20120721
[学会発表] ベイズリスク最小化音声認識を用いた音声検索システムにおけるクエリ生成方法の検討
- 著者名/発表者名
  古谷　遼
- 学会等名
  第7回音声ドキュメント処理ワークショップ
- 発表場所
  名古屋大学
[学会発表] 音声検索のための音声認識方法および検索クエリ生成方法
- 著者名/発表者名
  古谷　遼
- 学会等名
  日本音響学会関西支部第15回関西支部若手研究者交流研究発表会
- 発表場所
  産業技術総合研究所関西センター
[学会発表] 音声対話システム技術の現状と課題
- 著者名/発表者名
  駒谷　和範
- 学会等名
  電気関係学会東海支部連合大会
- 発表場所
  静岡大学
- 招待講演

2012 年度 実績報告書

多層モデルの階層間密統合に基づく音声理解フレームワークの研究

研究代表者

李 晃伸 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 音声入力型情報検索におけるベイズリスク最小化音声認識のための単語重要度の自動推定2013

著者名/発表者名

雑誌名

[雑誌論文] 講演に対する読点の複数アノテーションに基づく自動挿入2013

著者名/発表者名

雑誌名

[学会発表] 視覚障がい者のための重要文書抽出に基づくWeb検索支援2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声認識エンジンJuliusの認識結果を用いた拡張ROVERの評価2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] ウェブ集合知に基づいた語彙獲得と3-gram 確率推定による言語モデル自動生成ツール2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] ユーザ参加型双方向音声案内デジタルサイネージシステムの開発・設置・運用事例2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] ユーザの言い淀みによる発話の誤分割を事後的に回復する音声対話システム2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 環境音認識を応用した情報提供機能を有するモバイルアプリケーションの検討2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声対話システムのさらなる普及には何が必要か2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Pipeline Decomposition of Speech Decoders and Their Implementation Based on Delayed Evaluation2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Open Answer Scoring for S-CAT Automated Speaking Test System Using Support Vector Regression2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Detecting child speaker based on auditory feature vectors for VTL estimation2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声入力型情報検索に対する単語信頼度によるリスコアリングを適用したベイズリスク最小化音声認識2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 情報検索の音声入力フロントエンドにおける認識結果からのクエリ生成方法の検討2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声認識システムのパイプライン分解と遅延評価を用いた実装法2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 純粋関数型コンパクトデコーダHusky2 の性能評価2012

著者名/発表者名

2012 年度実績報告書

李晃伸名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)