2012 Fiscal Year Annual Research Report

多層モデルの階層間密統合に基づく音声理解フレームワークの研究

Research Project

Project/Area Number	21300066
Research Institution	Nagoya Institute of Technology
Principal Investigator	李晃伸名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)
Co-Investigator(Kenkyū-buntansha)	西村竜一和歌山大学, システム工学部, 助教 (00379611) 駒谷和範名古屋大学, 工学(系)研究科(研究院), 准教授 (40362579) 南條浩輝龍谷大学, 理工学部, 助教 (50388162) 西田昌史同志社大学, 理工学部, 准教授 (80361442) 篠崎隆宏東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903) 秋田祐哉京都大学, 学内共同利用施設等, 助教 (90402742)
Project Period (FY)	2009-04-01 – 2014-03-31
Keywords	音声言語理解 / 音声認識 / 音声対話 / 音声インタフェース
Research Abstract	本研究課題の目的は，音声言語理解における音響から対話まで各層の関係と統計的性質を明らかにし，それらを密統合することで高度かつ柔軟な音声言語処理と高度な音声言語インタフェースを実現することである．H24年度は，これまでの研究成果をベースに，各層で外部制約との統合に関する研究を深化させつつ，評価・実装を推し進めた．１）システム試験実装では，汎用対話システムMMDAgentにおいて外部動的情報と連結した動作を記述するためのFST拡張について提案・実装した．２）言語モデルでは，種々の話題に適合した話し言葉言語モデルをデータ収集なしに構築するためのコーパス変換手法について検討した．３）ベイズリスク最小化探索については，認識エンジンJuliusにベイズリスク最小化機能を組み込むことで多様な制約を動的に反映した解探索を実現した．また，情報検索タスクにおいて各単語の誤りリスクの自動決定およびタスク適応を提案・評価した．４）音響モデルでは，周辺情報に基づき対象単語のモデル展開を簡略化することで計算量を削減する手法を提案した．また，種々の認識システムを柔軟に構築するためのパイプラインを用いたデコーダ実装法について研究を行い，効果的に実装できることを示した．５）プラットフォームでは，音声による大学情報検索システムにおいてベイズリスク最小化音声認識の性能を実証するとともに，tf/idfを用いた重要度に基づく検索結果提示法を提案・評価した．またデータ収集ではAndroid端末上で動作する音響データ収集プログラムおよびクラウドソーシングにより広くデータ収集を行う仕組みを実証した．６）ユーザモデルでは，対話管理の基礎となるターンテイキングの改善に取り組み，ユーザの言い淀みに起因する発話区間の検出誤りから認識誤りや不適切な応答開始を修復する方法を提案し，MMDAgentのプラグインとして実装している．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 最終年度で計画している評価システム構築に向けて，各部分ごとに，実装を見据えた研究が進んでいる．１）については，システム外部や内部の動的情報を対話に組み込んで記述する仕組みを実際に仕様策定し，システムへの実装を行った．２）については，多様なタスクにおいて音声認識を動作させるのに重要な基礎技術であり，来年度は実際のシステムに組み込んでの運用と検証・評価を行う必要がある．３）は実際に認識エンジンへの組み込みおよび実証評価を行った．４）は音響モデルの取り扱いを含め認識システムを柔軟に構築するため，パイプラインを用いた設計フレームワークについて研究を進め，高精度な大語彙認識が可能であることを実証した．５）は３）と連携して実際のサービスを想定した実験を行い有効性を証明した．また，ユーザにとって効率的な情報取得を行うための方法についても成果を得ることができた．６）は認識エンジンのリアルタイム情報をもとに対話を円滑にする技術であり，これを１）のシステムに実装する段階にまで進めることができた．
Strategy for Future Research Activity	まず研究代表者は１）の統括として，本基盤Bプロジェクトにおけるこれまでの研究をまとめつつ，分担者全員と情報交換や協力を行い，成果を統括したシステムの構築を行う．音声認識結果修復時の処理のオンライン化や，発話区間検出における部分音声認識系列の利用などに関して，情報交換や協力を行う．合わせて，個別の分担部分についても，構築したシステムと関連した実験評価を中心に，本プロジェクトでの研究をまとめていく．以下，個別の部分についての推進方策を列挙する．２）では，スタイル変換とPLSA等の話題モデルを組み合わせて，実際のシステムで性能を検証する．３）では，音声入力型情報検索システムや対話システムにベイズリスク最小化Juliusを用い，モデルやリスクを動的変更する方式の評価を推進する．４）では，パイプラインを用いた認識システムの構成法についてより効率的な実装を可能にする方法を探るとともに，その枠組みに基づいた認識システムの機能を拡張することで実証を行う．５）では，さらに異なるタスクでの有効性を示すために、学会講演を対象とした音声入力による情報検索システムを構築し評価を行う予定である．また，一般利用者が研究成果に直接的に接することができる機会を多くするため，開発したソフトウェアやサービス等の研究成果をAndroid携帯端末上へ展開する．並行して，音声入出力インタフェースのHTML5化によってシステムの汎用性を高める．６）では着手しているMMDAgentのプラグイン実装を進め，システムの機能強化を図る．

Research Products
(22 results)

All 2013 2012 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (20 results) (of which Invited: 3 results)

[Journal Article] 音声入力型情報検索におけるベイズリスク最小化音声認識のための単語重要度の自動推定2013
- Author(s)
  古谷　遼
- Journal Title
  
  情報処理学会論文誌
  
  Volume: Vol.54, No.7 Pages: 未定
- Peer Reviewed
[Journal Article] 講演に対する読点の複数アノテーションに基づく自動挿入2013
- Author(s)
  秋田　祐哉
- Journal Title
  
  情報処理学会論文誌
  
  Volume: Vol.54, No.2 Pages: 463--470
- Peer Reviewed
[Presentation] 視覚障がい者のための重要文書抽出に基づくWeb検索支援2013
- Author(s)
  西田　昌史
- Organizer
  電子情報通信学会総合大会
- Place of Presentation
  岐阜大学
- Year and Date
  20130319-20130322
[Presentation] 音声認識エンジンJuliusの認識結果を用いた拡張ROVERの評価2013
- Author(s)
  古谷　遼
- Organizer
  日本音響学会研究発表会
- Place of Presentation
  東京工科大学
- Year and Date
  20130313-20130315
[Presentation] ウェブ集合知に基づいた語彙獲得と3-gram 確率推定による言語モデル自動生成ツール2013
- Author(s)
  田中　雅康
- Organizer
  日本音響学会研究発表会
- Place of Presentation
  東京工科大学
- Year and Date
  20130313-20130315
[Presentation] ユーザ参加型双方向音声案内デジタルサイネージシステムの開発・設置・運用事例2013
- Author(s)
  徳田恵一
- Organizer
  日本音響学会研究発表会
- Place of Presentation
  東京工科大学
- Year and Date
  20130313-15
- Invited
[Presentation] ユーザの言い淀みによる発話の誤分割を事後的に回復する音声対話システム2013
- Author(s)
  堀田　尚希
- Organizer
  情報処理学会全国大会
- Place of Presentation
  東北大学
- Year and Date
  20130306-20130308
[Presentation] 環境音認識を応用した情報提供機能を有するモバイルアプリケーションの検討2013
- Author(s)
  中西　恭介
- Organizer
  情報処理学会第75回全国大会
- Place of Presentation
  東北大学
- Year and Date
  20130306-20130308
[Presentation] 音声対話システムのさらなる普及には何が必要か2013
- Author(s)
  李晃伸
- Organizer
  第95回音声言語情報処理研究会SIG-SLP(第3回対話システムシンポジウム)パネルディスカッション
- Place of Presentation
  静岡県熱海市
- Year and Date
  20130201-02
- Invited
[Presentation] Pipeline Decomposition of Speech Decoders and Their Implementation Based on Delayed Evaluation2012
- Author(s)
  Takahiro Shinozaki
- Organizer
  APSIPA Annual Summit and Conference 2012
- Place of Presentation
  Hollywood, California, USA
- Year and Date
  20121203-20121206
[Presentation] Open Answer Scoring for S-CAT Automated Speaking Test System Using Support Vector Regression2012
- Author(s)
  Yutaka Ono
- Organizer
  APSIPA Annual Summit and Conference 2012
- Place of Presentation
  Hollywood, California, USA
- Year and Date
  20121203-20121206
[Presentation] Detecting child speaker based on auditory feature vectors for VTL estimation2012
- Author(s)
  Ryuichi Nisimura
- Organizer
  APSIPA Annual Summit and Conference 2012
- Place of Presentation
  Hollywood, California, USA
- Year and Date
  20121203-06
[Presentation] 音声入力型情報検索に対する単語信頼度によるリスコアリングを適用したベイズリスク最小化音声認識2012
- Author(s)
  志々見　亮
- Organizer
  日本音響学会研究発表会
- Place of Presentation
  信州大学
- Year and Date
  20120919-20120921
[Presentation] 情報検索の音声入力フロントエンドにおける認識結果からのクエリ生成方法の検討2012
- Author(s)
  古谷　遼
- Organizer
  日本音響学会研究発表会
- Place of Presentation
  信州大学
- Year and Date
  20120919-20120921
[Presentation] 音声認識システムのパイプライン分解と遅延評価を用いた実装法2012
- Author(s)
  篠崎　隆宏
- Organizer
  日本音響学会研究発表会
- Place of Presentation
  信州大学
- Year and Date
  20120919-20120921
[Presentation] 純粋関数型コンパクトデコーダHusky2 の性能評価2012
- Author(s)
  深津　澪
- Organizer
  日本音響学会研究発表会
- Place of Presentation
  信州大学
- Year and Date
  20120919-20120921
[Presentation] 日本語スピーキングテストシステムS-CAT のためのSVR による自由発話の自動採点2012
- Author(s)
  小野　豊
- Organizer
  日本音響学会研究発表会
- Place of Presentation
  信州大学
- Year and Date
  20120919-20120921
[Presentation] Automatic transcription of lecture speech using language model based on speaking-style transformation of proceeding texts2012
- Author(s)
  Yuya Akita
- Organizer
  INTERSPEECH 2012
- Place of Presentation
  Portland, OR., USA
- Year and Date
  20120909-20120913
[Presentation] 登録キーワードと汎用言語モデルを用いた音声認識部・応答選択部の密結合に基づく統計的音声対話システム2012
- Author(s)
  平野　隆司
- Organizer
  第92回音声言語情報処理研究会SIG-SLP
- Place of Presentation
  山形県天童市
- Year and Date
  20120719-20120721
[Presentation] ベイズリスク最小化音声認識を用いた音声検索システムにおけるクエリ生成方法の検討
- Author(s)
  古谷　遼
- Organizer
  第7回音声ドキュメント処理ワークショップ
- Place of Presentation
  名古屋大学
[Presentation] 音声検索のための音声認識方法および検索クエリ生成方法
- Author(s)
  古谷　遼
- Organizer
  日本音響学会関西支部第15回関西支部若手研究者交流研究発表会
- Place of Presentation
  産業技術総合研究所関西センター
[Presentation] 音声対話システム技術の現状と課題
- Author(s)
  駒谷　和範
- Organizer
  電気関係学会東海支部連合大会
- Place of Presentation
  静岡大学
- Invited

2012 Fiscal Year Annual Research Report

多層モデルの階層間密統合に基づく音声理解フレームワークの研究

Principal Investigator

李 晃伸 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 音声入力型情報検索におけるベイズリスク最小化音声認識のための単語重要度の自動推定2013

Author(s)

Journal Title

[Journal Article] 講演に対する読点の複数アノテーションに基づく自動挿入2013

Author(s)

Journal Title

[Presentation] 視覚障がい者のための重要文書抽出に基づくWeb検索支援2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声認識エンジンJuliusの認識結果を用いた拡張ROVERの評価2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ウェブ集合知に基づいた語彙獲得と3-gram 確率推定による言語モデル自動生成ツール2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ユーザ参加型双方向音声案内デジタルサイネージシステムの開発・設置・運用事例2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ユーザの言い淀みによる発話の誤分割を事後的に回復する音声対話システム2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 環境音認識を応用した情報提供機能を有するモバイルアプリケーションの検討2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声対話システムのさらなる普及には何が必要か2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Pipeline Decomposition of Speech Decoders and Their Implementation Based on Delayed Evaluation2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Open Answer Scoring for S-CAT Automated Speaking Test System Using Support Vector Regression2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Detecting child speaker based on auditory feature vectors for VTL estimation2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声入力型情報検索に対する単語信頼度によるリスコアリングを適用したベイズリスク最小化音声認識2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 情報検索の音声入力フロントエンドにおける認識結果からのクエリ生成方法の検討2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声認識システムのパイプライン分解と遅延評価を用いた実装法2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 純粋関数型コンパクトデコーダHusky2 の性能評価2012

Author(s)

李晃伸名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)