2011 Fiscal Year Annual Research Report

多層モデルの階層間密統合に基づく音声理解フレームワークの研究

Research Project

Project/Area Number	21300066
Research Institution	Nagoya Institute of Technology
Principal Investigator	李晃伸名古屋工業大学, 大学院・工学研究科, 准教授 (80332766)
Co-Investigator(Kenkyū-buntansha)	西村竜一和歌山大学, システム工学部, 助教 (00379611) 駒谷和範名古屋工業大学, 大学院・工学研究科, 准教授 (40362579) 南條浩輝龍谷大学, 理工学部, 助教 (50388162) 西田昌史同志社大学, 理工学部, 准教授 (80361442) 篠崎隆宏千葉大学, 大学院・融合科学研究科, 助教 (80447903) 秋田裕哉京都大学, 情報メディアセンター, 助教 (90402742)
Keywords	音声言語理解 / 音声対話 / 音声認識
Research Abstract	本研究課題の目的は、音声言語理解において、信号処理から意味理解、ユーザモデルまでの各層の実際的な関係や統計的性質を明らかにし、それに基づいて処理を確率的に密統合することで、より高度かつ柔軟な音声言語処理と、高度な音声言語インタフェースを実現することである。 H23年度は、昨年度までの成果をベースに、各層間で制約や処理の統合を推し進めるとともに、研究成果をまとめる次世代対話システムの構築を開始した。1)制約条件の調査では、昨年度までの各層における議論を元に、各層でのリアルタイムな制約や照合・予測情報の関連付けについて討議を行った。また、音声区間検出が音声認識性能に与える影響の調査や、逆に音声認識処理中の情報から音声終了区間を判定(早期確定)する手法の有効性検証など、フロントエンド処理との密統合について研究・検証を進めた。2)言語モデルについては、言語・発音モデルの統計的変換手法を探索過程へ動的に組み込む方法を検討するとともに、音声対話向けのコーパス改良、Web知識を利用した言語モデルのタスク適応の高度化等について研究した。3)ベイズリスク最少化深索においては、昨年度開発した情報検索システムにおいて、タスクにおける単語重要度をベイズリスクとして組み入れる試みを行い、タスク知識等の上位知識との密統合について実証と検証を進めた。4)音響モデルについては、話者や環境、コンテキストなど、モデルの制約条件の変化に対応できる音響モデルの構造について、その設計と検証を試みた。5)データ収集用音声対話システムについては、研究代表者らが構築した音声インタラクションシステム構築ツールキット「MMDAgent」をベースに、実験評価用の音声対話システムを構築した。特に、信号処理から音声認識、応答の表象までを統合した高度なインタラクションを行うためのモーション制御等について考案し実装した。6)統計的ユーザモデル及び統計的対話モデルについては、対話制御の効率的な統計的モデル化の検討を引き続き行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 音響モデル、言語モデルの層と多層の統合については検討にとどまったが、各層における技術の検討、ならびにフロントエンド層とタスク層の認識処理への統合については研究がよく進展した。またシステムの構築についても高度な統合が行えるソフトウェア基盤の開発が進んでおり、総じて順調に進展している。
Strategy for Future Research Activity	最終年度へ向けて具体的な音声対話システムとして結実させる必要がある。具体的なアプリケーションに対して諸要素を効率的に統合しつつトータルで多階層の統合が行える音声対話システムを目指して、それを実証するに有効なタスクを決定し、それに向かって各層を統合していく必要がある。

Research Products
(17 results)

All 2012 2011

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (16 results)

[Journal Article] 文単位で分割されたテキストで学習した言語モデルによる単語信頼度を用いた文境界検出2011
- Author(s)
  鈴木伸尚, 西田昌史, 山本誠一
- Journal Title
  
  第10回情報科学技術フォーラム(FIT)講演論文集
  
  Volume: 第2分冊 Pages: 35-38
- Peer Reviewed
[Presentation] Googleデータを用いた3-gramモデル構築における品詞情報に基づいた語彙制限2012
- Author(s)
  田中雅康, 西村竜一, 島田敏明, 河原英紀, 入野俊夫
- Organizer
  日本音響学会2012年春季研究発表会pp.233-234
- Place of Presentation
  神奈川大学
- Year and Date
  2012-03-15
[Presentation] Googleデータベースを用いた3-gram拡張法による言語モデル構築の自動化ツール2012
- Author(s)
  島田敏明, 田中雅康, 西村竜一, 河原英紀, 入野俊夫
- Organizer
  日本音響学会2012年春季研究発表会pp.235-236
- Place of Presentation
  神奈川大学
- Year and Date
  2012-03-15
[Presentation] 音声対話システムの言語モデル自動作成を目指したコーパスへのクラス付与2012
- Author(s)
  森祥二郎, 駒谷和範, 佐藤理史
- Organizer
  情報処理学会第74回全国大会Vol.2, pp.191-192
- Place of Presentation
  名古屋工業大学
- Year and Date
  2012-03-08
[Presentation] ウェブデータベースを用いた音声認識用言語モデルの簡易適応2012
- Author(s)
  西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫
- Organizer
  情報処理学会第74回全国大会Vol.2, pp.5-6
- Place of Presentation
  名古屋工業大学
- Year and Date
  2012-03-07
[Presentation] ベイズリスク最小化に基づく音声入力型情報検索のための単語重要度の自動推定2012
- Author(s)
  古谷遼, 七里崇, 南條浩輝, 松尾宏規, 西田昌史, 山本誠一
- Organizer
  第6回音声ドキュメント処理ワークショップ
- Place of Presentation
  豊橋技術科学大学
- Year and Date
  2012-03-03
[Presentation] 魅力ある音声インタラクションシステムを構築するためのオープンソースツールキットMMDAgent2011
- Author(s)
  李晃伸, 大浦圭一郎, 徳田恵一
- Organizer
  第86回情報処理学会音声言語処理研究会(SIG-SLP)2011-SLP-89, No.27
- Place of Presentation
  芝浦工業大学
- Year and Date
  2011-12-20
[Presentation] 予稿の話し言葉変換に基づく言語モデルによる講演音声認識2011
- Author(s)
  渡邉真人, 秋田祐哉, 河原達也
- Organizer
  第86回情報処理学会音声言語処理研究会(SIG-SLP)2011-SLP-89, No.1
- Place of Presentation
  芝浦工業大学
- Year and Date
  2011-12-19
[Presentation] 和歌山大学のゆるキャラ『わだにやん』が登場する子どもにやさしい対話システムの開発2011
- Author(s)
  吉本勇希, 西村竜一, 宮森翔子, 河原英紀, 入野俊夫
- Organizer
  日本音響学会第14回関西支部若手研究者交流研究発表会
- Place of Presentation
  産総研関西支部
- Year and Date
  2011-12-18
[Presentation] Googleデータを用いた音声認識用辞書のクイック構築技術2011
- Author(s)
  田中雅康, 西村竜一, 島田敏明, 河原英紀, 入野俊夫
- Organizer
  日本音響学会第14回関西支部若手研究者交流研究発表会
- Place of Presentation
  産総研関西支部
- Year and Date
  2011-12-18
[Presentation] Developing a method to build Japanese speech recognition system based on 3-gram language model expansion with Google database2011
- Author(s)
  Toshiaki Shimada, Ryuichi Nisimura, Masayasu Tanaka, Hideki Kawahara, Toshio Irino
- Organizer
  ICISS2011 (2011 IEEE International Conference on Intelligent Computing and Integrated Systems)
- Place of Presentation
  Guilin, China
- Year and Date
  2011-10-26
[Presentation] 音声対話システムにおける発話区間検出結果の音声認識性能への影響の調査2011
- Author(s)
  平野明, 駒谷和範, 佐藤理史
- Organizer
  人工知能学会研究会言語・音声理解と対話処理研究会(SIG-SLUD)B102-11
- Place of Presentation
  お茶の水女子大学
- Year and Date
  2011-10-13
[Presentation] 単語の重要度を考慮したベイズリスク最小化音声認識を用いた音声入力型情報検索システムの評価2011
- Author(s)
  松尾宏規, 西田昌史, 古谷遼, 南條浩輝, 山本誠一
- Organizer
  日本音響学会2011年秋季研究発表会pp.201-202
- Place of Presentation
  島根大学
- Year and Date
  2011-09-22
[Presentation] 情報量を基準とした3-gram拡張に基づく言語モデルの適応手法2011
- Author(s)
  島田敏明, 田中雅康, 西村竜一, 河原英紀, 入野俊夫
- Organizer
  日本音響学会2011年秋季研究発表会pp.167-168
- Place of Presentation
  島根大学
- Year and Date
  2011-09-21
[Presentation] 語彙で認識対象を制御するGoogleデータを用いた3-gramモデル構築法の検討2011
- Author(s)
  田中雅康, 西村竜一, 島田敏明, 河原英紀, 入野俊夫
- Organizer
  日本音響学会2011年秋季研究発表会pp.161-162
- Place of Presentation
  島根大学
- Year and Date
  2011-09-21
[Presentation] 連続音声認識における仮説の低遅延逐次確定アルゴリズムの評価2011
- Author(s)
  大野博之, 南角吉彦, 李晃伸, 徳田恵一
- Organizer
  日本音響学会2011年秋季研究発表会pp.45-46
- Place of Presentation
  島根大学
- Year and Date
  2011-09-20
[Presentation] 音声入力型大学情報検索システムに対するベイズリスク最小化音声認識の適用2011
- Author(s)
  松尾宏規, 西田昌史, 古谷遼, 南條浩輝, 山本誠一
- Organizer
  第86回情報処理学会音声言語処理研究会(SIG-SLP)2011-SLP-86, No.5
- Place of Presentation
  東京大学
- Year and Date
  2011-05-16

2011 Fiscal Year Annual Research Report

多層モデルの階層間密統合に基づく音声理解フレームワークの研究

Principal Investigator

李 晃伸 名古屋工業大学, 大学院・工学研究科, 准教授 (80332766)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 文単位で分割されたテキストで学習した言語モデルによる単語信頼度を用いた文境界検出2011

Author(s)

Journal Title

[Presentation] Googleデータを用いた3-gramモデル構築における品詞情報に基づいた語彙制限2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Googleデータベースを用いた3-gram拡張法による言語モデル構築の自動化ツール2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声対話システムの言語モデル自動作成を目指したコーパスへのクラス付与2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ウェブデータベースを用いた音声認識用言語モデルの簡易適応2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ベイズリスク最小化に基づく音声入力型情報検索のための単語重要度の自動推定2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 魅力ある音声インタラクションシステムを構築するためのオープンソースツールキットMMDAgent2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 予稿の話し言葉変換に基づく言語モデルによる講演音声認識2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 和歌山大学のゆるキャラ『わだにやん』が登場する子どもにやさしい対話システムの開発2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Googleデータを用いた音声認識用辞書のクイック構築技術2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Developing a method to build Japanese speech recognition system based on 3-gram language model expansion with Google database2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声対話システムにおける発話区間検出結果の音声認識性能への影響の調査2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 単語の重要度を考慮したベイズリスク最小化音声認識を用いた音声入力型情報検索システムの評価2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 情報量を基準とした3-gram拡張に基づく言語モデルの適応手法2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 語彙で認識対象を制御するGoogleデータを用いた3-gramモデル構築法の検討2011

Author(s)

Organizer

Place of Presentation

Year and Date

李晃伸名古屋工業大学, 大学院・工学研究科, 准教授 (80332766)