2011 Fiscal Year Annual Research Report

大規模音声ドキュメントを対象とする超高速検索エンジンの構築

Research Project

Project/Area Number	22300060
Research Institution	Toyohashi University of Technology
Principal Investigator	新田恒雄豊橋技術科学大学, 大学院・工学研究科, 教授 (70314101)
Co-Investigator(Kenkyū-buntansha)	桂田浩一豊橋技術科学大学, 国際交流センター, 准教授 (80324490) 入部百合絵豊橋技術科学大学, 情報メディア基盤センター, 助教 (40397500)
Keywords	音声ドキュメント検索 / 高速検索 / サフィックスアレー / 音素認識 / 調音特徴 / キーワード分割
Research Abstract	平成23年度は,音声検索エンジンの基本性能改良と共に,放送大学と共同で講義ビデオ検索を対象にフィジビリ評価実験を行い,大規模音声ドキュメントを対象とするシステム検証と課題抽出に注力した。 1.音声-音素変換器の開発では,未知語に対する検索性能を保証するため,調音特徴ベースの高精度サブワード音声認識エンジンの設計を進めた。具体的には,(1)調音特徴抽出器(2段のMLNから構成)の精度向上,(2)音素認識HMMに対する最適設計検討(状態数,コンテキスト,IPによる湧出し制御他),(3)約1,500種の日本語全短・長音節に対する言語モデル(tri-gram)を作成した。(1)では抽出器に部分空間(固有ベクトル)を組込む方式を新たに開発し性能向上に目途を得た。(2)では従来の調音特徴に対して,最適化したHMMにより音素正解精度で80%を越える性能を得た。今後(3)のサブワード言語モデルを組合せ,さらなる性能向上を目指す。 2.キーワード高速検索では,今年度,NTCIR9のSTD (Spoken Term Detection)に参加し,参加機関中最速の評価を得た。さらに使用記億容量に対しても他機関と比較し極少なくて済むことを明らかにした。 3.放送大学の講義ビデオ(20講義)の一部を使用し,各講義10キーワード(未知語含む)の検索評価実を行った。また,音声から直接人手で書き下したデータを作成し,音素認識評価を同時に実施した。この結果,放送大学講義ビデオに関しては,通常の講義音声コーパスと比較しても音素正解精度が高く,応用システムを構築できる感触が得られた。 H24の最終年度は,引き続き検索性能(キーワード抽出性能および検索速度)の向上を計ると共に,3.の講義ビデオ内容検索を対象に,システム構築と方式実証実験を通して,大規模音声ドキュメントでの実用化を検証したい。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 高性能音声-音素変換器と,サフィックスアレーに基づくにキーワード高速検索器の結合テストが,最終年度になっているが,これまでの処,順調に推移しているため。
Strategy for Future Research Activity	最終年度に向け,個々のモジュールの性能(キーワード抽出および検索速度)向上を計ると共に,放送大学講義ビデオに対する内容検索を対象に,システム構築と方式実証実験を行い,大規模音声ドキュメントでの実用化を検証する。

Research Products
(28 results)

All 2012 2011

All Presentation (28 results)

[Presentation] Improvement of Animated Articulatory Gesture Extracted from Speech for Pronunciation Training2012
- Author(s)
  Yurie Iribe, Silasak Manosavan, Kouichi Katsurada, Ryoko Hayashi, Chunyue Zhu, Tsuneo Nitta
- Organizer
  ICASSP'12
- Place of Presentation
  京都国際会館
- Year and Date
  2012-03-28
[Presentation] 放送大学の講義音声を対象とした高速キーワード検索の性能評価2012
- Author(s)
  勝浦広大, 桂田浩一, 入部百合絵, 辻靖彦, 青木久美子, 新田恒雄
- Organizer
  日本音響学会2012年春季研究発表会
- Place of Presentation
  神奈川大学
- Year and Date
  2012-03-15
[Presentation] 音声から抽出した調音特徴に基づく調音動作アニメーションの改良2012
- Author(s)
  Silasak Manosavanh, 入部百合絵, 桂田浩一, 林良子, 朱春躍, 新田恒雄
- Organizer
  日本音響学会2012年春季研究発表会
- Place of Presentation
  神奈川大学
- Year and Date
  2012-03-15
[Presentation] 調音特徴抽出における強調/抑制の効果2012
- Author(s)
  宮原伸也, 遠藤基, 入部百合絵, 桂田浩一, 新田恒雄
- Organizer
  日本音響学会2012年春季研究発表会
- Place of Presentation
  神奈川大学
- Year and Date
  2012-03-13
[Presentation] ワンモデル音声認識合成における合成品質の改良2012
- Author(s)
  坂本光弘, 粥川陽介, 木村優志, 桂田浩一, 新田恒雄
- Organizer
  日本音響学会2012年春季研究発表会
- Place of Presentation
  神奈川大学
- Year and Date
  2012-03-13
[Presentation] Improvement of an AF-HMM based phoneme recognizer2012
- Author(s)
  Narpendyah Wisjnu Ariwardhani, Yurie Iribe, Kouichi Katsurada, Tsuneo Nitta
- Organizer
  日本音響学会2012年春季研究発表会
- Place of Presentation
  神奈川大学
- Year and Date
  2012-03-13
[Presentation] 調音特徴抽出に基づくIPAチャートへの英語発音リアルタイム表示2012
- Author(s)
  森拓郎, 入部百合絵, 桂田浩一, 新田恒雄
- Organizer
  電子情報通信学会技術研究報告,SP2011-169
- Place of Presentation
  理化学研究所
- Year and Date
  2012-03-09
[Presentation] 調音特徴抽出に基づくIPA母音チャートへの英語発音リアルタイム表示2012
- Author(s)
  森拓郎, 入部百合絵, 桂田浩一, 新田恒雄
- Organizer
  情報処理学会第74回全国大会
- Place of Presentation
  名古屋工業大学
- Year and Date
  2012-03-08
[Presentation] 日本人の誤りパターンを考慮した英語発話中の音素連結・脱落・同化検出2012
- Author(s)
  野村知里, 入部百合絵, 桂田浩一, 新田恒雄
- Organizer
  情報処理学会第74回全国大会
- Place of Presentation
  名古屋工業大学
- Year and Date
  2012-03-08
[Presentation] 対話エージェントの自然な端末間移動を実現するためのユーザ/デバイスモデルの管理法2012
- Author(s)
  杉本遥介, 田中遼, 桂田浩一, 入部百合絵, 新田恒雄
- Organizer
  情報処理学会第74回全国大会
- Place of Presentation
  名古屋工業大学
- Year and Date
  2012-03-07
[Presentation] Phoneme Recognition Based on AF-HMMs with an Optimal Parameter Set2012
- Author(s)
  Narpendyah Ariwardhani, Yurie Iribe, Kouichi Katsurada, Tsuneo Nitta
- Organizer
  NCSP12
- Place of Presentation
  Waikiki Beach Marriott Resort & Spa, USA
- Year and Date
  2012-03-04
[Presentation] 顔領域の違いが読話性能に与える影響について2012
- Author(s)
  池田大輔, 桂田浩一, 入部百合絵, 新田恒雄
- Organizer
  電予情報通信学会技術研究報告,PRMU2011-189
- Place of Presentation
  東北大学
- Year and Date
  2012-02-09
[Presentation] Active Appearance Modelsを用いた表情合成におけるパラメータ探索法の改良2012
- Author(s)
  錦内優輝, 桂田浩一, 入部百合絵, 新田恒雄
- Organizer
  電子情報通信学会技術研究報告,PRMU2011-189
- Place of Presentation
  東北大学
- Year and Date
  2012-02-09
[Presentation] Phoneme Recognition based on AF-HMMs with Optimal State Configuration2011
- Author(s)
  Narpendyah Wisjnu Ariwardhani, Yurie Iribe, Kouichi Katsurada, Tsuneo Nitta
- Organizer
  電子情報通信学会技術研究報告,SP2011-84
- Place of Presentation
  芝浦工業大学
- Year and Date
  2011-12-19
[Presentation] 発音訓練のための調音特徴に基づくIPA母音図へのリアルタイム表示2011
- Author(s)
  森拓郎, 入部百合絵, 桂田浩一, 新田恒雄
- Organizer
  情報処理学会研究報告2011-SLP-89
- Place of Presentation
  芝浦工業大学
- Year and Date
  2011-12-19
[Presentation] 顔領域の違いによる読話認識性能比較2011
- Author(s)
  池田大輔, 桂田浩一, 入部百合絵, 新田恒雄
- Organizer
  情報処理学会研究報告2011-SLP-89
- Place of Presentation
  芝浦工業大学
- Year and Date
  2011-12-19
[Presentation] Suffix Arrayを用いた高速STDにおけるキーワード分割に関する理論的検討2011
- Author(s)
  桂田浩一, 入部百合絵, 新田恒雄
- Organizer
  情報処理学会研究報告2011-SLP-89
- Place of Presentation
  芝浦工業大学
- Year and Date
  2011-12-19
[Presentation] Articulation Animation Generated from Speech for Pronunciation Training2011
- Author(s)
  Yurie Iribe, Silasak Manosavanh, Kouichi Katsurada, Ryoko Hayashi, Chunyue Zhu, Tsuneo Nitta
- Organizer
  Workshop Proc.of ICCE2011
- Place of Presentation
  Chiang Mai, Thailand
- Year and Date
  2011-11-28
[Presentation] 発話認識に使用する顔領域の違いが読唇能力に与える影響2011
- Author(s)
  池田大輔, 桂田浩一, 入部百合絵, 新田恒雄
- Organizer
  平成23年度電気関係学会東海支部連合大会
- Place of Presentation
  三重大学
- Year and Date
  2011-09-27
[Presentation] 音声から抽出した調音動作に基づくCGアニメーション生成2011
- Author(s)
  Silasak Manosavanh, 入部百合絵, 桂田浩一, 林良子, 朱春躍, 新田恒雄
- Organizer
  日本音響学会2011年秋季研究発表会
- Place of Presentation
  島根大学
- Year and Date
  2011-09-20
[Presentation] Evaluation of Fast Spoken Term Detection Using a Suffix Array2011
- Author(s)
  Kouichi Katsurada, Shinta Sawada, Shigeki Teshima, Yurie Iribe, Tsuneo Nitta
- Organizer
  InterSpeech2011
- Place of Presentation
  フィレンツェ,イタリア
- Year and Date
  2011-08-30
[Presentation] Speech Synthesis based on Articulatory-Movement HMMs with Voice-source Codebooks2011
- Author(s)
  Tsuneo Nitta, Takayuki Onoda, Masashi Kimura, Yurie Iribe, Kouichi Katsurada
- Organizer
  InterSpeech2011
- Place of Presentation
  フィレンツェ,イタリア
- Year and Date
  2011-08-29
[Presentation] Generating Animated Pronunciation from Speech through Articulatory Feature Extraction2011
- Author(s)
  Yurie Iribe, Silasak Manosavanh, Kouichi Katsurada, Ryoko Hayashi, Chunyue Zhu, Tsuneo Nitta
- Organizer
  InterSpeech2011
- Place of Presentation
  フィレンツェ,イタリア
- Year and Date
  2011-08-29
[Presentation] Letter-to-Phoneme Conversion Based on Two-Stage Neural Network Focusing on Letter and Phoneme Contexts2011
- Author(s)
  Kheang Seng, Yurie Iribe, Tsuneo Nitta
- Organizer
  InterSpeech2011
- Place of Presentation
  フィレンツェ,イタリア
- Year and Date
  2011-08-29
[Presentation] 調音運動に基づくワンモデル音声認識合成方式2011
- Author(s)
  木村優志, 小野田高幸, 入部百合絵, 桂田浩一, 新田恒雄
- Organizer
  電子情報通信学会技術研究報告,SP2011-41
- Place of Presentation
  定山渓グランドホテル瑞苑(北海道)
- Year and Date
  2011-07-21
[Presentation] 表情模倣における表情合成手法の比較2011
- Author(s)
  錦内優輝, 桂田浩一, 入部百合絵, 新田恒雄
- Organizer
  2011年度人工知能学会全国大会
- Place of Presentation
  いわて県民情報交流センター
- Year and Date
  2011-06-03
[Presentation] 調音運動のone-modelを用いた音声認識・合成の改良2011
- Author(s)
  新田恒雄, 小野田高幸, 荒木厚太, 入部百合絵, 桂田浩一
- Organizer
  2011年度人工知能学会全国大会
- Place of Presentation
  いわて県民情報交流センター
- Year and Date
  2011-06-03
[Presentation] 記号創発ロボティクスとマルチモーダルセマンティックインタラクション2011
- Author(s)
  谷口忠大, 岩橋直人, 新田恒雄, 岡田浩之, 長井隆行
- Organizer
  2011年度人工知能学会全国大会
- Place of Presentation
  いわて県民情報交流センター
- Year and Date
  2011-06-02

2011 Fiscal Year Annual Research Report

大規模音声ドキュメントを対象とする超高速検索エンジンの構築

Principal Investigator

新田 恒雄 豊橋技術科学大学, 大学院・工学研究科, 教授 (70314101)

Current Status of Research Progress

Reason

Research Products

[Presentation] Improvement of Animated Articulatory Gesture Extracted from Speech for Pronunciation Training2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 放送大学の講義音声を対象とした高速キーワード検索の性能評価2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声から抽出した調音特徴に基づく調音動作アニメーションの改良2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 調音特徴抽出における強調/抑制の効果2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ワンモデル音声認識合成における合成品質の改良2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Improvement of an AF-HMM based phoneme recognizer2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 調音特徴抽出に基づくIPAチャートへの英語発音リアルタイム表示2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 調音特徴抽出に基づくIPA母音チャートへの英語発音リアルタイム表示2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 日本人の誤りパターンを考慮した英語発話中の音素連結・脱落・同化検出2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 対話エージェントの自然な端末間移動を実現するためのユーザ/デバイスモデルの管理法2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Phoneme Recognition Based on AF-HMMs with an Optimal Parameter Set2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 顔領域の違いが読話性能に与える影響について2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Active Appearance Modelsを用いた表情合成におけるパラメータ探索法の改良2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Phoneme Recognition based on AF-HMMs with Optimal State Configuration2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 発音訓練のための調音特徴に基づくIPA母音図へのリアルタイム表示2011

Author(s)

Organizer

新田恒雄豊橋技術科学大学, 大学院・工学研究科, 教授 (70314101)