2007 Fiscal Year Annual Research Report

構造不変の定理に基づく聴覚・視覚・身体メディアの普遍的表象に関する基礎研究

Research Project

Project/Area Number	07F07078
Research Institution	The University of Tokyo
Principal Investigator	峯松信明 The University of Tokyo, 大学院・工学系研究科, 准教授
Co-Investigator(Kenkyū-buntansha)	QIAO Yu 東京大学, 大学院・工学系研究科, 外国人特別研究員
Keywords	構造不変の定理 / 話者不変量 / メディア普遍量 / 構造的表象 / 音声認識 / 身体動作
Research Abstract	話者不変の音声表象である音声の構造的表象は,音イベント群の個々の要素を絶対的に表象するのではなく,個々のイベント間のコントラストをf-divergenceで知られる変換不変量を用いて表象する新しい音声表象方式である。これを用いると,音声を全体的,包括的に表象することとなる。従来申請者らは,この構造表象を用いた音声認識を検討してきた。話者によって表象が変化しない点を利用し,非常に小数の話者のサンプルを用いて不特定話者音声認識の可能性について検討してきた。その結果,非常に限られたタスクではあるが,数千人の話者より構築された,音響的実体を用いる音響モデルよりも遥かに話者性に対する頑健性が高い音響モデルが構築された。提唱している話者不変の音響表象は,音ストリームのダイナミクスを話者不変(即ち変換不変)の形で抽出することを意図しており,この考えは,音声のみならず様々なメディア処理に応用できるはずである。本研究の目的は,非音声・音響メディアにおける本表象の具体的な応用可能性を検討することにあるが,初年度は応用の範囲を音声メディアに限定し,種々の検討を行なった。まず,音声ストリームを分布列へと変換する前処理部に対して,「統計的に準最適な自動セグメンテーション」を定義し,繰り返し計算に基づいて,より最適な区分化が可能となるアルゴリズムを提案した。教師無し音素セグメンテーションをタスクとして提案アルゴリズムを評価し,従来方法よりも高い精度で音素境界の自動検出が可能となった。次に構造表象の分類器に着目した。構造表象は,単語を表象するためのパラメータ次元数が容易に増加する。これは,個々の音響事象そのものを表象するのではなく,事象間のコントラストに着眼するためであり,事象数の2乗のオーダーで次元数が増加する。この次元数増加による識別率劣化を防ぐためにランダムサンプリングと線形識別分析(LDA)に基づく効率的な分類器の構成を試みた。その結果,認識率の劣化を最小限に抑えながら,計算時間を大幅に削減することに成功した。

Research Products

(4 results)

All 2008 2007

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results)

[Journal Article] 音声の構造的表象に基づく日本語孤立母音系列を対象とした音声認識2008
- Author(s)
  村上隆夫, 峯松信明, 広瀬啓吉
- Journal Title
  
  電子情報通信学会 91巻2号
  
  Pages: 558-566
- Peer Reviewed
[Journal Article] Unsupervised optiomal phoneme segmentation: objective, algorithm, and comparisons2008
- Author(s)
  Y. Qiao, N. Shimomura, N. Minematsu
- Journal Title
  
  Proc. Int. Conf. Acoustics, Speech and Signal Processing
  
  Pages: 3989-3992
- Peer Reviewed
[Journal Article] Random discriminant structure analysis for continuous Japanese vowel recognition2007
- Author(s)
  Y. Qiao S. Asakawa, N. Minematsu
- Journal Title
  
  Proc. Int. Workshop on Automatic Speech Recognition and Understanding
  
  Pages: 576-581
- Peer Reviewed
[Presentation] 要素論から全体論へ〜全体から入る音声情報処理への招待〜2007
- Author(s)
  峯松信明, 西村多寿子, 朝川智, 櫻庭京子, 斎藤大輔
- Organizer
  情報処理学会音声言語情報処理研究会
- Place of Presentation
  岩手
- Year and Date
  20070700

2007 Fiscal Year Annual Research Report

構造不変の定理に基づく聴覚・視覚・身体メディアの普遍的表象に関する基礎研究

Principal Investigator

峯松 信明 The University of Tokyo, 大学院・工学系研究科, 准教授

Research Products

[Journal Article] 音声の構造的表象に基づく日本語孤立母音系列を対象とした音声認識2008

Author(s)

Journal Title

[Journal Article] Unsupervised optiomal phoneme segmentation: objective, algorithm, and comparisons2008

Author(s)

Journal Title

[Journal Article] Random discriminant structure analysis for continuous Japanese vowel recognition2007

Author(s)

Journal Title

[Presentation] 要素論から全体論へ 〜全体から入る音声情報処理への招待〜2007

Author(s)

Organizer

Place of Presentation

Year and Date

峯松信明 The University of Tokyo, 大学院・工学系研究科, 准教授

[Presentation] 要素論から全体論へ〜全体から入る音声情報処理への招待〜2007