2009 年度実績報告書

構造不変の定理に基づく音声アフォーダンスの提案とそれに基づく音声認識系の構築

公募研究

研究領域	情報爆発時代に向けた新しいIT基盤技術の研究
研究課題/領域番号	21013015
研究機関	東京大学
研究代表者	峯松信明東京大学, 大学院・情報理工学系研究科, 准教授 (90273333)
キーワード	構造不変の定理 / 変換不変量 / f-divergence / 音声の構造的表象 / 音声認識 / 発音習熟度推定 / 非言語的要因
研究概要	音声が運ぶ情報は大きく,言語的情報,パラ言語的報,非言語的情報に分かれる。我々は音声から非言語的情報に相当する音響特徴量のみを分離する方法を提案している。年齢・性別による音声の音響的変形,収録機器・伝送機器による音声の音響的変形はいずれも,静的な空間写像として数学的にモデル化できる。よって,写像不変量でもって音声を表象・モデル化することで,静的な変形(変換)に不変な音声情報処理が可能となる。我々は分布間の距離尺度であるf-divergenceが如何なる変換に対しても不変であることを証明しており,発声中の全ての音響事象を分布として捉え,任意の二分布間(事象間)距離を計測し,距離行列として音声を(話者不変的に)表象する手法を提案している。距離行列は一つの幾何学的形態を規定するため,これを音声の構造的表象と呼んでいる。先行研究において,本構造表象のみを用いた孤立単語認職システムを構築した。例えば単語として日本語5母音を入れ替えて構成できる120単語を語彙セットとした場合は,HMMを用いた孤立単語認識システムよりも遙かに高い頑健性を示すことができた。これ}さ,構造表象に基づく音声認織は,明示的に適応処理を行わなくても,適応処理を行った後の音響照合スコアを推定可能である点が有効に寄与した結果である。しかし,子音が入り,かつ,単語長が単語によって変わってくると,構造表象の頑健性が十分に生かし切れず,十分な精度を出すには至っていなかった。この点を考慮し,本年度は構造に基づく音声認識系と従来の音声認識系との融合を計った。音響事象間のコントラストをモデル化対象とする構造と,音響事象そのものをモデル化対象とする従来法とを組あわせ,「隠れ構造モデル」として提案した。また,この構造表象を用いて外国語学習者の発音を表象することで,学習者の年齢・性別に影響を受けない発音表象が得られるが,子音まで考慮した発音構造に対して,発音評定に必要なコントラスト(エッジ)を事前に習得しておくことで,母音・子音に寄らず頑健な発音習熟度推定が可能となることを示した。発音構造を用いることで,一人の教師音声のみを使って,大人,子供と体格の違いを超えて頑健に発音習熟度の推定が可能となった。一方従来のHMMの事後確率を用いる手法では,学習者の身長によって大きく精度が下落する。これを防ぐにはHMMを各話者に適応する必要があるが,この場合,発音の評価というよりも,声帯模写の評価となってくるため,教育学的には不適切な技術開発となってくると言える。構造表象の場合は,そのような問題は原理的に生じ得ない。

研究成果
(24件)

すべて 2009

すべて雑誌論文 (12件) (うち査読あり 12件) 学会発表 (11件) 図書 (1件)

[雑誌論文] A study of Hidden Structure Model and its application to labeling sequences2009
- 著者名/発表者名
  Y.Qiao, M.Suzuki, N.Minematsu
- 雑誌名
  
  Proc.Int.Workshop on Automatic Speech Recognition and Understanding
  
  ページ: 118-123
- 査読あり
[雑誌論文] Sub-structure-based estimation of pronunciation proficiency and classification of learners2009
- 著者名/発表者名
  M.Suzuki, N.Minematsu, D.Luo, K.Hiro
- 雑誌名
  
  Proc.Int.Workshop on Automatic Speech Recognition and Understanding
  
  ページ: 574-579
- 査読あり
[雑誌論文] Implementation of robust speech recognition by simulating infants' speech perception based on the invariant sound shape embedded in utterances2009
- 著者名/発表者名
  N.Minematsu, S.Asakawa, Y.Qiao, D.Saito, T.Nishimura
- 雑誌名
  
  Proc.Speech and Computer
  
  ページ: 35-40
- 査読あり
[雑誌論文] A consideration of ASR based on animal evolution and human development-what should A of ASR stand for2009
- 著者名/発表者名
  N.Minematsu
- 雑誌名
  
  Proc.Int.Workshop on Computational Models of Language Evolution, Acquisition and Processing (CD-ROM)
- 査読あり
[雑誌論文] On invariant structural representation for speech recognition : theoretical validation and experimental improvement2009
- 著者名/発表者名
  Y.Qiao, S.Asakawa, N.Minematsu, K.Hirose
- 雑誌名
  
  Proc.INTERSPEECH
  
  ページ: 3055-3058
- 査読あり
[雑誌論文] Structural analysis of dialects, sub-dialects, and sub-sub-dialects of Chinese2009
- 著者名/発表者名
  X.Ma, A.Nemoto, N.Miriematsu, Y.Qiao, K.Hirose
- 雑誌名
  
  Proc.INTERSPEECH
  
  ページ: 2219-2222
- 査読あり
[雑誌論文] Optimal event search using a structural cost function-improvement structure to speech conversion-2009
- 著者名/発表者名
  D.Saito, Y.Qiao, N.Minematsu, K.Hirose
- 雑誌名
  
  Proc.INTERSPEECH
  
  ページ: 2047-2050
- 査読あり
[雑誌論文] Improved structure-based automatic estimation of pronunciation proficiency2009
- 著者名/発表者名
  M.Suzuki, L.Dean, N.Minematsu, K.Hirose
- 雑誌名
  
  Proc.ISCA Tutorial and Research Workshop on Speech and Language Technology in Education (CD-ROM)
- 査読あり
[雑誌論文] Speech structure : a new framework of speech processing inspired from infants 'behaviors and animals' behaviors2009
- 著者名/発表者名
  N.Minematsu
- 雑誌名
  
  Proc.National Conference on Man-Machine Speech Communication
  
  ページ: 504-509
- 査読あり
[雑誌論文] Structural analysis of Chinese dialect speakers and their automatic classification2009
- 著者名/発表者名
  X.Ma, N.Minematsu, A.Nemoto, M.Takazawa, Y.Qiao, K.Hirose
- 雑誌名
  
  Proc.National Conference on Man-Machine Speech Communication
  
  ページ: 440-445
- 査読あり
[雑誌論文] Improvement of structure to speech conversion using iterative optimization2009
- 著者名/発表者名
  D.Saito, Y.Qiao, N.Minematsu, K.Hirose
- 雑誌名
  
  Proc.Speech and Computer
  
  ページ: 174-179
- 査読あり
[雑誌論文] Dialect-based speaker classification of Chinese using structural representation of pronunciation2009
- 著者名/発表者名
  X.Ma, N.Minematsu, Y.Qiao, K.Hirose, A.Nemoto, F.Shi
- 雑誌名
  
  Proc.Speech and Computer
  
  ページ: 350-355
- 査読あり
[学会発表] 話者不変な相対関係特徴を音響単位とする音響モデリングに関する実験的検討2009
- 著者名/発表者名
  齋藤大輔, 松浦良, 峯松信明, 広瀬敬吉
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  東京大学
- 年月日
  2009-12-21
[学会発表] 二言語に渡る構造的表象に基づく音声・言語変換の実験的検討2009
- 著者名/発表者名
  見原隆介, 齋藤大輔, 峯松信明, 広瀬啓吉
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  静岡大学
- 年月日
  2009-11-01
[学会発表] 構造評価関数を用いた構造的表象からの音声合成系の高精度化2009
- 著者名/発表者名
  斎藤大輔, 喬宇, 峯松信明, 広瀬敬吉
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  静岡大学
- 年月日
  2009-11-01
[学会発表] 二言語に渡る構造的表象に基づく音声・言語変換の実験的検討2009
- 著者名/発表者名
  見原隆介, 齋藤大輔, 峯松信明, 広瀬啓吉
- 学会等名
  日本音響学会秋季全国大会
- 発表場所
  日本大学
- 年月日
  2009-09-01
[学会発表] 発音構造を用いた話者の違いに頑健な発音評定・学習者分類2009
- 著者名/発表者名
  鈴木雅之, 羅徳安, 峯松信明, 広瀬啓吉
- 学会等名
  日本音響学会秋季全国大会
- 発表場所
  日本大学
- 年月日
  2009-09-01
[学会発表] 音声事象の相対関係を音響単位とした未知語用音響モデルに関する実験的検討2009
- 著者名/発表者名
  齋藤大輔, 松浦良, 峯松信明, 広瀬啓吉
- 学会等名
  日本音響学会秋季全国大会
- 発表場所
  日本大学
- 年月日
  2009-09-01
[学会発表] Proposal of Hidden Structure Model2009
- 著者名/発表者名
  喬宇, 鈴木雅之, 峯松信明
- 学会等名
  日本音響学会秋季全国大会
- 発表場所
  日本大学
- 年月日
  2009-09-01
[学会発表] 音声情報処理技術を活用した英語発音の自動分類と発音矯正部位の自動推定2009
- 著者名/発表者名
  峯松信明, 山内豊
- 学会等名
  外国語教育メディア学会全国研究大会
- 発表場所
  経済流通大学
- 年月日
  2009-08-01
[学会発表] An Investigation of Hiden Structure Model2009
- 著者名/発表者名
  喬宇, 鈴木雅之, 峯松信明
- 学会等名
  情報処理学会音声言語情報処理研究会
- 発表場所
  福島県飯坂温泉
- 年月日
  2009-07-01
[学会発表] 音声の構造的表象を用いた自動発音評定法の改善2009
- 著者名/発表者名
  鈴木雅之, 羅徳安, 峯松信明, 広瀬啓吉
- 学会等名
  情報処理学会音声言語情報処理研究会
- 発表場所
  福島県飯坂温泉
- 年月日
  2009-07-01
[学会発表] Structural analysis of Chinese dialects and its experimental application to pronunciation assessment2009
- 著者名/発表者名
  X.Ma, N.Minematsu, A.Nemoto, Y.Qiao, K.Hirose
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  福島県飯坂温泉
- 年月日
  2009-07-01
[図書] 「人間に近づく音声認識」(日経サイエンス6月号)2009
- 著者名/発表者名
  峯松信明
- 総ページ数
  6
- 出版者
  日経サイエンス

2009 年度 実績報告書

構造不変の定理に基づく音声アフォーダンスの提案とそれに基づく音声認識系の構築

研究代表者

峯松 信明 東京大学, 大学院・情報理工学系研究科, 准教授 (90273333)

研究成果

[雑誌論文] A study of Hidden Structure Model and its application to labeling sequences2009

著者名/発表者名

雑誌名

[雑誌論文] Sub-structure-based estimation of pronunciation proficiency and classification of learners2009

著者名/発表者名

雑誌名

[雑誌論文] Implementation of robust speech recognition by simulating infants' speech perception based on the invariant sound shape embedded in utterances2009

著者名/発表者名

雑誌名

[雑誌論文] A consideration of ASR based on animal evolution and human development-what should A of ASR stand for2009

著者名/発表者名

雑誌名

[雑誌論文] On invariant structural representation for speech recognition : theoretical validation and experimental improvement2009

著者名/発表者名

雑誌名

[雑誌論文] Structural analysis of dialects, sub-dialects, and sub-sub-dialects of Chinese2009

著者名/発表者名

雑誌名

[雑誌論文] Optimal event search using a structural cost function-improvement structure to speech conversion-2009

著者名/発表者名

雑誌名

[雑誌論文] Improved structure-based automatic estimation of pronunciation proficiency2009

著者名/発表者名

雑誌名

[雑誌論文] Speech structure : a new framework of speech processing inspired from infants 'behaviors and animals' behaviors2009

著者名/発表者名

雑誌名

[雑誌論文] Structural analysis of Chinese dialect speakers and their automatic classification2009

著者名/発表者名

雑誌名

[雑誌論文] Improvement of structure to speech conversion using iterative optimization2009

著者名/発表者名

雑誌名

[雑誌論文] Dialect-based speaker classification of Chinese using structural representation of pronunciation2009

著者名/発表者名

雑誌名

[学会発表] 話者不変な相対関係特徴を音響単位とする音響モデリングに関する実験的検討2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 二言語に渡る構造的表象に基づく音声・言語変換の実験的検討2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 構造評価関数を用いた構造的表象からの音声合成系の高精度化2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 二言語に渡る構造的表象に基づく音声・言語変換の実験的検討2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 発音構造を用いた話者の違いに頑健な発音評定・学習者分類2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声事象の相対関係を音響単位とした未知語用音響モデルに関する実験的検討2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Proposal of Hidden Structure Model2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声情報処理技術を活用した英語発音の自動分類と発音矯正部位の自動推定2009

著者名/発表者名

学会等名

発表場所

2009 年度実績報告書

峯松信明東京大学, 大学院・情報理工学系研究科, 准教授 (90273333)