• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2009 Fiscal Year Annual Research Report

構造不変の定理に基づく音声アフォーダンスの提案とそれに基づく音声認識系の構築

Publicly Offered Research

Project AreaCyber Infrastructure for the Information-explosion Era
Project/Area Number 21013015
Research InstitutionThe University of Tokyo

Principal Investigator

峯松 信明  The University of Tokyo, 大学院・情報理工学系研究科, 准教授 (90273333)

Keywords構造不変の定理 / 変換不変量 / f-divergence / 音声の構造的表象 / 音声認識 / 発音習熟度推定 / 非言語的要因
Research Abstract

音声が運ぶ情報は大きく,言語的情報,パラ言語的報,非言語的情報に分かれる。我々は音声から非言語的情報に相当する音響特徴量のみを分離する方法を提案している。年齢・性別による音声の音響的変形,収録機器・伝送機器による音声の音響的変形はいずれも,静的な空間写像として数学的にモデル化できる。よって,写像不変量でもって音声を表象・モデル化することで,静的な変形(変換)に不変な音声情報処理が可能となる。我々は分布間の距離尺度であるf-divergenceが如何なる変換に対しても不変であることを証明しており,発声中の全ての音響事象を分布として捉え,任意の二分布間(事象間)距離を計測し,距離行列として音声を(話者不変的に)表象する手法を提案している。距離行列は一つの幾何学的形態を規定するため,これを音声の構造的表象と呼んでいる。
先行研究において,本構造表象のみを用いた孤立単語認職システムを構築した。例えば単語として日本語5母音を入れ替えて構成できる120単語を語彙セットとした場合は,HMMを用いた孤立単語認識システムよりも遙かに高い頑健性を示すことができた。これ}さ,構造表象に基づく音声認織は,明示的に適応処理を行わなくても,適応処理を行った後の音響照合スコアを推定可能である点が有効に寄与した結果である。しかし,子音が入り,かつ,単語長が単語によって変わってくると,構造表象の頑健性が十分に生かし切れず,十分な精度を出すには至っていなかった。この点を考慮し,本年度は構造に基づく音声認識系と従来の音声認識系との融合を計った。音響事象間のコントラストをモデル化対象とする構造と,音響事象そのものをモデル化対象とする従来法とを組あわせ,「隠れ構造モデル」として提案した。
また,この構造表象を用いて外国語学習者の発音を表象することで,学習者の年齢・性別に影響を受けない発音表象が得られるが,子音まで考慮した発音構造に対して,発音評定に必要なコントラスト(エッジ)を事前に習得しておくことで,母音・子音に寄らず頑健な発音習熟度推定が可能となることを示した。発音構造を用いることで,一人の教師音声のみを使って,大人,子供と体格の違いを超えて頑健に発音習熟度の推定が可能となった。一方従来のHMMの事後確率を用いる手法では,学習者の身長によって大きく精度が下落する。これを防ぐにはHMMを各話者に適応する必要があるが,この場合,発音の評価というよりも,声帯模写の評価となってくるため,教育学的には不適切な技術開発となってくると言える。構造表象の場合は,そのような問題は原理的に生じ得ない。

  • Research Products

    (24 results)

All 2009

All Journal Article (12 results) (of which Peer Reviewed: 12 results) Presentation (11 results) Book (1 results)

  • [Journal Article] A study of Hidden Structure Model and its application to labeling sequences2009

    • Author(s)
      Y.Qiao, M.Suzuki, N.Minematsu
    • Journal Title

      Proc.Int.Workshop on Automatic Speech Recognition and Understanding

      Pages: 118-123

    • Peer Reviewed
  • [Journal Article] Sub-structure-based estimation of pronunciation proficiency and classification of learners2009

    • Author(s)
      M.Suzuki, N.Minematsu, D.Luo, K.Hiro
    • Journal Title

      Proc.Int.Workshop on Automatic Speech Recognition and Understanding

      Pages: 574-579

    • Peer Reviewed
  • [Journal Article] Implementation of robust speech recognition by simulating infants' speech perception based on the invariant sound shape embedded in utterances2009

    • Author(s)
      N.Minematsu, S.Asakawa, Y.Qiao, D.Saito, T.Nishimura
    • Journal Title

      Proc.Speech and Computer

      Pages: 35-40

    • Peer Reviewed
  • [Journal Article] A consideration of ASR based on animal evolution and human development-what should A of ASR stand for2009

    • Author(s)
      N.Minematsu
    • Journal Title

      Proc.Int.Workshop on Computational Models of Language Evolution, Acquisition and Processing (CD-ROM)

    • Peer Reviewed
  • [Journal Article] On invariant structural representation for speech recognition : theoretical validation and experimental improvement2009

    • Author(s)
      Y.Qiao, S.Asakawa, N.Minematsu, K.Hirose
    • Journal Title

      Proc.INTERSPEECH

      Pages: 3055-3058

    • Peer Reviewed
  • [Journal Article] Structural analysis of dialects, sub-dialects, and sub-sub-dialects of Chinese2009

    • Author(s)
      X.Ma, A.Nemoto, N.Miriematsu, Y.Qiao, K.Hirose
    • Journal Title

      Proc.INTERSPEECH

      Pages: 2219-2222

    • Peer Reviewed
  • [Journal Article] Optimal event search using a structural cost function-improvement structure to speech conversion-2009

    • Author(s)
      D.Saito, Y.Qiao, N.Minematsu, K.Hirose
    • Journal Title

      Proc.INTERSPEECH

      Pages: 2047-2050

    • Peer Reviewed
  • [Journal Article] Improved structure-based automatic estimation of pronunciation proficiency2009

    • Author(s)
      M.Suzuki, L.Dean, N.Minematsu, K.Hirose
    • Journal Title

      Proc.ISCA Tutorial and Research Workshop on Speech and Language Technology in Education (CD-ROM)

    • Peer Reviewed
  • [Journal Article] Speech structure : a new framework of speech processing inspired from infants 'behaviors and animals' behaviors2009

    • Author(s)
      N.Minematsu
    • Journal Title

      Proc.National Conference on Man-Machine Speech Communication

      Pages: 504-509

    • Peer Reviewed
  • [Journal Article] Structural analysis of Chinese dialect speakers and their automatic classification2009

    • Author(s)
      X.Ma, N.Minematsu, A.Nemoto, M.Takazawa, Y.Qiao, K.Hirose
    • Journal Title

      Proc.National Conference on Man-Machine Speech Communication

      Pages: 440-445

    • Peer Reviewed
  • [Journal Article] Improvement of structure to speech conversion using iterative optimization2009

    • Author(s)
      D.Saito, Y.Qiao, N.Minematsu, K.Hirose
    • Journal Title

      Proc.Speech and Computer

      Pages: 174-179

    • Peer Reviewed
  • [Journal Article] Dialect-based speaker classification of Chinese using structural representation of pronunciation2009

    • Author(s)
      X.Ma, N.Minematsu, Y.Qiao, K.Hirose, A.Nemoto, F.Shi
    • Journal Title

      Proc.Speech and Computer

      Pages: 350-355

    • Peer Reviewed
  • [Presentation] 話者不変な相対関係特徴を音響単位とする音響モデリングに関する実験的検討2009

    • Author(s)
      齋藤大輔, 松浦良, 峯松信明, 広瀬敬吉
    • Organizer
      電子情報通信学会音声研究会
    • Place of Presentation
      東京大学
    • Year and Date
      2009-12-21
  • [Presentation] 二言語に渡る構造的表象に基づく音声・言語変換の実験的検討2009

    • Author(s)
      見原隆介, 齋藤大輔, 峯松信明, 広瀬啓吉
    • Organizer
      電子情報通信学会音声研究会
    • Place of Presentation
      静岡大学
    • Year and Date
      2009-11-01
  • [Presentation] 構造評価関数を用いた構造的表象からの音声合成系の高精度化2009

    • Author(s)
      斎藤大輔, 喬宇, 峯松信明, 広瀬敬吉
    • Organizer
      電子情報通信学会音声研究会
    • Place of Presentation
      静岡大学
    • Year and Date
      2009-11-01
  • [Presentation] 二言語に渡る構造的表象に基づく音声・言語変換の実験的検討2009

    • Author(s)
      見原隆介, 齋藤大輔, 峯松信明, 広瀬啓吉
    • Organizer
      日本音響学会秋季全国大会
    • Place of Presentation
      日本大学
    • Year and Date
      2009-09-01
  • [Presentation] 発音構造を用いた話者の違いに頑健な発音評定・学習者分類2009

    • Author(s)
      鈴木雅之, 羅徳安, 峯松信明, 広瀬啓吉
    • Organizer
      日本音響学会秋季全国大会
    • Place of Presentation
      日本大学
    • Year and Date
      2009-09-01
  • [Presentation] 音声事象の相対関係を音響単位とした未知語用音響モデルに関する実験的検討2009

    • Author(s)
      齋藤大輔, 松浦良, 峯松信明, 広瀬啓吉
    • Organizer
      日本音響学会秋季全国大会
    • Place of Presentation
      日本大学
    • Year and Date
      2009-09-01
  • [Presentation] Proposal of Hidden Structure Model2009

    • Author(s)
      喬宇, 鈴木雅之, 峯松信明
    • Organizer
      日本音響学会秋季全国大会
    • Place of Presentation
      日本大学
    • Year and Date
      2009-09-01
  • [Presentation] 音声情報処理技術を活用した英語発音の自動分類と発音矯正部位の自動推定2009

    • Author(s)
      峯松信明, 山内豊
    • Organizer
      外国語教育メディア学会全国研究大会
    • Place of Presentation
      経済流通大学
    • Year and Date
      2009-08-01
  • [Presentation] An Investigation of Hiden Structure Model2009

    • Author(s)
      喬宇, 鈴木雅之, 峯松信明
    • Organizer
      情報処理学会音声言語情報処理研究会
    • Place of Presentation
      福島県飯坂温泉
    • Year and Date
      2009-07-01
  • [Presentation] 音声の構造的表象を用いた自動発音評定法の改善2009

    • Author(s)
      鈴木雅之, 羅徳安, 峯松信明, 広瀬啓吉
    • Organizer
      情報処理学会音声言語情報処理研究会
    • Place of Presentation
      福島県飯坂温泉
    • Year and Date
      2009-07-01
  • [Presentation] Structural analysis of Chinese dialects and its experimental application to pronunciation assessment2009

    • Author(s)
      X.Ma, N.Minematsu, A.Nemoto, Y.Qiao, K.Hirose
    • Organizer
      電子情報通信学会音声研究会
    • Place of Presentation
      福島県飯坂温泉
    • Year and Date
      2009-07-01
  • [Book] 「人間に近づく音声認識」(日経サイエンス6月号)2009

    • Author(s)
      峯松信明
    • Total Pages
      6
    • Publisher
      日経サイエンス

URL: 

Published: 2011-06-16   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi