• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

構造不変の定理に基づく音声アフォーダンスの提案とそれに立脚した音声認識系の構築

研究課題

研究課題/領域番号 18049018
研究種目

特定領域研究

配分区分補助金
審査区分 理工系
研究機関東京大学

研究代表者

峯松 信明  東京大学, 大学院新領域創成科学研究科, 助教授 (90273333)

研究期間 (年度) 2006
研究課題ステータス 完了 (2006年度)
配分額 *注記
3,300千円 (直接経費: 3,300千円)
2006年度: 3,300千円 (直接経費: 3,300千円)
キーワード構造不変の定理 / 音声アフォーダンス / 音声認識 / 非言語的情報 / 発達性dyslexia / 多次元音楽
研究概要

音声から言語情報・パラ言語情報を抽出する場合,年齢/性別/収録聞きの違いによって付与される音響歪みは純粋なノイズとなる。従来これらのノイズに対処するために,多量の音声でイータを収集し,それらから統計的な音響モデルを構築していた。本研究では,集めることで解決を図るのではなく,これらのノイズを表現する次元を消失した音声モデリング(音声アフォーダンスを数学的に定式化することで解決を図った。
音声ストリームを分布系列に変換し,時間的に離れた分布対を含め、全ての二分布距離をバタチャリヤ距離と呼ばれる距離尺度を用いて計算する。全ての2事象間距離を求める(即ち距離行列を算出する)ことは,幾何学的な構造を規定することに等しいが,距離尺度としてバタチャリヤ距離を用いることで,空間を歪ませて構造不変性を保証している。
先行研究では,孤立母音の系列を対象として上記音声表象の妥当性を検討したが,本年度はこれを連続音声へと拡張して検討を行なった。この場合,状態数の増加に伴う問題が発生するが,構造不変性を部分空間においても仮定することで認識率の大幅な向上を実現した。具体的には,日本語5母音を並び替えて構成される120単語認識をタスクとして実験を行ったところ,単語単位では93%,母音単位では97%という率が得られた。これは,音声の絶対的な物理量を一切用いずに,単語が認識でき,かつ,母音を同定することが可能であることを示す。従来,音の同定には音の絶対的な特徴量を用いて来たが(故に,音響歪みが混入する),これとは全く異なる枠組みにおいて,音声の認識が可能であることを示している。この場合,モデル学習に必要な話者数は極めて少数でよい。
なお,本手法は孤立音の同定は原理上できなくなる。つまり,音の同定を行なうことなく,単語の同定を行なうアルゴリズムとなる訳だが,似た症状を呈する障害として発達性dyslexiaがある文字の読み書きにのみ困難を示す症状である。本研究は,この症状を物理的に説明するモデルを提供する可能性があり,言語障害関係の学会において様々な議論を重ねることができた。

報告書

(1件)
  • 2006 実績報告書
  • 研究成果

    (5件)

すべて 2006

すべて 雑誌論文 (5件)

  • [雑誌論文] Speech recognition only with supra-segmental features-hearing speech as music-2006

    • 著者名/発表者名
      N.Minematsu, T.Nishimura, T.Murakami, K.Hirose
    • 雑誌名

      Proc. Speech Prosody

      ページ: 589-594

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Para-linguistic information represented as distortion of the acoustic universal structure in speech2006

    • 著者名/発表者名
      N.Minematsu, S.Asakawa, K.Hirose
    • 雑誌名

      Proc. ICASSP 5

      ページ: 85-88

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Theorem of the invariant structure and its derivation of speech Gestalt2006

    • 著者名/発表者名
      N.Minematsu, T.Nishimura, K.Nishinari, K.Sakuraba
    • 雑誌名

      Proc. SRIV

      ページ: 47-52

    • NAID

      10016435675

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] 音声の構造的表象を通して考察する失読症・自閉症の音声認知2006

    • 著者名/発表者名
      峯松信明, 櫻庭京子, 西村多寿子
    • 雑誌名

      電子情報通信学会音声研究会SP2006-74

      ページ: 27-32

    • NAID

      110005717068

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] 音声の構造的表象を通して再考する幼児の音声模倣と言語獲得2006

    • 著者名/発表者名
      峯松信明, 西村多寿子, 櫻庭京子
    • 雑誌名

      人工知能学会AIチャレンジ研究会SIG-Challenge-0624-6

      ページ: 35-42

    • 関連する報告書
      2006 実績報告書

URL: 

公開日: 2006-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi