研究課題/領域番号 |
23700218
|
研究機関 | 早稲田大学 |
研究代表者 |
小川 哲司 早稲田大学, 高等研究所, 助教 (70386598)
|
研究期間 (年度) |
2011-04-28 – 2013-03-31
|
キーワード | クラスタリング / ベイズ学習 / 教師なし学習 / 音環境理解 / パターン認識 |
研究概要 |
本研究では,音声メディアデータの構造化・検索支援システムの開発を通じ,ユーザやアプリケーションの枠を超えて,音声認識システムの性能を教師なしの枠組みで改善する(人手を掛けずにシステムを日々成長させる)方式を確立する. このうち平成23年度は,音声認識システムの性能を教師なしの枠組みで効率的に改善するための基幹技術として,音声データを発話者,周辺雑音といった音環境ごとにクラスタリングする方式の開発(以下【23-1】),およびクラスタリング結果を用いた音声認識システムの改善方式の開発(以下【23-2】)を行った.【23-1】音環境クラスタリング方式の開発:ここでは,2つの異なるアプローチで方式開発を行い,話者クラスタリングにより実証実験を行った.まず,(23-1-(1))クラスタ数未知の問題を解くのに適したノンパラメトリックベイズモデリングの枠組みを積極的に活用した発話単位ディレクレ過程混合モデルを考案し,従来方式と比較して,データ数やデータの変動に対して頑健に高いクラスタリング精度を達成した.しかし,この方式はデータの増大に伴う計算量の増加が無視できず,また短い発話や複数人が同時に発話した場合に所望の性能が得られない場合がある.そこで,これらの問題を低減可能な方式として,(23-1-(2))i-vectorと呼ばれる高精度な話者表現と非負値行列分解を用いた新たなクラスタリング方式を考案し,従来方式と比較して高い精度を達成した.さらに,両方式の性質は異なることから,両方式を統合することで更なる性能改善の可能性を見出した.【23-2】クラスタリング結果を用いた確率モデルの適応学習システムの開発:【23-1】で得られるクラスタリング結果に基づいて,音声認識に用いる確率モデル(音響モデル)を教師なしの枠組みで改善する方式の定式化を行い,プロトタイプシステムの開発を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
実施計画においては,平成23年度は「人手を掛けずに日々成長するシステム」のための基幹技術として音環境クラスタリング方式の開発を重点的に行い,さらに,その出力結果であるクラスタ情報を用いて音声認識システムの改善や音声データの可視化を行う計画であった.また,平成24年度においては,平成23年度に開発したシステムを拡張し,「ユーザやアプリケーションの壁」を超えて効率的にシステムを改善する方式を開発する計画である. 平成23年度においては,音環境クラスタリングに関して複数のアプローチで方式提案を行い,話者クラスタリングにおける有効性を実証した.また,そこで得られたクラスタ情報を用いて音声認識システム用の確率モデルを改善する枠組みについて,定式化とプロトタイプシステムの開発を行い,現在大規模な音声データを用いた実証実験を進めている状況である.したがって,研究の進捗状況は概ね実施計画通りに進展していると言える.音環境のクラスタリングに関しては,実施計画においてはノンパラメトリックベイズ学習に基づくアプローチのみを検討する予定であったが,実証実験の過程で短い発話や複数人の同時発話が含まれている場合に高いクラスタリング精度が得られない場合があり,それらの要因に対して頑健な方式としてi-vectorに基づく高精度な特徴抽出と非負値行列分解を統合したアプローチを提案するに至った.音環境クラスタリング技術は本研究の根幹を成す最も重要な技術であるため,音メディアデータの可視化・検索支援システムのプロトタイプ開発よりも優先して検討を行った.検索支援システムのプロトタイプ開発については,次年度も継続して検討を進める予定である.
|
今後の研究の推進方策 |
平成24年度は,少量の教師ラベルが得られた場合に「ユーザやアプリケーションの壁」を超えて効率的にシステムを改善する方式の開発を目指し,以下の【24-1】,【24-2】について検討を行う.【24-1】クラスタリング結果と少量の教師ラベルを用いた半教師あり学習方式の開発:まず,(24-1-(1))認識結果を修正(教師ラベルを付与)することで認識性能改善に寄与する度合いをクラスタごとに推定し,この寄与度が最も大きいクラスタに属するデータからラベルを付与することを促す「ラベル付与箇所推薦システム」を開発する.この枠組みによるラベル修正は,少量の教師ラベルを最大限に活用することを可能にする.本項目では主に,ラベル修正の認識性能改善に対する寄与度の算出方法について検討を行う.また,(24-1-(2))クラスタリング結果を利用した音声認識システムの教師なし適応学習方式を改良し,ユーザがラベルの修正を行った場合,修正がなされた箇所と類似したクラスタ(発話者や話題)のデータに対してのみ音声認識システムの適応学習とラベルの再推定を行う枠組みを開発する.さらに,最適なクラスタの粒度やクラスタ間の類似度について検討しながら,どの程度類似したクラスタに属するデータにまでラベル修正の影響を反映させるかについて知見を得る.【24-2】音声メディア情報の構造化・検索システムの開発・運用:音声の構造化・検索支援システムを構築し,【24-1】で開発した機能を追加することで,アプリケーションを限定しない適応学習の効果の検証を行う.その際,教師情報を全く与えない場合と少量の教師情報を与えた場合について評価を行う.後者においては,会議録作成支援システムを基本システムとし,修正された認識結果(教師ラベル)情報を用いて全く別のアプリケーションである音声対話システムに用いる音声認識システムの性能を改善することを試みる.
|
次年度の研究費の使用計画 |
「今後の研究の推進方策」における【24-2】に関して,会議音声やロボットが参与する対話音声を収録しながら実験を進める.このとき,逐次収録されるデータを保持するための大容量の記憶媒体として,RAID機能を持つストレージ装置とその制御用PCを各々1台ずつ購入する.また,成果発表として国内外の学会への参加や研究ディスカッションのための出張旅費が必要である.
|