研究課題/領域番号 |
26280055
|
研究機関 | 東京工業大学 |
研究代表者 |
篠崎 隆宏 東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
|
研究分担者 |
Duh Kevin 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80637322) [辞退]
能勢 隆 東北大学, 工学(系)研究科(研究院), 講師 (90550591)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | 音声認識 / 音声合成 / ディープニューラルネットワーク |
研究実績の概要 |
ディープニューラルネットワークの構造最適化について、前年度の小規模または部分的なタスクを用いた実験を発展させ、大語彙音声認識タスクでの研究と実装を進めた。今日の高性能音声認識システムでは、発音記号と音声信号の対応をモデル化する役割を果たす音響モデルとしてディープニューラルネットワークが用いられている。システムに高い認識性能を発現させるためには、ディープニューラルネットワークにどのような構造を持たせるかが重要となる。そこで、音響モデルとして用いられるディープニューラルネットワークの構造を進化計算をもとに自己組織化的に最適化する手法について提案し研究を行った。大規模な計算が必要になることから効率的な進化計算手法を応用するとともに、並列計算を行うソフトウエアを開発し実験をすすめた。その結果、公開されている日本語話し言葉音声認識システムとしては世界トップレベルの認識性能が実現できた。成果は論文等で発表したほか、最適化したシステムは研究コミュニティで共有されているソフトウエアレポジトリを通して一般公開た。公開したシステムは、日本語音声認識のベースラインとして利用されている。また、リカレント構造を持ったニューラルネットワークを用いた言語モデルに同手法を応用し、認識性能をさらに向上させる研究に取り組んでいる。 音響モデルの半教師付き学習のアルゴリズムとして、教師なし学習で学習した疑似音素を用いる手法について実験を進めた。小規模な実験で効果が確認できたことから、同様の枠組みを大語彙音声認識実験に組み込み、実験を進めている。 また、ディープニューラルネットワークを用いた声質変換手法について、声質変換の性能を制約する要因について分析を行い、それに基づいた改善策の研究を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
大規模で複雑なディープニューラルネットワークの構造を自動的に最適化する手法を提案し、大語彙音声認識システムに実装し、認識実験により効果を確認できた。その過程において開発した日本語大語彙音声認識システムおよび提案手法により最適化したディープニューラルネットワークのデザインは研究コミュニティで共有されているソフトウエアレポジトリを通して公開し、日本語音声認識のベースラインとして一般に利用されている。 半教師付き学習アルゴリズムとして、少量のラベル付き音声データと、教師なし学習により獲得した疑似音素を用いてラベル付けした大量のラベルなし音声データを用いる手法について検討を進めた。この手法では、半教師付き学習のプロセスにおいて人手によるラベルデータと疑似ラベルデータを同時に使用するため、出力側が分岐した構造を持つディープニューラルネットワークを用いている。小規模なタスクにおいて効果が確認できたことから、大語彙音声認識システムに組み込んでの実験を進めている。 また、声質変換やその応用タスクへのディープニューラルネットワークの利用について、研究を進めている。 また、本プロジェクトのこれまでの成果をもとに、アメリカやチェコ、ドイツなど海外の大学の研究室とのネットワークを広げることができた。
|
今後の研究の推進方策 |
これまでループを持たないフィードフォワード型のディープニューラルネットワークを中心に構造の自動最適化手法の研究を進めてきたが、今年度はループ構造を含むより複雑な構造を持ったリカレントニューラルネットワークに対して重点を置いて研究を進める。特に、長・短期記憶レイヤーの利用や活性化関数の種類選択を含めた構造デザインの自動最適化について実装と実験を進める。 モデルパラメタの半教師付き学習について、少量のラベル付き音声データと、教師なし学習により獲得した疑似音素を用いてラベル付けした大量のラベルなし音声データを用いた手法の検討を進める。これまでに小規模なタスクにおいて効果が確認できたことから、大語彙音声認識システムに組み込んでの実験を進める。ただし、本年度において海外で類似した研究の発表があったことから、そちらの動向について注視するとともに本研究で独自となる部分についての研究と実証を急ぐ。疑似音素の半教師付き学習については、海外の研究室との協力も検討する。 Hub型ネットワークにおいて多様な学習を可能とするため、関数形が明示的に与えられていないブラックボックス関数として実現されるコンポーネントの埋め込み方法について検討を進める。具体的には解析的な偏微分に頼らずバックプロパゲーションを実現するアルゴリズムの検討と実装を進める。 また、成果発表の一形態として研究コミュニティで共有されているソフトウエアレポジトリを介して日本語音声認識システムを公開しているが、研究の進展に合わせて公開ソフトウエアのアップデートを行う。
|
次年度使用額が生じた理由 |
大学計算機センターのスーパーコンピューターの利用について、年度末近くはジョブの混雑のため一定量のタスクを計画通りに実行するために実質的に高い使用量が必要になることを予測していたが、昨年度と比べて混雑が幾分少なかったことから利用ポイントのチャージを減額したことと、スーパーコンピューターでのジョブの実行を前提に研究室内での計算サーバー用PC一台分の購入を控えたことによる。なお実際にはその後チャージポイントの不足が懸念される状況になり、結果的にはチャージが可能な12月中により多くの使用ポイントをチャージしておくべきであった。
|
次年度使用額の使用計画 |
これまでの研究の過程でソフトウエアの実装が進み、今後大規模計算実験を多く実行することになる。そのため、研究室内で計算サーバーやストレージとして用いるハードウエアを購入するための費用や、大学計算機センターのスーパーコンピュータの使用料として使用する。また、学会等での成果発表のための費用としても使用する。
|