ディープニューラルネットワークを用いる高効率適応学習の汎用的フレームワークの提案
Project/Area Number |
15J02418
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Perceptual information processing
|
Research Institution | Doshisha University |
Principal Investigator |
落合 翼 同志社大学, 理工学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2015-04-24 – 2018-03-31
|
Project Status |
Completed (Fiscal Year 2017)
|
Budget Amount *help |
¥2,800,000 (Direct Cost: ¥2,800,000)
Fiscal Year 2017: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2016: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2015: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Keywords | 多チャンネルend-to-end音声認識 / end-to-endモデルの話者・環境適応 / 環境適応タスクにおける評価実験 / モデル適応のオンライン化 / ネットワーク構造の自動最適化 / 線形変換ネットワークの導入 / 行列ランクに基づいた分析 / ボトルネック構造の導入 |
Outline of Annual Research Achievements |
本研究課題は、ディープニューラルネットワーク(DNN)を用いた、対象問題を限定しない一般的な適応学習フレームワークの構築を目指すものである。本年度は、本研究課題のコンセプトである「DNNの内部に対する機能の集約・局在化」のアイデアを応用し、DNN自身に環境に対する適応能力を学習によって自動的に獲得させる方法論の提案を行った。提案手法では、本来ブラックボックスとして扱われるDNNの内部構造に対し、対象問題に対する事前知識(例えば、雑音下音声認識では雑音抑圧の機能が必要)を数式としてネットワークに組み込むことで、DNNの学習の方向性を誘導し、対象問題にとって望ましい機能をDNNの内部に獲得させることに成功した。 本年度の研究成果として、大きく分けて以下の2つが挙げられる。 (1)雑音抑圧機能を自動獲得するend-to-end音声認識モデル構造の提案。音声認識に関わる一連の手続きを、単一のDNNに基づいて構築するend-to-end音声認識モデルに対し、多チャンネル信号処理技術を数式としてネットワークの内部に組み込むことで、雑音抑圧機能を学習によって自動的に獲得するネットワーク構造の提案を行った。評価実験の結果、提案したend-to-end音声認識モデルは、雑音環境に対する高い適応能力を獲得し、雑音下音声認識において従来手法よりも高い認識性能を発揮することが確認された。 (2)提案したend-to-end音声認識モデルに対するモデル適応技術の有効性の検証。本年度に提案したend-to-end音声認識モデルに対し、昨年度までに研究していたモデル適応技術を組み合わせることで、更なる認識性能の向上を得ることが出来ないか、評価実験を通してその有効性の検証を行った。評価実験の結果、提案手法を組み合わせることで、end-to-end音声認識モデルは更なる認識性能の向上を獲得することが確認された。
|
Research Progress Status |
29年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
29年度が最終年度であるため、記入しない。
|
Report
(3 results)
Research Products
(15 results)