2021 Fiscal Year Research-status Report
発声運動学習が音声認識学習に与える影響に関する計算言語学的研究
Project/Area Number |
21K17805
|
Research Institution | Osaka University |
Principal Investigator |
森田 尭 大阪大学, 産業科学研究所, 助教 (10837587)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | 深層学習 / 音声認識 / 音声合成 / 教師なし学習 |
Outline of Annual Research Achievements |
初年度は、人工ニューラルネットワークを用いたヒトの発声モデルの制御を主要研究項目として設定していた。実際には深層学習用の計算環境構築から着手したが、世界的な半導体不足や計算機用電源増設工事の日程調整の影響により計算機の調達・設置が遅れ、さらに納入された計算機の初期不良もあったことで安定した運用開始が令和3年12月までずれ込んでしまった。計算機の安定運用開始後は、当初の計画通り調音音声合成モデルの入出力を人工ニューラルネットワークで近似する方針で研究を進めたが、波形・(メル)スペクトログラム・メル周波数ケプストラム係数系列といった様々な出力形式に対し、近似出力が定数関数的挙動に陥る学習失敗が続いた。この問題を受け、一度問題設定の難易度を落とし、直接的な勾配伝播が可能な教師あり深層音声合成モデルを発声モデルとして採用し、先に基盤的知見を得る研究計画に切り替えた。令和3年度終了時点では、この方針転換後の研究を進めている状況である。またこれと並行して、令和3年度探求した調音音声合成モデルとは別のモデルの採用についても検討をしており、情報収集を進めている。 発信面では、招待講演や国際シンポジウムでの発表にて本研究が取り組む教師なし音声認識に関する必要性・課題についての周知し、関連分野の活性化に貢献した。また、深層学習の関連基盤技術に関する研究については成果をまとめ、4件の査読付き論文掲載に至った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究に使用する計算機の調達・稼働開始が、半導体不足や電源増設工事の日程調整、納品後の初期不良等の問題で遅延した。また、当初採用した調音音声合成モデルの深層学習近似が難航したため、教師あり音声合成モデルを用いた基盤研究を先行実施する計画へと変更を行った影響で遅延が発生している。
|
Strategy for Future Research Activity |
最終的な目標である調音音声合成モデル制御時の音声認識への影響調査に向けた基盤研究として、教師あり音声合成モデルが教師なし音声認識学習に与える影響を調査する計画である。また、調音音声合成モデルについても当初予定していたPraatよりも入力パラメータ数が少なく、且つより精密なシミュレーションを行うことができるVocalTractLabを用いる方針で進めている。
|
Causes of Carryover |
Covid-19の蔓延により各種会議・打ち合わせ等がオンライン開催を余儀なくされたため、旅費分の予算は次年度に全額繰り越した。同様に旅費として使用予定である。 また、計算機購入用予算については半導体価格上昇を見越して余裕を持った見積もっていたため、余剰が発生した。こちらについては、次年度計算を大規模化するためのスーパーコンピューター使用経費として利用する計画である。
|
Research Products
(7 results)