研究課題/領域番号 |
18K11354
|
研究機関 | 京都大学 |
研究代表者 |
秋田 祐哉 京都大学, 経済学研究科, 准教授 (90402742)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 音声認識 / ニューラルネットワーク / 言語モデル |
研究実績の概要 |
本研究では,ニューラルネットワークを用いた音声認識器を認識対象の話題に対して個別に構成できるよう,ニューラルネットワーク言語モデルの適応に取り組む.講義・講演のような専門的な話題の場合,高精度に認識するため言語モデルを個別の話題に適応させることは不可欠である.ただし,従来のモデルとは異なり,ニューラルネットワークでは出力に影響する箇所が陽に与えられず,適応の際のパラメータ調整が難しい.しかも適応用のデータは通常は少量である.このため,ニューラルネットワーク言語モデルにおける構成(適応)手法はいまだ確立されていない.本研究では,ニューラルネットワーク言語モデルの形態や性能指標,また少量のデータでも機能する手法を検討して,ニューラルネットワークにおける効果的・効率的な構成法を目指す.この際,専門家でなくとも構成できるよう,自動的・自律的な手法を目標とし,実際の講義・講演などの話し言葉音声においてこの構成法の検証を行う.本年度は,本研究の検証プラットフォームである音声認識を用いた字幕の自動作成システムにおいて,ニューラルネットワーク(LSTM)言語モデルの実装と検証を行った.従来の統計モデルとLSTMモデルは,与えられたテキストデータにより適応が行われた上で併用されるが,本年度はネットワークの再学習および補間手法で適応を実装した.実際の講演データを用いた音声認識の結果,従来の適応済みモデルに対して,ニューラルネットワーク言語モデルおよびその適応の導入によりエラーを3.3%削減し,導入の効果を確かめることができた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実施計画における研究内容の5項目(基本的なモデルのトポロジの検討,効果的・効率的な構成手法の比較検討,適応効果の最適な指標の定義,End-to-Endへの拡張,字幕タスクにおける評価・検証)のうち2項目はおおむね完了し,2項目を実施中のため,進捗は順調と言える.
|
今後の研究の推進方策 |
実施計画のうち3項目(基本的なモデルのトポロジの検討・効果的・効率的な構成手法の比較検討・適応効果の最適な指標の定義)について,引き続き実施する.
|
次年度使用額が生じた理由 |
本年度分はほぼ使用されており,残額は次年度に繰り越して使用する.
|