2018 Fiscal Year Research-status Report

ニューラルネットワーク言語モデルの適応的な自動構成法

Research Project

Project/Area Number	18K11354
Research Institution	Kyoto University
Principal Investigator	秋田祐哉京都大学, 経済学研究科, 准教授 (90402742)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	音声認識 / ニューラルネットワーク / 言語モデル
Outline of Annual Research Achievements	本研究では，ニューラルネットワーク（NN）を用いた音声認識器を認識対象の話題に対して個別に構成できるよう，NN言語モデルの適応に取り組む．講義・講演のような専門的な話題の場合，高精度に認識するため言語モデルを個別の話題に適応させることは不可欠である．ただし，従来のモデルとは異なり，NNでは出力に影響する箇所が陽に与えられず，適応の際のパラメータ調整が難しい．しかも適応用のデータは通常は少量である．このため，NN言語モデルにおける構成（適応）手法はいまだ確立されていない．本研究では，NN言語モデルの形態や性能指標，また少量のデータでも機能する手法を検討して，NNにおける効果的・効率的な構成法を目指す．この際，専門家でなくとも構成できるよう，自動的・自律的な手法を目標とし，実際の講義・講演などの話し言葉音声においてこの構成法の検証を行う．本年度は，認識対象に合わせてモデルをカスタマイズした上で音声認識を実行できる，字幕の自動作成システムをNNを用いて構成した．このシステムは，専門家・技術者でない利用者でも字幕の作成が行えるよう，アップロードされた音声と関連テキストから自動的に音声認識をセットアップ・実行して字幕を作成するサーバシステムである．本システムには一部に深層学習（ディープニューラルネットワーク）のモデルが含まれていたが，音声認識のモデルをすべてニューラルネットワークに統合した，いわゆるEnd-to-End型の音声認識を既存の枠組みに加えて搭載し，本研究の検証プラットフォームとして整備した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究実施計画における研究内容の5項目（基本的なモデルのトポロジの検討，効果的・効率的な構成手法の比較検討，適応効果の最適な指標の定義，End-to-Endへの拡張，字幕タスクにおける評価・検証）のうち2項目はおおむね完了している．本分野での研究トレンドの変化を踏まえて，項目の実施順序を変更してはいるが，進捗は順調と言える．
Strategy for Future Research Activity	実施計画の5項目の残り3項目（基本的なモデルのトポロジの検討・効果的・効率的な構成手法の比較検討・適応効果の最適な指標の定義）について，順次実施する．
Causes of Carryover	今年度分はほぼ使用されており，端数について次年度に繰り越して使用する．

Research Products
(1 results)

All Presentation (1 results)

[Presentation] 音声認識を用いた字幕作成システムの改良2019
- Author(s)
  秋田祐哉・上乃聖・三村正人・河原達也
- Organizer
  情報処理学会アクセシビリティ研究会