• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実施状況報告書

ニューラルネットワーク言語モデルの適応的な自動構成法

研究課題

研究課題/領域番号 18K11354
研究機関京都大学

研究代表者

秋田 祐哉  京都大学, 経済学研究科, 准教授 (90402742)

研究期間 (年度) 2018-04-01 – 2021-03-31
キーワード音声認識 / ニューラルネットワーク / 言語モデル
研究実績の概要

本研究では,ニューラルネットワーク(NN)を用いた音声認識器を認識対象の話題に対して個別に構成できるよう,NN言語モデルの適応に取り組む.講義・講演のような専門的な話題の場合,高精度に認識するため言語モデルを個別の話題に適応させることは不可欠である.ただし,従来のモデルとは異なり,NNでは出力に影響する箇所が陽に与えられず,適応の際のパラメータ調整が難しい.しかも適応用のデータは通常は少量である.このため,NN言語モデルにおける構成(適応)手法はいまだ確立されていない.本研究では,NN言語モデルの形態や性能指標,また少量のデータでも機能する手法を検討して,NNにおける効果的・効率的な構成法を目指す.この際,専門家でなくとも構成できるよう,自動的・自律的な手法を目標とし,実際の講義・講演などの話し言葉音声においてこの構成法の検証を行う.本年度は,認識対象に合わせてモデルをカスタマイズした上で音声認識を実行できる,字幕の自動作成システムをNNを用いて構成した.このシステムは,専門家・技術者でない利用者でも字幕の作成が行えるよう,アップロードされた音声と関連テキストから自動的に音声認識をセットアップ・実行して字幕を作成するサーバシステムである.本システムには一部に深層学習(ディープニューラルネットワーク)のモデルが含まれていたが,音声認識のモデルをすべてニューラルネットワークに統合した,いわゆるEnd-to-End型の音声認識を既存の枠組みに加えて搭載し,本研究の検証プラットフォームとして整備した.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

研究実施計画における研究内容の5項目(基本的なモデルのトポロジの検討,効果的・効率的な構成手法の比較検討,適応効果の最適な指標の定義,End-to-Endへの拡張,字幕タスクにおける評価・検証)のうち2項目はおおむね完了している.本分野での研究トレンドの変化を踏まえて,項目の実施順序を変更してはいるが,進捗は順調と言える.

今後の研究の推進方策

実施計画の5項目の残り3項目(基本的なモデルのトポロジの検討・効果的・効率的な構成手法の比較検討・適応効果の最適な指標の定義)について,順次実施する.

次年度使用額が生じた理由

今年度分はほぼ使用されており,端数について次年度に繰り越して使用する.

  • 研究成果

    (1件)

すべて 2019

すべて 学会発表 (1件)

  • [学会発表] 音声認識を用いた字幕作成システムの改良2019

    • 著者名/発表者名
      秋田祐哉・上乃聖・三村正人・河原達也
    • 学会等名
      情報処理学会アクセシビリティ研究会

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi