2017 年度実績報告書

字幕の理解しやすさとの関係を考慮した音声データの漸進的な構造化に関する研究

研究課題

研究課題/領域番号	16K16119
研究機関	豊田工業高等専門学校
研究代表者	村田匡輝豊田工業高等専門学校, 情報工学科, 助教 (30707807)
研究期間 (年度)	2016-04-01 – 2018-03-31
キーワード	音声言語 / 字幕生成 / 構造化 / 漸進的解析
研究実績の概要	本研究では，「字幕の理解しやすさ」という観点から，音声の構造化を行う手法の開発を目的とし，研究を推進した．初年度には，研究に使用するデータの収録，構造化データの一部構築を進めた．本研究は，講演形式，授業形式の音声言語を対象に構造化を行うことを目標としていたため，講演形式のデータについては，既存の独話による講演データを使用し，解析結果例の作成，タグ付けの仕様に関する検討を行った．具体的には，音声の書き起こしテキストに対して，並列箇所や主題-述部の関係，重要箇所，補足箇所といった，解析すべき内容の整理を行い，書き起こしテキストに追記する形で記述した．授業形式のデータについては，５講義分の音声・映像データの収録を行い，音声データの書き起こしを進めた．また，初年度から最終年度前半にかけて，外注によるデータのアノテーションを実施した．収録・作成したデータは，構造解析手法開発のための重要なデータになると考えられる．最終年度には，字幕を提示するシステムのプロトタイプシステムの開発を行った．本システムは，字幕をプレゼンテーションファイル（例．パワーポイント）と同一画面に表示することを想定している．そのため，パワーポイントＶＢＡを使用し，音声認識の結果をパワーポイント上に表示するシステムを開発した．システム使用者は，特別に意識することなく，通常通りパワーポイントを使用した講演・授業を行うだけで，字幕提示が可能となる．システム開発により，構造解析技術が開発されれば，すぐに字幕提示に利用できる環境が整ったといえる．