2017 Fiscal Year Annual Research Report
Incremental Structuring of Speech Data Considering Relationships with Readability of Transcription
Project/Area Number |
16K16119
|
Research Institution | National Institute of Technology, Toyota College |
Principal Investigator |
村田 匡輝 豊田工業高等専門学校, 情報工学科, 助教 (30707807)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | 音声言語 / 字幕生成 / 構造化 / 漸進的解析 |
Outline of Annual Research Achievements |
本研究では,「字幕の理解しやすさ」という観点から,音声の構造化を行う手法の開発を目的とし,研究を推進した.初年度には,研究に使用するデータの収録,構造化データの一部構築を進めた.本研究は,講演形式,授業形式の音声言語を対象に構造化を行うことを目標としていたため,講演形式のデータについては,既存の独話による講演データを使用し,解析結果例の作成,タグ付けの仕様に関する検討を行った.具体的には,音声の書き起こしテキストに対して,並列箇所や主題-述部の関係,重要箇所,補足箇所といった,解析すべき内容の整理を行い,書き起こしテキストに追記する形で記述した.授業形式のデータについては,5講義分の音声・映像データの収録を行い,音声データの書き起こしを進めた.また,初年度から最終年度前半にかけて,外注によるデータのアノテーションを実施した.収録・作成したデータは,構造解析手法開発のための重要なデータになると考えられる. 最終年度には,字幕を提示するシステムのプロトタイプシステムの開発を行った.本システムは,字幕をプレゼンテーションファイル(例.パワーポイント)と同一画面に表示することを想定している.そのため,パワーポイントVBAを使用し,音声認識の結果をパワーポイント上に表示するシステムを開発した.システム使用者は,特別に意識することなく,通常通りパワーポイントを使用した講演・授業を行うだけで,字幕提示が可能となる.システム開発により,構造解析技術が開発されれば,すぐに字幕提示に利用できる環境が整ったといえる.
|