研究課題/領域番号 |
16K16119
|
研究機関 | 豊田工業高等専門学校 |
研究代表者 |
村田 匡輝 豊田工業高等専門学校, 情報工学科, 助教 (30707807)
|
研究期間 (年度) |
2016-04-01 – 2018-03-31
|
キーワード | 音声言語 / 漸進的解析 / 構造化 / 字幕生成 |
研究実績の概要 |
本研究では,「字幕の理解しやすさ」という観点から,音声の構造化を行う手法の開発を目的としている.初年度は,研究に使用するデータの収録,構造化データの構築を進めた.本研究は,講演形式,授業形式の音声言語を対象に構造化を行うことを目標としている.講演形式のデータについては,既存のデータを用い,解析結果例の作成,タグ付けについて検討を行った.具体的には,音声の書き起こしテキストに対して,並列箇所や主題ー述部の関係,重要箇所,補足箇所といった解析すべき内容の整理を行い,一部のデータに対して,書き起こしテキストに追加する形で解析結果を作成した.授業形式のデータについては,サンプルデータの収録を行うとともに,収録の準備を進めた.この構造化データが,以降の研究内容である,構造化処理単位への分割,単位内・単位間の構造解析技術の開発の要となるため,その重要性は非常に大きい.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
今年度は,研究に使用する授業映像・音声データの収録準備,一部サンプルデータの収録を行った.同時通訳データベースの一部に対して,本研究が目的とする解析結果例の作成,タグ付けの仕様について検討している.また,その情報をもとに理解しやすい字幕提示に関連した言語構造の体系化を進めているが,作業完了には至っていない.これにより,構造解析のための処理単位の分割技術の開発にも若干の遅れが生じている.一方で,授業を対象とした字幕提示システムの開発に関しては計画を前倒しして進めている.
|
今後の研究の推進方策 |
次年度以降は,まずは,本研究の核となる,同時通訳データベース,授業データを用いた構造化データの整備を引き続き推進する.データの整備が完了次第,これまでに推進してきたテキストの分割技術,整形技術の開発におけるノウハウを利用し,構造化のために必要な技術の開発を行う.当初,構造化のための処理単位内,単位間の構造解析技術を順に開発する計画であったが,これらを同時に行うことのできる技術を開発することによって,計画通りに研究を進める予定である.
|
次年度使用額が生じた理由 |
研究計画がやや遅れていることから,初年度に行う予定であった,業者委託による構造化データの構築,作業者によるデータの整備を,年度をまたいで実施することとなったため,次年度使用額が生じた.
|
次年度使用額の使用計画 |
次年度は,構造化データの構築を進めるとともに,構造解析のための処理単位の決定,単位間・単位内の構造解析技術の開発に関する研究を進める.使用計画として,構造化データ構築にかかる業者への委託料,コーパス整備にかかる人件費,構造化データの保守・利用に用いる計算機の購入,および,研究発表にかかる旅費として使用する予定である.
|