研究課題/領域番号 |
18K18170
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
太田 健吾 豊橋技術科学大学, 工学(系)研究科(研究院), 講師 (80712801)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 音声言語処理 / 自然言語処理 / 発表音声 / プレゼンテーションスキル / 話し方評価 |
研究実績の概要 |
本研究課題では、人工知能の一分野である音声言語処理の技術を用いて、発表者にとって模範となる理想的な発表音声を自動生成することにより、発表の効果的な自主練習を支援するシステムの構築を目指している。2020年度は、以下の研究について取り組んだ。 【実施内容1】発表者にとって模範となる理想的なポーズ(無音による間)を提示するために、入力された文に対し、適切な長さのポーズを、文中の適切な箇所に挿入するアルゴリズムについて検討を行った。提案するアルゴリズムでは、単語の分散表現を入力とする深層学習により、入力文中の各単語の直後にポーズを挿入すべきかどうかと、挿入するポーズの長さを同時に推定する。提案手法によって挿入されたポーズの自然性を被験者実験によって評価した結果、従来手法より有意に優れた結果を得ることはできなかったが、さらなる改善に向けて重要な示唆を得ることができた。 【実施内容2】発表者による発表音声を高精度に認識するため、音声認識手法に関する検討を行った。具体的には、深層学習に基づく音声認識器をベースとし、従来のように音声言語データベースから音響的な知識と言語的な知識を同時に学習するのではなく、大規模なテキストデータベースから学習した言語的な知識を効果的に認識に用いるための手法を提案した。 【実施内容3】発表音声を自動生成するために、音声合成について検討を行った。具体的には、深層学習に基づく音声合成器をベースとし、入力文の音素列だけを入力するのではなく、外部の解析器によって抽出されたアクセントに関する情報も同時に入力することで、より自然な合成音声を得られることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題では、提案するシステムを実現するために、4つの要素技術の研究開発を行うことを計画している。3年目の2020年度では、これらのうち2つの要素技術について研究開発を行った。 1つ目の冗長表現の除去については、音声認識の誤りが冗長表現の検出に悪影響を与えることが課題となっていた。そこで本年度は、話し言葉であり多様な話題を含む発表音声に対し、より高精度な音声認識を実現するために、音声認識アルゴリズムの改善について検討した。この結果、大規模なテキストデータから得られた言語的な知識を効果的に用いる音声認識手法を提案することができ、実際の講演音声を対象とした評価実験において、従来手法より高い認識精度を達成することができた。 2つ目の韻律の最適化については、深層学習の技術を用いて、発話が聞き取りやすくなるような位置に適切な長さのポーズ(無音による間)を挿入する手法を提案した。提案手法によってポーズを挿入した音声を被験者実験で評価し、最適なポーズの位置や長さについて示唆を得ることができた。また、自然な模範音声を生成するために、音声合成についても検討を行った。深層学習に基づく音声合成手法をベースとし、日本語のアクセントの特徴を考慮した合成器を提案し、被験者実験において従来手法よりも優れた結果を得ることができた。 これらの成果については、国内学会(2020年12月)で1件の発表を行っているほか、査読付き国際会議に1件投稿中である。これまでに4つの要素技術のすべてについて一定の水準まで取り組むことができており、成果を確実に対外発表できていることから、おおむね順調に進展しているものと考えている。
|
今後の研究の推進方策 |
2021年度は、以下の項目を実施する予定である。 【項目1】模範音声を生成するために、発表音声と同じ声質の自然な合成音声を生成する手法について検討する。具体的には、これまでに提案した、日本語のアクセントの特徴を考慮した音声合成手法を拡張し、合成音声の話者性を制御可能な音声合成モデルを構築する。複数の話者を含む音声言語データベースから、音声合成モデルと同時に、話者の特徴を表す埋め込み表現を学習することで、多様な声質の合成音声を実現する。 【項目2】冗長表現の除去について、音声認識結果を用いた検討を行う。発表音声のような話し言葉は最先端の音声認識技術を用いても誤認識が発生するため、誤りを含む認識結果に対しても頑健に冗長表現を検出できるようにアルゴリズムを改良する。具体的には、音声認識の複数候補や単語信頼度を利用したり、大語彙連続音声認識だけではなく音節タイプライタも併用するような手法について検討する。 【項目3】これまでに構築してきたシステムを評価するために、発表音声のデータベースを構築する。具体的には、特定のトピックに関する数十人規模の発表音声を収集し、発表の聞きやすさや理解しやすさに関する評定を付与する。音声認識を用いた評価を行うために、書き起こしも作成する。構築したデータベースを用いて、冗長表現の除去や、語彙の最適化といった、本研究で提案してきた手法を評価すると共に、音声認識精度の影響なども分析する。
|
次年度使用額が生じた理由 |
新型コロナウィルスの感染拡大の影響により、参加予定であった学会の現地開催が中止されたため、旅費の使用額に変更があった。次年度の学会参加費および旅費、評価用データベースをリモートで収集するための物品費等に活用する予定である。
|