2016 年度実施状況報告書

対話的可視化可聴化に基づく音声コミュニケーション研究支援環境

研究課題

研究課題/領域番号	16K12464
研究機関	和歌山大学
研究代表者	河原英紀和歌山大学, 学内共同利用施設等, 名誉教授 (40294300)
研究分担者	入野俊夫和歌山大学, システム工学部, 教授 (20346331) 森勢将雅山梨大学, 総合研究部, 助教 (60510013)
研究期間 (年度)	2016-04-01 – 2018-03-31
キーワード	音声分析 / 音声合成 / 聴覚 / 感情音声 / 対話的研究環境
研究実績の概要	[研究の目的]代表者ならびに分担者の有する音声分析変換合成技術を基盤として、音声コミュニケーションを研究するための基盤となる対話的可視化機能を有する研究支援環境を構築することを目的とする。 [研究実施計画]多数の特許に縛られているSTRAIGHTおよび関連技術の知財から完全に独立した原理に基づく音声合成技術の実現という挑戦的な目標の一つは、研究計画の初年度においてすでに基盤が構築された。その基盤の一つは、代表者が英国Googleのグループとの協力により開発したYANG vocoderというオープンソースとして、2017年1月に公開された。また、その研究から派生した新しい複数のアルゴリズムと、それを応用した音声の対話的可視化および可聴化機能を有する音声コミュニケーション研究支援環境も、基盤となるサブシステムを実装し、試験するに至っている。このシステムは、SparkNGとして、公開され、内外の会議やワークショップでの発表とデモでの体験の提供により、大きな関心を呼んでいる。特に、SparkNGの重要な構成要素である音声生成シミュレータの拡張のために導入した藤崎らによる古典的な声帯音源モデルのアンチエリアシング化は、多くの波及効果をもたらす発見につながった。また、分担者の開発するWORLDも、STRAIGHTおよび関連技術の知財から完全に独立した原理に基づく音声合成技術のもう一つの有力なオープンソースのシステムとして、公開されている。WORLDそのものは対話的研究支援環境を追求してはいないが、オープンソースとして公開されたことにより、実際の商用システムにも利用されるに至っている。これらの成果は、システムの構築に活かされるとともに、内外の学会・研究会で発表された。また、前述の波及効果から生み出された成果2件が、来年度の国際会議への投稿にいたっている。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由本課題の提案時には、分担者の森勢によるWORLDのみが、STRAIGHTおよび関連技術の知財から完全に独立した原理に基づく音声合成技術として存在していた。ここに、代表者が英国Googleにおいて得た発想に基づくYANG vocoderが加わったことは、当初の想定を大きく超える出来事である。YANG vocoderは、音声の基本周波数分析の高度化の要請に基づいて開発された分析方法を中心としているが、その際に背景となる瞬時周波数の導出を見直すことにより、さらに新しい方法の発明に至った。これらの方法は、それぞれが高い精度を有するだけではなく、両者を組み合わせることにより、更に高精度の分析を可能とする特徴を有する。さらに、高速な計算方法を開発したことにより、対話的研究支援環境との親和性の高い実装が可能になった。また、これも計画の開始時には想定していなかったことであるが、開発環境として用いているMATLABに実時間の音声処理を可能にする拡張が行われた。これらにより、研究支援環境の基盤の整備が大きく進んだ。さらに、対話的音声研究・教育用支援環境であるSparkNGの音声生成シミュレータに、声帯音源としてFujisaki-Ljungqvistモデルを加える際のアンチエリアシング処理用に発明した余弦級数が、前述のYANG vocoderとは別の新たな分析法につながるなど、予想しなかった発展があった。このように多数の予想を超える発明／発見により、総合的には、当初の計画以上に進展していると判断する。
今後の研究の推進方策	平成29年度は最終年度であるため、平成28年度に得られた画期的成果を対話的研究支援環境の構成要素として実装し、GitHubなどの媒体を介してオープンソースとして公開することを目指す。併せて、これらの成果の社会還元のため、従来のチャンネルである学会／研究会などに加え、SNSを通じた情報の流通ならびに利用者との交流の枠組みの形成に努める。
次年度使用額が生じた理由	28年度に当初予想を大きく超える複数の発明が生じたため、それらの発明のシステムとしての実現を重点的に進めた。そのため、新たなシステムを用いた被験者による評価実験を、28年度ではなく新しいシステムが出来上がる29年度に行うこととした。その結果、次年度使用額が生じた。
次年度使用額の使用計画	新しい対話的音声研究支援環境を構築し、この次年度使用額を利用して、その新しいシステムの被験者を用いた実験を遂行する。

研究成果
(6件)

すべて 2017 2016 その他

すべて学会発表 (5件) (うち国際学会 2件) 備考 (1件)

[学会発表] Aliasing-free Fujisaki-Ljungqvist model and its application to voice quality perception2017
- 著者名/発表者名
  Hideki Kawahara, Minoru Tsuzaki, Toshie Matsui, Toshio Irino, Ken-Ichi Sakakibara
- 学会等名
  日本音響学会聴覚研究会
- 発表場所
  京都市立芸大、京都府京都市
- 年月日
  2017-03-27 – 2017-03-27
[学会発表] エリアシングの無い声帯音源モデルおよび対話的音声生成シミュレータの拡張について2017
- 著者名/発表者名
  河原英紀、榊原健一
- 学会等名
  日本音響学会春季研究発表会
- 発表場所
  明治大学生田キャンパス、神奈川県川崎市
- 年月日
  2017-03-15 – 2017-03-17
[学会発表] 瞬時周波数および群遅延に基づく非周期成分推定法再考2017
- 著者名/発表者名
  河原英紀、榊原健一、森勢将雅、坂野秀樹
- 学会等名
  情報処理学会音楽情報科学研究会
- 発表場所
  ヤマハ株式会社、静岡県浜松市
- 年月日
  2017-02-27 – 2017-02-28
[学会発表] Realtime and interactive tools for speech and hearing science education2016
- 著者名/発表者名
  Hideki Kawahara, Masanori Morise, Ryuichi Nisimura, Toshio Irino
- 学会等名
  ASA/ASJ Joint meeting
- 発表場所
  Honolulu, USA
- 年月日
  2016-11-28 – 2016-12-02
- 国際学会
[学会発表] SparkNG: Interactive MATLAB tools for introduction to speech production, perception and processing fundamentals and application of the aliasing-free LF model component2016
- 著者名/発表者名
  Hideki Kawahara
- 学会等名
  Interspeech 2017
- 発表場所
  SanFransisco, USA
- 年月日
  2016-09-08 – 2016-09-12
- 国際学会
[備考] SparkNG: Matlab realtime speech tools and
- URL
  http://www.wakayama-u.ac.jp/~kawahara/SparkNG/

2016 年度 実施状況報告書

対話的可視化可聴化に基づく音声コミュニケーション研究支援環境

研究代表者

河原 英紀 和歌山大学, 学内共同利用施設等, 名誉教授 (40294300)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Aliasing-free Fujisaki-Ljungqvist model and its application to voice quality perception2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] エリアシングの無い声帯音源モデルおよび対話的音声生成シミュレータの拡張について2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 瞬時周波数および群遅延に基づく非周期成分推定法再考2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Realtime and interactive tools for speech and hearing science education2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] SparkNG: Interactive MATLAB tools for introduction to speech production, perception and processing fundamentals and application of the aliasing-free LF model component2016

著者名/発表者名

学会等名

発表場所

年月日

[備考] SparkNG: Matlab realtime speech tools and

URL

2016 年度実施状況報告書

河原英紀和歌山大学, 学内共同利用施設等, 名誉教授 (40294300)