複数の半球状のくぼみを有する球状マイクロホンバッフルを用い,360°画像に代表される多視点映像に対応した立体音を付与するための全方向バイノーラル録音装置と,立体音響信号の生成法の検討を行った。 本年度得られた成果は,1) 複数のくぼみ内で観測される音響信号の統合方法の改良,2) 生成される立体音響信号の評価に向けた音像定位モデルの検討である。 これまでに線形関数と3次スプライン関数を用いた加重平均を取る音響信号の統合方法を提案した。本年度はこれらに加え,べき関数,三角関数による重み係数の導入,ならびに3次スプライン関数の制御点を変更し,比較検討を行った。多視点映像の視聴では,音源を常に視線方向に位置させるように視聴するという仮定の下では,線形関数,3次スプライン関数,三角関数が平均スペクトル歪 3 dB 程度の良好な統合精度を達成した。さらに,視線方向に音源が位置しない条件下では,3次スプライン関数,三角関数を用いた場合に良好な精度を得た。これらの結果,本システムでは,3次スプライン関数,ならびに三角関数を用いた重み係数の利用が適切であることが示された。 また,生成した音響信号の評価には,主観評価実験を行うことが適当であると考えられるが,主観評価は被験者の時間的,身体的な負担が大きい。そのため,機械による代替が可能か基礎的な検討を進めた。音像定位モデルには深層学習を導入し,評価を行った。結果から,学習データと音響的性質が近い評価データは,95 % 以上の音像定位正解率を得たが,残響時間の違いなど音響的性質が異なる評価データを用いた場合に,音像定位正解率は 35 % 程度となった。また,左右の混同がみられるなど,人間による音像定位結果とは異なる定位結果も現れたことから,主観評価を機械で代替するためには,学習データやネットワーク構造など多くの検討課題があることが明らかとなった。
|