研究課題/領域番号 |
18K18052
|
研究機関 | 東京都立産業技術大学院大学 |
研究代表者 |
黄 緒平 東京都立産業技術大学院大学, 産業技術研究科, 助教 (20734114)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 電子透かし / 改ざん検出 / 成りすまし検出 / プライバシー保護 / 音声信号処理 / 攻撃への耐性 |
研究実績の概要 |
機械学習の発展により,声紋から声を生成する技術や特定の人物の声を最大限模擬できる音声合成に関する研究が盛んに行われた.Youtubeやソーシャルネットワークを通じて音声付メッセージやビデオのインターネット配信が容易になり,ソーシャルネットワーク及び自由に移動・撮影できる携帯やドローンなどの録音・録画装置が高速に普及し,その場で採取したデータが高速通信方式にて転送・共有される.この背景において,原話者の声を模擬・再現・発声・変声させることで,個人の許可を得ず今まで横行したオレオレ詐欺などの不正利用が社会的な脅威に成り得る.従来の解決策として話者識別が提案されているが,音声合成技術の発展により,原音と最大限に近似できる模擬音声が合成され,今までの話者識別に使われる混合ガウス分布モデルなどを用いて分析しても,オリジナル話者と偽話者の特徴値の違いを区別出来なくなった. 申請者はこれまで、原音の音質を維持したまま高周波数成分の拡張により特徴値を埋め込むことで,改竄検出を可能にする研究を行ってきた.本研究は話者の個人プライバシー情報を保護し,録音データから取得する声紋などの個人情報から話者を特定されにくいよう,音声匿名化手法を提案する.更に,音声コンテンツの偽造の検出,話者の成りすましを高精度に識別出来る電子透かし手法を新たに提案する.また,攻撃への耐性を考慮しながら埋め込み領域をアダプティブに選定し,原音に依存せず話者成りすましの判別とデータの真偽をブラインドかつ高精度に検出できる電子透かし手法を確立する. 本研究は,冤罪防止のため,データの音質を保証しながら,話者成りすまし及びコンテンツへの不正加工を高精度に識別できる技術を提案することで,より安心な社会基盤の構築に役に立つ.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
令和2年度は主に新たな音声保護における声紋匿名手法について展開し,実証実験した上,その結果を国内の学術会議にて成果公開を行った.国内会議予稿集1報及び口頭発表を行った. 主な発表概要について,音質の劣化を抑えつつ,差分プライバシーの理論を用い,雑音摂動によって声紋保護を図った.具体的に,時系列に雑音生成及び付加を避け,リバーシブルな整数コサイン変換を用い,音声データを時間領域から周波数領域へ変換し,変換過程のアルゴリズムを雑音生成メカニズムとして,ラプラス分布に従う雑音を生成する.高周波数領域のDCT成分の振幅が小さく,この対策によって,セキュリティユーティリティを保証しながらより振幅の小さい雑音を生成することができた.ノイズ摂動を行った後,声紋解析及び音質評価を行い,匿名を確保できる上,音声の劣化を人間の聴覚システムに感知できないことが分かった. 業績の展開がやや遅れていることから,自己点検による評価を「やや遅れている」とした.
|
今後の研究の推進方策 |
今後は深層学習分野において,機械にデータを誤って認識させる敵対的摂動(Adversarial Attacks)について取り組んで行きたい.これまで申請者の提案手法ではわずかなノイズを生成し摂動を行った.その原理は人間の聴覚システムには判別できない雑音を加えることで原音の声紋を他人の許可なく取得を防ぐことができるようになった.敵対的摂動の原理を利活用することによって,大規模なデータから個人の声紋を機械に特定させない目的は本研究のフューチャーワークとする.また,令和元年で研究拡張したDCT成分の整数回転によるデータの秘匿手法も引き続き探る予定である.更に,これまでの国際会議プロシーディング業績を中心に整理し,より一層発展させ,国際会議やジャーナル成果の発表に重心を置きながら努めていきたい.
|
次年度使用額が生じた理由 |
論文まとめや成果展開がやや遅れていたため,出費を大幅縮小した.また,国内外会議への参加・調査研究,当初予定していた主観評価等の研究プロセスがコロナ禍におかれて,実施できなかったため. 令和3年度はオンラインでの主観評価システムの構築に注力し,研究計画に沿って実施できなかった研究に重心を置きながら研究を展開していきたい.
|