2019 Fiscal Year Research-status Report
Privacy preserved acoustic-falsification detection and speaker verification
Project/Area Number |
18K18052
|
Research Institution | Advanced Institute of Industrial Technology |
Principal Investigator |
黄 緒平 産業技術大学院大学, 産業技術研究科, 助教 (20734114)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 電子透かし / 成りすまし検出 / 改竄検出 / 攻撃への耐性 / 安心社会 |
Outline of Annual Research Achievements |
機械学習の発展により,声紋から声を生成する技術や特定の人物の声を最大限模擬できる音声合成に関する研究が盛んに行われた.Youtubeやソーシャルネットワークを通じて音声付メッセージやビデオのインターネット配信が容易になり,ソーシャルネットワーク及び自由に移動・撮影できる携帯やドローンなどの録音・録画装置が高速に普及し,その場で採取したデータが高速通信方式にて転送・共有される.この背景において,原話者の声を模擬・再現・発声・変声させることで,個人の許可を得ず今まで横行したオレオレ詐欺などの不正利用が社会的な脅威に成り得る.従来の解決策として話者識別が提案されているが,音声合成技術の発展により,原音と最大限に近似できる模擬音声が合成され,今までの話者識別に使われる混合ガウス分布モデルなどを用いて分析しても,オリジナル話者と偽話者の特徴値の違いを区別出来なくなった. 申請者はこれまで、原音の音質を維持したまま高周波数成分の拡張により特徴値を埋め込むことで,改竄検出を可能にする研究を行ってきた.本研究は話者の個人プライバシー情報を保護し,録音データから取得する声紋などの個人情報から話者を特定されにくいよう,音声匿名化手法を提案する.更に,音声コンテンツの偽造の検出,話者の成りすましを高精度に識別出来る電子透かし手法を新たに提案する.また,攻撃への耐性を考慮しながら埋め込み領域をアダプティブに選定し,原音に依存せず話者成りすましの判別とデータの真偽をブラインドかつ高精度に検出できる電子透かし手法を確立する. 本研究は公共の場でも自由に会話できるプライバシー保護を実現する.また,冤罪防止のため,データの音質を保証しながら,話者成りすまし及びコンテンツへの不正加工を高精度に識別できる技術を提案することで,より安心な社会基盤の構築に役に立つ.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
令和元年度は主に新たな音声保護及び医療データの匿名性の二つのサブテーマについて展開し,実証実験した上,その結果を国内外の学術会議にて成果公開を行った.具体的にはジャーナル1報(採録済),国際会議発表2件,プロシーディング1報,国内会議予稿集1報,ポスター発表2件を行った. 主な発表概要について,業績1)では音声信号の声紋保護について周波数領域及び時間領域にてLaplaceノイズ及びSNRの調整可能なGaussianノイズを原音に付加することによって,音源の匿名化手法を提案し,比較評価を行った.整数変換後の周波数領域のDCT成分による雑音摂動は従来法より安全性を確保したまま声紋の匿名化を実現でき,音質への影響を抑えることができた.また,LaplaceノイズはGaussianノイズ(SNR=30 dB)より同等な匿名ユーティリティを確保できる一方,生成される雑音はより小さく,計算への影響及び誤差を抑えることができることが分かった. 業績2)では局所画像特徴量SIFT回転やスケール変形に頑丈である特徴を利用し,医療データのカルテ画像のSIFT特徴点を検出し,可逆整数コサイン変換を用い,整数回転を行うことにより,埋め込み場所を決め,患者情報のセンシティブなデータをカルテ画像に埋め込む手法を提案した.256*256ピクセルの胸部X-Rayモノクロ写真の特徴点の中央値,最頻値等に基づいて回転(角度α=-10,5,10,20)をそれぞれ行い,元データと比べ画質の劣化,計算時間及びエントロピーを指標に評価を行った.その結果,特徴点の中央値からα=-10回転した場合のPSNRは51.584dBと高画質を維持しながら128bpsデータの埋め込みができた.同手法を音声整数コサイン変換後(DCT)の高低周波数の成分ペアへの適応について実装を行い,音声声紋の保護への活用を探っている段階である.
|
Strategy for Future Research Activity |
今後は深層学習分野において,機械にデータを誤って認識させる敵対的摂動(Adversarial Attacks)について取り組んで行きたい.これまで申請者の提案手法ではわずかなノイズを生成し摂動を行った.その原理は人間の聴覚システムには判別できない雑音を加えることで原音の声紋を他人の許可なく取得を防ぐことができるようになった.敵対的摂動の原理を利活用することによって,大規模なデータから個人の声紋を機械に特定させない目的は本研究のフューチャーワークとする.また,令和元年で研究拡張したDCT成分の整数回転によるデータの秘匿手法も引き続き探る予定である.更に,これまでの国際会議プロシーディング業績を中心に整理し,より一層発展させ,ジャーナル成果の発表に重心を置きながら努めていきたい.
|
Causes of Carryover |
次年度使用額が生じた理由としては物品費と人件費・謝金が計画通りに使用していなかったためである.計画の際にはこれらを信号採集及び処理の際に使用する設備備品,音質の主観評価を行う際の謝金などに充当する予定であるが,令和年度は研究実施の際には,主にアルゴリズムの開発を行い,評価に関しては公開データベースの音声データを利用し,プログラミングによる客観評価手法を用いたため,経費の利用をしていなかった. 次年度には計画通り,設備備品費については音声サンプル採集時に様々な使用場面を想定した各端末対応の集音マイクの収録,音質の主観評価の際に,公正公平な評価を行うため,ハードウェアによる誤差を引き起こさないように,再生帯域の広いスピーカーを必要備品として購入する予定である.また,実際の使用シナリオを想定した録音データの採集も計画の実施により適宜な段階で行いたい.その際に音声サンプルの採集や主観評価などの謝金に経費を利活用していきたい.
|
Research Products
(6 results)