研究課題/領域番号 |
21H04906
|
研究機関 | 国立情報学研究所 |
研究代表者 |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
|
研究分担者 |
Kruengkrai Canasai 国立情報学研究所, コンテンツ科学研究系, 特任助教 (10895907) [辞退]
Wang Xin 国立情報学研究所, コンテンツ科学研究系, 特任准教授 (60843141)
|
研究期間 (年度) |
2021-04-05 – 2025-03-31
|
キーワード | 機械学習 / ディープフェイク / ファクトチェック / 深層学習 |
研究実績の概要 |
本物に類似したフェイクメディアが機械学習により容易に生成でき、フェイクニュース等不正確な情報も氾濫するインフォデミック時代の問題を反映した次世代メディア解析技術を研究する。具体的には以下の3課題に取り組んだ。
【課題1 説明可能な生体検知】我々は機械学習により生成されたフェイクメディアを見破る技術を世界に先駆け開発してきた。これは入力映像 ・音声・文章から真贋判定を行う自動識別技術であるが、真か偽かを機械学習により単に予測するだけでは不十分であり、なぜ偽と判定したのか、そのエビデンスを人々が理解可能な方法で提示する必要がある。そこで、本年度は音声中に部分的に合成音声が含まれる際に、その時間領域を特定・提示する手法の性能を適切に評価する指標を提案した。 【課題2 未知フェイクメディアの検出】メディア生成技術は常に変化する。それ故、未知手法によるフェイクメディアを頑健に検出しなければ 、安定的な対応は望めない。そこで我々はこれまで学習用データベース自身を自動拡張する方法などを提案してきた。本年度はフェイクメディアデータを時間をかけて収集するのではなく、擬似的に生成する新たな方法を提案し、様々な条件下のフェイクメディアデータを容易に生成する枠組みを検討した。また同時に、検知手法の汎化性能を向上させることで未知フェイクメディアへ対応させる学習方法についても提案した。 【課題3 自動ファクトチェック】入力クレームの内容が正しいかどうかを自動判定するNLPタスクとして自動ファクトチェックがある。本年度は、この自動ファクトチェックモデルを人手をかけずに多言語対応させる方法について検討した。具体的には、英語のファクトチェックコーパスFEVERを自動翻訳し、また、多言語対応した事前学習済み言語モデルを導入することで、日本語を含む複数の言語において自動ファクトチェックモデルを構築できることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
課題1、課題2、課題3の全てにおいて研究成果を挙げ、その全てがトップカンファレンスもしくはトップジャーナルに掲載されている。
|
今後の研究の推進方策 |
課題1はこれまでの研究により十分な成果を挙げてきた。そこで今後は課題2と課題3の研究を仕上げ、まとめる事を行う。
【課題2 未知フェイクメディアの検出】メディア生成技術は常に変化する。それ故、未知手法によるフェイクメディアを頑健に検出しなければ 、安定的な対応は望めないことから、これまでも幾つもの対策法を提案してきた。最終年度は、音声のSSLと呼ばれる基盤モデルを特徴量抽出用途に使いつつも、未知手法によるフェイクメディアを頑健に検出できるほどの汎化性能を維持する事を目的に、音声のSSL基盤モデルにアダプターという技術を導入する事を試みる。これにより性能と汎化性能のバランスを両立させる事を目指す。またこれまで提案してきた複数の方法を統合する事も行う。
【課題3 自動ファクトチェック】自動ファクトチェックにおいても自己アテンション技術を利用した新モデルや多言語対応した自動ファクトチェックモデルの提案を行ってきた。最終年度は、非構造化データである文章と構造化データである表とを同時に利用した自動ファクトチェックを検討する。具体的には、これまで情報源データベースとしてテキストデータのみを利用したが、 情報源データベース内に表データも多く存在することから、テキストエンコーダに加えて、表データのTransfomer型エンコーダを導入融合することで、テキストエンコーダのみの場合と比べて、予測性能が向上することを確認する。
|