Project/Area Number |
21H04906
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | National Institute of Informatics |
Principal Investigator |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
|
Co-Investigator(Kenkyū-buntansha) |
Wang Xin 国立情報学研究所, コンテンツ科学研究系, 特任准教授 (60843141)
Kruengkrai Canasai 国立情報学研究所, コンテンツ科学研究系, 特任助教 (10895907)
|
Project Period (FY) |
2021-04-05 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥41,990,000 (Direct Cost: ¥32,300,000、Indirect Cost: ¥9,690,000)
Fiscal Year 2024: ¥8,840,000 (Direct Cost: ¥6,800,000、Indirect Cost: ¥2,040,000)
Fiscal Year 2023: ¥9,750,000 (Direct Cost: ¥7,500,000、Indirect Cost: ¥2,250,000)
Fiscal Year 2022: ¥10,400,000 (Direct Cost: ¥8,000,000、Indirect Cost: ¥2,400,000)
Fiscal Year 2021: ¥13,000,000 (Direct Cost: ¥10,000,000、Indirect Cost: ¥3,000,000)
|
Keywords | シンセティックメディア / ディープフェイク検出 / 自動ファクトチェック / 音声情報処理 / 自然言語処理 / 機械学習 / ディープフェイク / ファクトチェック / 深層学習 / 説明可能AI / media clone / deepfake detection / fact checking |
Outline of Research at the Start |
本課題の核心をなす学術的問いは、「A Iによるフェイクメディアに加え、フェイクニュース等不正確な情報が氾濫するインフォデミック時代の今、どの様に、人々に正しいメディアや情報を提示する事ができるか?」である。そこで、以下の3つの課題に取り組む。 課題1 単純な真贋判定に加え、理解可能な根拠を人々へ説明可能な生体検知技術の実現 課題2 既知のメディア生成手法だけでなく、常に進化・改良されるメディア生成手法に対して、高精度に検知を行うフェイクメディア検出法の理論的枠組みの定式化と実現 課題3 クレームが科学的に正しいかどうかを自動判定する技術「自動ファクト照合」と相補的な融合を行ったメディア解析技術実現
|
Outline of Annual Research Achievements |
本物に類似したフェイクメディアが機械学習により容易に生成でき、フェイクニュース等不正確な情報も氾濫するインフォデミック時代の問題を反映した次世代メディア解析技術を研究する。具体的には以下の3課題に取り組んだ。
【課題1 説明可能な生体検知】我々は機械学習により生成されたフェイクメディアを見破る技術を世界に先駆け開発してきた。これは入力映像 ・音声・文章から真贋判定を行う自動識別技術であるが、真か偽かを機械学習により単に予測するだけでは不十分であり、なぜ偽と判定したのか、そのエビデンスを人々が理解可能な方法で提示する必要がある。そこで、本年度は音声中に部分的に合成音声が含まれる際に、その時間領域を特定・提示する手法の性能を適切に評価する指標を提案した。 【課題2 未知フェイクメディアの検出】メディア生成技術は常に変化する。それ故、未知手法によるフェイクメディアを頑健に検出しなければ 、安定的な対応は望めない。そこで我々はこれまで学習用データベース自身を自動拡張する方法などを提案してきた。本年度はフェイクメディアデータを時間をかけて収集するのではなく、擬似的に生成する新たな方法を提案し、様々な条件下のフェイクメディアデータを容易に生成する枠組みを検討した。また同時に、検知手法の汎化性能を向上させることで未知フェイクメディアへ対応させる学習方法についても提案した。 【課題3 自動ファクトチェック】入力クレームの内容が正しいかどうかを自動判定するNLPタスクとして自動ファクトチェックがある。本年度は、この自動ファクトチェックモデルを人手をかけずに多言語対応させる方法について検討した。具体的には、英語のファクトチェックコーパスFEVERを自動翻訳し、また、多言語対応した事前学習済み言語モデルを導入することで、日本語を含む複数の言語において自動ファクトチェックモデルを構築できることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
課題1、課題2、課題3の全てにおいて研究成果を挙げ、その全てがトップカンファレンスもしくはトップジャーナルに掲載されている。
|
Strategy for Future Research Activity |
課題1はこれまでの研究により十分な成果を挙げてきた。そこで今後は課題2と課題3の研究を仕上げ、まとめる事を行う。
【課題2 未知フェイクメディアの検出】メディア生成技術は常に変化する。それ故、未知手法によるフェイクメディアを頑健に検出しなければ 、安定的な対応は望めないことから、これまでも幾つもの対策法を提案してきた。最終年度は、音声のSSLと呼ばれる基盤モデルを特徴量抽出用途に使いつつも、未知手法によるフェイクメディアを頑健に検出できるほどの汎化性能を維持する事を目的に、音声のSSL基盤モデルにアダプターという技術を導入する事を試みる。これにより性能と汎化性能のバランスを両立させる事を目指す。またこれまで提案してきた複数の方法を統合する事も行う。
【課題3 自動ファクトチェック】自動ファクトチェックにおいても自己アテンション技術を利用した新モデルや多言語対応した自動ファクトチェックモデルの提案を行ってきた。最終年度は、非構造化データである文章と構造化データである表とを同時に利用した自動ファクトチェックを検討する。具体的には、これまで情報源データベースとしてテキストデータのみを利用したが、 情報源データベース内に表データも多く存在することから、テキストエンコーダに加えて、表データのTransfomer型エンコーダを導入融合することで、テキストエンコーダのみの場合と比べて、予測性能が向上することを確認する。
|