研究課題/領域番号 |
22K19777
|
研究機関 | 東北大学 |
研究代表者 |
栗林 稔 東北大学, データ駆動科学・AI教育研究センター, 教授 (50346235)
|
研究分担者 |
稲村 勝樹 広島市立大学, 情報科学研究科, 准教授 (70577395)
|
研究期間 (年度) |
2022-06-30 – 2025-03-31
|
キーワード | 切り取り処理 / フェイクニュース / セマンティクス解析 / 自然言語処理 |
研究実績の概要 |
公式に公開される動画において,悪用される恐れのある発言箇所を事前にチェックし,意図的な切り取りや切り貼り処理を事前に防ぐための手法を本研究では扱う.切り貼りされる動画の時系列は変更されるが,映像や音声,音響信号を含むコンテンツ自体は改ざんされるわけではないため,DeepFake動画の解析する従来の手法では対処できない.そこで,本研究では,ある人物がスピーチしている動画の発言箇所から文字起こしを行い,その文章を対象に解析を行うアプローチを採用する. 本年度では,切り貼り処理により元の文章の意味と異なる文章となっているか否かを判定するため,自然言語処理システムとしてLLMモデルの適用を試みた.文字起こしにより取得した元の文章に対して,手動にて作成した意味の異なる文章を複数準備し,意味が異なる程度を数値化させる手法を検討した.LLMモデルに入力するプロンプトからの質問内容を適切に設定することで数値化する手法を複数提案し,その性能を評価した.意味の異ならない正常な範囲の切り貼り文章と,意味の異なる切り貼り文章のそれぞれにおいて、数値化された値の乖離する程度を調べ,有意な違いが確認される手順となるプロンプトの作成方法を考案することができた. 意味のことなる文章を作成する際に手動では大規模なシミュレーションが行えないいことが課題となっていた.また,動画によっては,意味の異なる切り貼り自体が困難なものも存在する.そこで,自動的に作成するために動画素材を大量に収集し,意味の異なる切り貼り動画の生成の可否を確認する方法についても研究を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
意味の異なる切り貼り処理が行われた動画の問題は認知されてはいるものの,その研究自体は我々の知る限りでは過去になされておらず,そのために研究用の動作サンプルも集められていない.それゆえ,悪意のある切り貼りによって作成されたか否かを検証するための手法を考案する前の段階で,サンプル収集の困難さに直面している.一部、手動にて悪意のある切り貼りとみなされる動画を作成して,実験を進めているが,そのサンプルの妥当性に疑問が残ることから,引き続きサンプルの収集に時間を費やしているところである.
正常な範囲の切り貼り文章と,意味の異なる切り貼り文章を識別するための初期実験は終えており,考案した手法において数値上有意な違いを確認することはできたが,具体的な閾値の設定や,処理全体の流れをまとめるところには至っていない.また,意味の異なる切り貼りは許可させないようなパーミッションを設定しつつ,正常な範囲でのハイライト動画の作成の編集権を認めるための管理手法の開発は今後の課題として残されている.
|
今後の研究の推進方策 |
大規模言語モデル(LLM)を用いて,動画から文字起こしして得られた文章に対して,意味の異なる文を抜き出して切り貼り可能なものを,悪意のある切り貼り動画のサンプルとして作成するプログラムの作成までは行えている.今後,ChatGPT, Geminiなど複数のLLMを用いて,サンプルを多数作成し,交差検定などいくつかの場合分けした状況において,これまでに提案した識別手法の有効性を検証する.
また,入力された動画の切り貼りされた箇所を検出し,その前後関係を解析し,意味の異なる切り貼り処理が可能となるパターンを選出する手法を新たに考案し,前年度までの識別手法との比較を行う.
暗号技術に基づいて,切り貼りの許可・不許可を設定するアクセス制御の枠組みを考案する.特に,悪意のある編集となる判定基準となる文の組み合わせに対しては編集不可とする管理手法の枠組みを考案し,実装を進めていく.
|
次年度使用額が生じた理由 |
研究代表者が岡山大学から東北大学に異動したこともあり,予算の執行において当初の予定から変更された. 共同研究者と共に進めている研究の成果をまとめて対外発表を活発にしていく予定である.
|