• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

文書の画像的処理による効率的な剽窃検知手法の開発

研究課題

研究課題/領域番号 19K12133
研究機関岡山大学

研究代表者

馬場 謙介  岡山大学, サイバーフィジカル情報応用研究コア, 特任教授 (70380681)

研究期間 (年度) 2019-04-01 – 2022-03-31
キーワード文書解析 / 剽窃検知 / 分散表現 / 周波数解析
研究実績の概要

本研究の目的は,大規模なデータに対する効率的な剽窃検知手法を開発することである.大量の文書に対して文書間の類似を高速に計算するには,大きなデータサイズの検索構造が必要になるという問題点に対し,本研究では画像のフィルタ手法のアイデアを適用することで剽窃検知用データのサイズを削減する.特に,語の近さを表すベクトル表現を用いることによって,字面の単純な一致に基づく剽窃だけでなく,語間の類似を考慮した剽窃の検知について効率化を目指す.
具体的に,本研究では語の出現順に加え語間の類似を考慮した剽窃検知についての画像的処理によるデータ削減効果を明らかにする.語の意味を表すベクトル表現によって,文書はベクトルの列として扱うことができる.ここで周波数成分について特定の領域のみを用いることにより,剽窃検知精度,計算時間,および剽窃検知用データのサイズの間の効率的なトレードオフが得られるかを検証する.
上記アイデアに基づき,2020年度は具体的な剽窃検知システムの実装を行った.画像のフィルタ手法のアイデアに基づく剽窃検知手法を実装し,一般的な文書について適用可能なプログラムを完成させた.また,比較対象として,一般的な索引による文書検索手法に語のベクトル表現を適用する手法を実装した.さらに,文書に対するフィルタリングという本課題のアイデアを発展させて,周波数成分の変化から文書の話題の変換を推定する手法を発案し,特許として出願した.

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

2020年度には,「剽窃検知システムの開発」として「文書データ収集・剽窃サンプル作成」および「剽窃検知アルゴリズム実装」と,「実験による評価」として「実験データ収集・分析」の一部を行う予定であった.このうち「剽窃検知システムの開発」については,概ね計画通りに進んだ.2019年度に個別のモジュールとして完成させた剽窃検知アルゴリズムについて,入出力および各種性能の評価のためのインターフェイスの実装を行った.「実験データ収集・分析」および,実装したシステムをこれらに適応させる部分が未完成である.
進捗がやや遅れている理由は,研究実施者が所属を移ったことにより人的リソースが十分に確保できなかったためである.既に2020年度後半には研究環境が整ったため,今度計画通り研究を進めることができる.

今後の研究の推進方策

2021年度は「実験データ収集・分析」を行う.実験データを収集し,2020年度までに開発した剽窃検知システムの評価を行う.剽窃検知の精度,実行時間,検知用データのサイズの測定を行う.従来技術との比較および組み合わせによる影響を調べ,提案技術の効果を検証する.その後,研究課題最終年度として,学術論文や特許として成果をまとめる.
現在学術研究会等への参加による情報収集や成果発表が困難になっている点を考慮して,オンラインによる情報収集や学術論文誌への投稿を重点的に行い,研究費の執行も当初計画から適宜調整する.

次年度使用額が生じた理由

研究代表者の所属機関変更により研究の進捗が遅れたため.

  • 研究成果

    (1件)

すべて 2020

すべて 産業財産権 (1件)

  • [産業財産権] 変化検出プログラム、変化検出装置及び変化検出方法2020

    • 発明者名
      馬場謙介
    • 権利者名
      富士通株式会社
    • 産業財産権種類
      特許
    • 産業財産権番号
      特願2020-085172

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi