研究課題/領域番号 |
19K12133
|
研究機関 | 岡山大学 |
研究代表者 |
馬場 謙介 岡山大学, サイバーフィジカル情報応用研究コア, 特任教授 (70380681)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 文書解析 / 剽窃検知 / 分散表現 / 周波数解析 |
研究実績の概要 |
本研究の目的は,大規模なデータに対する効率的な剽窃検知手法を開発することである.大量の文書に対して文書間の類似を高速に計算するには,大きなデータサイズの検索構造が必要になるという問題点に対し,本研究では画像のフィルタ手法のアイデアを適用することで剽窃検知用データのサイズを削減する.特に,語の近さを表すベクトル表現を用いることによって,字面の単純な一致に基づく剽窃だけでなく,語間の類似を考慮した剽窃の検知について効率化を目指す. 具体的に,本研究では語の出現順に加え語間の類似を考慮した剽窃検知についての画像的処理によるデータ削減効果を明らかにする.語の意味を表すベクトル表現によって,文書はベクトルの列として扱うことができる.ここで周波数成分について特定の領域のみを用いることにより,剽窃検知精度,計算時間,および剽窃検知用データのサイズの間の効率的なトレードオフが得られるかを検証する. 上記アイデアに基づき,2020年度は具体的な剽窃検知システムの実装を行った.画像のフィルタ手法のアイデアに基づく剽窃検知手法を実装し,一般的な文書について適用可能なプログラムを完成させた.また,比較対象として,一般的な索引による文書検索手法に語のベクトル表現を適用する手法を実装した.さらに,文書に対するフィルタリングという本課題のアイデアを発展させて,周波数成分の変化から文書の話題の変換を推定する手法を発案し,特許として出願した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2020年度には,「剽窃検知システムの開発」として「文書データ収集・剽窃サンプル作成」および「剽窃検知アルゴリズム実装」と,「実験による評価」として「実験データ収集・分析」の一部を行う予定であった.このうち「剽窃検知システムの開発」については,概ね計画通りに進んだ.2019年度に個別のモジュールとして完成させた剽窃検知アルゴリズムについて,入出力および各種性能の評価のためのインターフェイスの実装を行った.「実験データ収集・分析」および,実装したシステムをこれらに適応させる部分が未完成である. 進捗がやや遅れている理由は,研究実施者が所属を移ったことにより人的リソースが十分に確保できなかったためである.既に2020年度後半には研究環境が整ったため,今度計画通り研究を進めることができる.
|
今後の研究の推進方策 |
2021年度は「実験データ収集・分析」を行う.実験データを収集し,2020年度までに開発した剽窃検知システムの評価を行う.剽窃検知の精度,実行時間,検知用データのサイズの測定を行う.従来技術との比較および組み合わせによる影響を調べ,提案技術の効果を検証する.その後,研究課題最終年度として,学術論文や特許として成果をまとめる. 現在学術研究会等への参加による情報収集や成果発表が困難になっている点を考慮して,オンラインによる情報収集や学術論文誌への投稿を重点的に行い,研究費の執行も当初計画から適宜調整する.
|
次年度使用額が生じた理由 |
研究代表者の所属機関変更により研究の進捗が遅れたため.
|