研究課題/領域番号 |
19K12133
|
研究機関 | 株式会社富士通研究所 |
研究代表者 |
馬場 謙介 株式会社富士通研究所, その他部局等, 研究員(移行) (70380681)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 文書解析 / 剽窃検知 / 分散表現 / 周波数解析 |
研究実績の概要 |
本研究の目的は大規模なデータに対する効率的な剽窃検知手法を開発することである.大量の文書に対して文書間の類似を高速に計算するには,大きなデータサイズの検索構造が必要になるという問題点に対し,本研究では画像のフィルタ手法のアイデアを適用することで剽窃検知用データのサイズを削減する.特に,語の近さを表すベクトル表現を用いることによって,字面の単純な一致に基づく剽窃だけでなく,語間の類似を考慮した剽窃の検知について効率化を目指す. 具体的に,本研究では語の出現順に加え語間の類似を考慮した剽窃検知についての画像的処理によるデータ削減効果を明らかにする.語の意味を表すベクトル表現によって,文書はベクトルの列として扱うことができる.ここで周波数成分について特定の領域のみを用いることにより,剽窃検知精度,計算時間,および剽窃検知用データのサイズの間の効率的なトレードオフが得られるかを検証する.2019年度は,このために語のベクトル表現についてのサーベイを行った. 提案技術において語間の類似を考慮するためには,語の近さを表すベクトル表現を用いる.このため,語のベクトル表現とその獲得手法についてサーベイを行い,本研究で用いるための候補を選定した.また,語のベクトル表現全般に適用可能な文書間類似度算出アルゴリズムを実装した.さらに,比較対象として単純に想定できる,一般的な索引による文書検索手法に語のベクトル表現を適用する手法を開発した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究計画で2019年度に予定していた項目は,「剽窃検知アルゴリズムの設計」として「語のベクトル表現サーベイ」および「文書間類似度算出アルゴリズム実装」であった.この2件については概ね計画通り実行できた.2019年度はさらに,「剽窃検知システムの開発」として「文書データ収集・剽窃サンプル作成」および「剽窃検知アルゴリズム実装」の一部を実行予定であったが,現在のところ「文書データ収集・剽窃サンプル作成」について滞っている.この点で研究進捗としてはやや遅れている. また,上記研究を行った上での研究成果の対外発表が滞っており,現時点で関連技術についての特許出願1件のみである.これについては,サーベイの結果として得た提案手法の比較対象となる手法が概ね既存手法で十分であると判断したことによる.
|
今後の研究の推進方策 |
研究計画では2020年度に,「剽窃検知システムの開発」として「文書データ収集・剽窃サンプル作成」および「剽窃検知アルゴリズム実装」と,「実験による評価」として「実験データ収集・分析」の一部を行う予定である.今後は,2019年度に実行予定であった「文書データ収集・剽窃サンプル作成」を行い,その後「実験データ収集・分析」を行う.また,現在個別のモジュールとして完成している剽窃検知アルゴリズムについて,サンプルデータと実験データに適応した統合的なシステムとして完成させる. また,現在学術研究会等への参加による情報収集や成果発表が困難になっている点を考慮して,オンラインによる情報収集や学術論文誌への投稿を重点的に行い,研究費の執行も当初計画から適宜調整する.
|
次年度使用額が生じた理由 |
物品費については,大量のデータを用いた実験のための開発作業が遅れており,2020年度以降に執行予定である.
|