2021 Fiscal Year Final Research Report
Efficient Plagiarism Detection Based on Image Processing for Documents
Project/Area Number |
19K12133
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Okayama University (2020-2021) FUJITSU LABORATORIES LTD. (2019) |
Principal Investigator |
Baba Kensuke 岡山大学, サイバーフィジカル情報応用研究コア, 特任教授 (70380681)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 検索 / 文書解析 / 剽窃検知 / 自然言語処理 / 分散表現 |
Outline of Final Research Achievements |
We developed an efficient plagiarism detection method for large-scale document data. Fast computation of similarity over documents for large data requires long computation time or large-size data structure. To solve the problem, we applied the idea of filters for images to documents, to reduce the size of plagiarism detection data. By using a vector representation of words, the proposed method can detect not only plagiarism based on simple string matching, but also plagiarism based on word similarity. We applied the proposed method to documents in the institutional repository of Okayama University and research-related documents owned by each department and implemented it as a search system for researchers and research seeds.
|
Free Research Field |
情報科学
|
Academic Significance and Societal Importance of the Research Achievements |
本研究の成果により,機械学習技術の大規模文書データへの適用により得られる一般的な知識を,剽窃検知という具体的な応用に利用することができるようになった.機械学習技術によって語を数値ベクトルに変換することができ,これを利用することで文書を画像のように扱うことができる.このアイデアを用いて,画像処理のうち類似する部分を網羅的に調べる手法を文書に適用することができるようになった.結果として,ある程度の曖昧さを考慮した文書間の類似部分の検知を,高速かつ省スペースで行う手法が得られた.
|