研究課題/領域番号 |
19K12133
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 岡山大学 (2020-2021) 株式会社富士通研究所 (2019) |
研究代表者 |
馬場 謙介 岡山大学, サイバーフィジカル情報応用研究コア, 特任教授 (70380681)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 検索 / 文書解析 / 剽窃検知 / 自然言語処理 / 分散表現 |
研究成果の概要 |
大規模な文書データに対する効率的な剽窃検知手法を開発した.大量の文書に対して文書間の類似を高速に計算するには,長い計算時間か大きなサイズの検索構造が必要になるという問題点に対し,本研究では画像のフィルタ手法のアイデアを適用することで剽窃検知用データのサイズを削減した.特に,語の近さを表すベクトル表現を用いることによって,字面の単純な一致に基づく剽窃だけでなく,語間の類似を考慮した剽窃の検知について効率化を実現した.提案手法によって実現される文書間類似箇所の検知を,岡山大学の機関リポジトリ内の文書や各部署が持つ研究関連書類に適用し,研究者や研究シーズの検索機能として実装した.
|
自由記述の分野 |
情報科学
|
研究成果の学術的意義や社会的意義 |
本研究の成果により,機械学習技術の大規模文書データへの適用により得られる一般的な知識を,剽窃検知という具体的な応用に利用することができるようになった.機械学習技術によって語を数値ベクトルに変換することができ,これを利用することで文書を画像のように扱うことができる.このアイデアを用いて,画像処理のうち類似する部分を網羅的に調べる手法を文書に適用することができるようになった.結果として,ある程度の曖昧さを考慮した文書間の類似部分の検知を,高速かつ省スペースで行う手法が得られた.
|