研究課題/領域番号 |
19K12133
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 岡山大学 (2020-2021) 株式会社富士通研究所 (2019) |
研究代表者 |
馬場 謙介 岡山大学, サイバーフィジカル情報応用研究コア, 特任教授 (70380681)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2020年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2019年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | 検索 / 文書解析 / 剽窃検知 / 自然言語処理 / 分散表現 / 周波数解析 / 情報検索 / テキスト処理 / 画像処理 |
研究開始時の研究の概要 |
本研究では,大規模なデータに対する効率的な剽窃検知手法を開発する.入力文書と大量の文書との類似を高速に計算するためのデータのサイズを削減する.文書中の出現語をベクトルで表現することによって,画像のフィルタ手法のアイデアを文書に適用する.研究手順として,まず,適切な語のベクトル表現の獲得方法を開発し,文書間類似度を算出するアルゴリズムを設計する.次に,開発したアルゴリズムを実装し,剽窃検知の対象となる文書データを収集する.最後に,剽窃検知の精度,実行時間,検知用データのサイズを測定し,提案技術の効果を検証する.
|
研究成果の概要 |
大規模な文書データに対する効率的な剽窃検知手法を開発した.大量の文書に対して文書間の類似を高速に計算するには,長い計算時間か大きなサイズの検索構造が必要になるという問題点に対し,本研究では画像のフィルタ手法のアイデアを適用することで剽窃検知用データのサイズを削減した.特に,語の近さを表すベクトル表現を用いることによって,字面の単純な一致に基づく剽窃だけでなく,語間の類似を考慮した剽窃の検知について効率化を実現した.提案手法によって実現される文書間類似箇所の検知を,岡山大学の機関リポジトリ内の文書や各部署が持つ研究関連書類に適用し,研究者や研究シーズの検索機能として実装した.
|
研究成果の学術的意義や社会的意義 |
本研究の成果により,機械学習技術の大規模文書データへの適用により得られる一般的な知識を,剽窃検知という具体的な応用に利用することができるようになった.機械学習技術によって語を数値ベクトルに変換することができ,これを利用することで文書を画像のように扱うことができる.このアイデアを用いて,画像処理のうち類似する部分を網羅的に調べる手法を文書に適用することができるようになった.結果として,ある程度の曖昧さを考慮した文書間の類似部分の検知を,高速かつ省スペースで行う手法が得られた.
|