2012 Fiscal Year Annual Research Report
Project/Area Number |
24800049
|
Research Institution | Kyushu University |
Principal Investigator |
周 秉慧 九州大学, システム情報科学研究院, 学術研究員 (50636793)
|
Project Period (FY) |
2012-08-31 – 2013-03-31
|
Keywords | 侵害検知 / グラフ変換 / グラフマッチング |
Research Abstract |
本研究の目標は,パラフレーズによる文書剽窃・侵害を検知するために,同じ意味をもつが語彙や語順が大いに異なる侵害文書を検出できる新しい検知手法を開発し,計算機システムとして実装し実データで提案手法の有効性を示すことである.本年度は,テキスト文書をグラフに変換しグラフマッチングに基づく検知手法を開発し,実文書データに適用してその性能を調べた.はじめに,単語間の文法関係を表現するために,物体間の関係を表すデータ構造であるグラフを使い,経験的なグラフ変換ルールを提案した.この変換手法は,文中の名詞と動詞/前置詞をそれぞれノードとエッジに変換し,テキストを直観に合うグラフ構造に変換する.提案手法により,同じ意味をもつ異なる文書を類似しているグラフ構造に変換できることを示した.次に,グラフ間の類似している部分グラフ構造を文書間の剽窃・侵害と見なし,グラフのinexactマッチング手法を開発した.自然言語表現の多様性を考慮した部分グラフ間の類似度を提案し,さらにその類似度に基づく発見アルゴリズムを開発した.提案した類似度では,WordNetという概念辞書を利用して単語の同義語と類義語を検出することにより,異なる語彙を使用した侵害文書を検出することができる.実テキストデータを使った実験では,提案手法は2種類の既存手法に比較して,最も高い適合率の値を示し再現率の値を10%向上した.
|