2016 Fiscal Year Research-status Report
記述特徴に基づいた授業レポート用の盗用発見への深層学習の適用
Project/Area Number |
16K00476
|
Research Institution | Kobe University |
Principal Investigator |
村尾 元 神戸大学, 国際文化学研究科, 教授 (70273761)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 盗用発見 / 深層学習 / 教育支援 |
Outline of Annual Research Achievements |
本研究の目的は,授業のレポート課題に適した盗用発見システムの構築である。本研究における中心的な課題は,単一もしくは限定されたテーマに基づいて書かれた比較的短い自然言語の文章から盗用の可能性を推定する手法の開発である。このために,句読点や空白,改行との使用法や,さらには助詞や助動詞の選び方など,内容ではなく,「表面上の特徴」を抽出,これを比較することで盗用の発見を試みる。本研究では,「表面上の特徴」の抽出のために,深層学習を利用する。この際,抽出可能な特徴と密接に関係があるため,深層学習の構造決定は非常に重要である。 そこで,本年度は,Wikipediaやインターネット上の著名な解説サイトから収集した文章や,これまでの研究でも利用してきた課題レポートを対象とした実験を行い,深層学習の構造について検討を行った。具体的には,作者が明らかなこれらの文章から,句読点や空白,改行,助詞,助動詞といった「表面上の特徴」以外の形態素を,対応する品詞名で置き換える。これを入力データとし,作者を教師データとして深層学習を行う。すなわち,入力された文章に対して,その文章の作者を出力するようなニューラルネットワークを得る。 様々なニューラルネットワークの構造に対して,同様の実験を繰り返し行い,本研究の目的に利用できるようなニューラルネットワークの構造を決定した。実験では,入力層におけるWord2Vecネットワークは固定として,LSTMネットワークの層の数とそれに接続する順方向ネットワークの層の数と中間層ニューロンの数を変更した。 実験の結果,一層のWord2Vecネットワークに二層のLSTMネットワーク,三層の順方向ネットワークを結合したネットワークを採用することとした。このとき,実験に用いた文章に対する,作者判別の精度は78%であった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度の目標は,「表面上の特徴」を用いて盗用発見を行うために,(1)基本的な文章の処理方法および(2)深層学習ニューラルネットワークの構造について検討することであった。いずれも検討を進めており,研究そのものは順調に進捗していると言える。ただし,研究成果の発表については,現在準備中ではあるものの,年度内に行うことができなかった。
|
Strategy for Future Research Activity |
インターネット上の文章や従来の研究で収集したレポート課題を用いた実験では,作者の判別精度は78%であった。この精度は,盗用の可能性を示すことはできるが,盗用発見を目的として単体で利用するには,十分とは言えない。従って,深層学習ニューラルネットワークの構造の更なる調整や,HMM(隠れマルコフモデル)などこれまでの研究成果の利用なども検討する。また,内容や構造に基づく盗用発見手法と組み合わせることでさらに精度を上げることが可能と考えられる。 その後,構成した深層学習ニューラルネットワークを中心に,盗用発見システムのプロトタイプ構築を行う。これを用いて,より実際的な実験を行い,手法や運用法の検討を行う。
|
Research Products
(1 results)