研究概要 |
1.コーパスの構築法と公開法の法的検討 前年度の考察より,Web上の論文の複製は,「私的使用のための複製」には該当しないと考えられる.一方,著作権法の改正(の権利制限規定の追加)があり,平成22年1月に改正法が施行されることとなった.これには情報解析のための複製が盛り込まれている.そこで,この改正でWeb上の論文収集と構築しようとしているコーパスの公開法としてどのような方法が許されるかを検討し,コーパス構築およびその公開の目途が立った. 2.Web上の論文に対する母語話者論文(N)/非母語話者論文(NN)の判別器の性能評価 前年度作成の論文収集システムにより,993編の論文を収集し,これらの英語の質を英文校正会社に依頼して判定してもらい,このデータを基に判別器の性能評価を行った.精度を重視するようにメタパラメタを設定したときのN判定に対する精度,再現率はそれぞれ94%,25%であり,NN判定に対する精度,再現率はそれぞれ92%,22%であった. 3.Web上の論文収集(システムの改良と収集) 前年度作成の論文収集システムを用いて実際に論文収集を行った.その結果,非効率的であり,さらにアクセス制限上の問題もあることがわかった.これを解決するため,クローラーを用いる手法をやめ,Web検索エンジン(Yahoo API)を用いた手法を考案し,1ヶ月間で,usドメイン,jpドメイン双方から,それぞれ約2万の論文を収集した. 4.不自然な共起表現の指摘法の検討 前年度用いた英文校正会社により判定された英語の質情報付きの1281論文を用いて,非母語話者論文中の不自然な共起表現の抽出実験を行った.分担者が所属する大学の英語教師の協力で抽出された表現を調査した結果,想定している手法では不自然さの判定が困難であることが判明したため,新たな手法を検討した.
|