研究概要 |
本研究では、対象単語の語義が既存の語義とは異なる意味(新語義)で使われている用例をコーパスから自動発見するタスクに取り組んでいる。データマイニング分野の外れ値検出の手法を利用すること、教師データを使うことが特徴である。本研究では研究期間内(3年間)で、(1) 語義識別問題の従来手法を新語義発見に用いる際の問題点を明らかにする、(2) LOF におけるタグ付き用例の利用方法を提案する、(3) One Class SVM におけるタグ付き用例の利用方法を提案する、(4) 確率モデル、LOF、One Class SVM の検出結果を総合して最終的な検出結果を求める、の4点を行う計画である。昨年度までに (1),(2),(3) をほぼ終了させ、主に、教師付き LOF、教師付き One Class SVM の手法を提案し、その効果や問題点を調べた。結果、教師付き One Class SVM は設定すべきパラメータがセンシティブであるため実用的には使えないことがわかった。本年度は、新たに生成モデルを利用することを試みた。上記(4) の確率モデルに対応すもの者である。本研究では教師データを利用できるという設定なので、Naive Bayes の手法を応用することで対象単語の用例の生成確率を算出できる。その確率が極端に低いものを外れ値とするという手法である。教師付き LOF と組み合わせて利用することで、新語義の検出能力がかなり向上した。従来の外れ値検出手法との比較実験も行い、この結果を言語処理学会の論文誌に投稿したところ受理され、論文誌1件の成果が得られた。 新納浩幸,佐々木稔,"外れ値検出手法を利用した新語義の検出",自然言語処理,Vol.19, No.4, pp.303-327 (2012).
|