2012 Fiscal Year Research-status Report
Project/Area Number |
23500167
|
Research Institution | Ibaraki University |
Principal Investigator |
新納 浩幸 茨城大学, 工学部, 准教授 (10250987)
|
Keywords | 外れ値検出 / 新語義 / LOF / 生成モデル |
Research Abstract |
本研究では、対象単語の語義が既存の語義とは異なる意味(新語義)で使われている用例をコーパスから自動発見するタスクに取り組んでいる。データマイニング分野の外れ値検出の手法を利用すること、教師データを使うことが特徴である。本研究では研究期間内(3年間)で、(1) 語義識別問題の従来手法を新語義発見に用いる際の問題点を明らかにする、(2) LOF におけるタグ付き用例の利用方法を提案する、(3) One Class SVM におけるタグ付き用例の利用方法を提案する、(4) 確率モデル、LOF、One Class SVM の検出結果を総合して最終的な検出結果を求める、の4点を行う計画である。昨年度までに (1),(2),(3) をほぼ終了させ、主に、教師付き LOF、教師付き One Class SVM の手法を提案し、その効果や問題点を調べた。結果、教師付き One Class SVM は設定すべきパラメータがセンシティブであるため実用的には使えないことがわかった。本年度は、新たに生成モデルを利用することを試みた。上記(4) の確率モデルに対応すもの者である。本研究では教師データを利用できるという設定なので、Naive Bayes の手法を応用することで対象単語の用例の生成確率を算出できる。その確率が極端に低いものを外れ値とするという手法である。教師付き LOF と組み合わせて利用することで、新語義の検出能力がかなり向上した。従来の外れ値検出手法との比較実験も行い、この結果を言語処理学会の論文誌に投稿したところ受理され、論文誌1件の成果が得られた。 新納浩幸,佐々木稔,"外れ値検出手法を利用した新語義の検出",自然言語処理,Vol.19, No.4, pp.303-327 (2012).
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の研究計画では、研究期間内で、(1) 語義識別問題の従来手法を新語義発見に用いる際の問題点を明らかにする、(2) LOF におけるタグ付き用例の利用方法を提案する、(3) One Class SVM におけるタグ付き用例の利用方法を提案する、(4) 確率モデル、LOF、One Class SVM の検出結果を総合して最終的な検出結果を求める、の4点を行う計画であった。現在までのところ、この4点はほぼ完了した。研究の総まとめとして論文誌に本研究の成果を投稿し、受理された。この結果から達成度はかなり高いと判定する。
|
Strategy for Future Research Activity |
研究目的であった教師付き外れ値検出による新語義検出は、当初想定した手法での成果は得られ、ほぼ完了したといえる。ただし実験は SemEval-2010 の日本語語義曖昧性解消タスクのデータを利用して手法の有効性を示したのみである。そのため現実に新語義が検出できるかどうかの実験がなされていない。そのため今後は提案した手法を改良・拡張しながら、実際のコーパスで新語義の検出を試すことを行う。また外れ値検出の手法は非常に多く提案されているため、新たな手法も試す。特に確率密度比を用いた手法は有望であるため、この手法を教師データを利用した形に改良する。また新語義検出は応用が広い。重要な応用としてネット隠語の検出がある。ネット隠語とは「レンコン」(拳銃の意味)、「豆」(弾丸の意味)のように特定の関係者にしか分からない特別の味を持つ語であり、このような語を含むページは犯罪性があったり、有害情報を含んだりする可能性が高く、その自動検出技術が望まれている。このようなネット隠語は語義は既存の語義ではないので、その検出には新語義検出の技術が応用できる。ネット隠語の検出を1つの応用として、本手法の応用も試みる。
|
Expenditure Plans for the Next FY Research Funding |
特に高額な物品の購入計画はない。研究費は、主に、研究成果発表あるいは情報収集のための学会参加費やその旅費に利用する。その他、評価用データの構築のために学生アルバイト(5万円程度)を計画している。また 10万円程度のデータ処理用のパソコンを1台購入する。
|