2012 年度実施状況報告書

外れ値検出手法を利用したコーパスからの新語義発見

研究課題

研究課題/領域番号	23500167
研究機関	茨城大学
研究代表者	新納浩幸茨城大学, 工学部, 准教授 (10250987)
キーワード	外れ値検出 / 新語義 / LOF / 生成モデル
研究概要	本研究では、対象単語の語義が既存の語義とは異なる意味（新語義）で使われている用例をコーパスから自動発見するタスクに取り組んでいる。データマイニング分野の外れ値検出の手法を利用すること、教師データを使うことが特徴である。本研究では研究期間内(3年間)で、(1) 語義識別問題の従来手法を新語義発見に用いる際の問題点を明らかにする、(2) LOF におけるタグ付き用例の利用方法を提案する、(3) One Class SVM におけるタグ付き用例の利用方法を提案する、(4) 確率モデル、LOF、One Class SVM の検出結果を総合して最終的な検出結果を求める、の4点を行う計画である。昨年度までに (1),(2),(3) をほぼ終了させ、主に、教師付き LOF、教師付き One Class SVM の手法を提案し、その効果や問題点を調べた。結果、教師付き One Class SVM は設定すべきパラメータがセンシティブであるため実用的には使えないことがわかった。本年度は、新たに生成モデルを利用することを試みた。上記(4) の確率モデルに対応すもの者である。本研究では教師データを利用できるという設定なので、Naive Bayes の手法を応用することで対象単語の用例の生成確率を算出できる。その確率が極端に低いものを外れ値とするという手法である。教師付き LOF と組み合わせて利用することで、新語義の検出能力がかなり向上した。従来の外れ値検出手法との比較実験も行い、この結果を言語処理学会の論文誌に投稿したところ受理され、論文誌１件の成果が得られた。新納浩幸,佐々木稔,"外れ値検出手法を利用した新語義の検出",自然言語処理,Vol.19, No.4, pp.303-327 (2012).
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由当初の研究計画では、研究期間内で、(1) 語義識別問題の従来手法を新語義発見に用いる際の問題点を明らかにする、(2) LOF におけるタグ付き用例の利用方法を提案する、(3) One Class SVM におけるタグ付き用例の利用方法を提案する、(4) 確率モデル、LOF、One Class SVM の検出結果を総合して最終的な検出結果を求める、の4点を行う計画であった。現在までのところ、この4点はほぼ完了した。研究の総まとめとして論文誌に本研究の成果を投稿し、受理された。この結果から達成度はかなり高いと判定する。
今後の研究の推進方策	研究目的であった教師付き外れ値検出による新語義検出は、当初想定した手法での成果は得られ、ほぼ完了したといえる。ただし実験は SemEval-2010 の日本語語義曖昧性解消タスクのデータを利用して手法の有効性を示したのみである。そのため現実に新語義が検出できるかどうかの実験がなされていない。そのため今後は提案した手法を改良・拡張しながら、実際のコーパスで新語義の検出を試すことを行う。また外れ値検出の手法は非常に多く提案されているため、新たな手法も試す。特に確率密度比を用いた手法は有望であるため、この手法を教師データを利用した形に改良する。また新語義検出は応用が広い。重要な応用としてネット隠語の検出がある。ネット隠語とは「レンコン」（拳銃の意味）、「豆」（弾丸の意味）のように特定の関係者にしか分からない特別の味を持つ語であり、このような語を含むページは犯罪性があったり、有害情報を含んだりする可能性が高く、その自動検出技術が望まれている。このようなネット隠語は語義は既存の語義ではないので、その検出には新語義検出の技術が応用できる。ネット隠語の検出を１つの応用として、本手法の応用も試みる。
次年度の研究費の使用計画	特に高額な物品の購入計画はない。研究費は、主に、研究成果発表あるいは情報収集のための学会参加費やその旅費に利用する。その他、評価用データの構築のために学生アルバイト(5万円程度)を計画している。また 10万円程度のデータ処理用のパソコンを1台購入する。

研究成果
(4件)

すべて 2013 2012

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件)

[雑誌論文] 外れ値検出手法を利用した新語義の検出2012
- 著者名/発表者名
  新納浩幸,佐々木稔
- 雑誌名
  
  自然言語処理
  
  巻: 19 ページ: 303-327
- 査読あり
[学会発表] ミドルソフトタグのトピック素性を利用した語義曖昧性解消2013
- 著者名/発表者名
  國井慎也, 新納浩幸, 佐々木稔
- 学会等名
  言語処理学会第19回年次大会
- 発表場所
  名古屋大学
- 年月日
  20130312-20130315
[学会発表] サポートベクターマシンに基づくHit Miss Networkを用いたインスタンス選択2013
- 著者名/発表者名
  小幡智裕, 佐々木稔, 新納浩幸
- 学会等名
  言語処理学会第19回年次大会
- 発表場所
  名古屋大学
- 年月日
  20130312-20130315
[学会発表] Word Sense Disambiguation Based on Distance Metric Learning from Training Documents2012
- 著者名/発表者名
  Minoru Sasaki and Hiroyuki Shinnou
- 学会等名
  The Sixth International Conference on Advances in Semantic Processing
- 発表場所
  バルセロナ
- 年月日
  20120923-20120928

2012 年度 実施状況報告書

外れ値検出手法を利用したコーパスからの新語義発見

研究代表者

新納 浩幸 茨城大学, 工学部, 准教授 (10250987)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 外れ値検出手法を利用した新語義の検出2012

著者名/発表者名

雑誌名

[学会発表] ミドルソフトタグのトピック素性を利用した語義曖昧性解消2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] サポートベクターマシンに基づくHit Miss Networkを用いたインスタンス選択2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Word Sense Disambiguation Based on Distance Metric Learning from Training Documents2012

著者名/発表者名

学会等名

発表場所

年月日

2012 年度実施状況報告書

新納浩幸茨城大学, 工学部, 准教授 (10250987)