研究課題/領域番号 |
23500167
|
研究機関 | 茨城大学 |
研究代表者 |
新納 浩幸 茨城大学, 工学部, 准教授 (10250987)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | 新語義 / 外れ値検出 / LOF / 生成モデル / WSD / WIS |
研究概要 |
対象単語の用例集合からその単語の語義が新語義となっている用例を検出する研究を行っている。新語義の用例は用例集合内の外れ値と考え、データマイニング分野の外れ値検出の手法を利用する。ただし少量の用例には対象単語の語義タグが付与されているという教師付きの設定で行う。 まず、新語義検出の従来手法である WSD による手法とWIS による手法を調査し、それら手法の問題点を整理した。WSD による手法は、推定した語義の信頼度を利用して新語義を検出するが、その信頼度は他のデータとの相対的な値になるために検出がうまくいくとは限らない。またWIS による手法は、用例集合を対象単語の語義に基づいてクラスタリングするが、陽に新語義を検出するためには得られたクラスタに語義を付与する必要があり、WSD と同じ問題が生じる。また新語義の用例がクラスタを生成するほど多く存在すると考えるのは不自然である。一方、外れ値検出手法は上記のような問題がない。また新語義の用例がない、あるいは微量という仮定をおいており、これは自然である。 次に外れ値検出手法を2つ提案し、それら出力の共通部分をとる手法を試みた。第1の提案手法は、代表的な外れ値検出手法である LOF を教師付きの枠組みに拡張する手法である。概略、教師付きの用例は外れ値ではないために、その密度を高くする。これは教師付きの用例を増やしていくことに対応しており、自然である。第2の提案手法は、用例の生成モデルを構築したことである。生成モデルが構築できれば、その用例が現れる確率が求まり、その確率の小ささで外れ値かどうかを判定できる。 SemEval-2 の日本語 WSD タスクのデータで新語義検出の評価を行い、従来手法よりも検出能力が高いことを確認した。この成果は言語処理学会第18回年次大会で発表し、論文誌にも投稿した(現在査読中)。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
申請時では H23年度の計画は、用例集合内から対象単語の新語義を検出する従来手法の調査であった。特に WSD の手法を用いた研究を調査することが計画であった。 実際は WSD の手法の調査の他に、WIS の手法も調査できた。H24年度に計画していた LOF の拡張手法も実装し、従来手法よりも検出能力が高いことを実験により示すこともできた。 ほぼ2年分の計画を1年で行ったことになり、十分目標は達成できたと考える。ただ成果としては研究会1本、年次大会5本の発表と論文誌投稿1件(現在査読中)にとどまり、国際会議での発表を行えなかったことが反省点である。
|
今後の研究の推進方策 |
申請時に提案した手法は実装し、その有効性もほぼ確認できたが、同時に問題点や改良点も明らかになった。今後2年間は、その問題点の解決や改良点の実現に向けた研究を行う。 まず改良点として、これまでの研究では外れ値検出手法を組み合わせて利用したが、その組み合わせ方が単純に出力の共通部分をとるというものであった。その組み合わせ方をもっと高度なものにする。H23年度では拡張 LOF と生成モデルを組み合わせたが、それら手法の検出はかなり異なる。そのため、共通部分を取ると再現率がかなり下がるが、その分、精度は上がり、結果的に F値による評価は上がる。組み合わせ方を改良すれば、再現率をあげられると予想している。複数の外れ値検出手法を組み合わせる従来研究として外れ値検出手法のバギングというものがあるので、その研究での知見を本研究に利用する予定である。 また問題点としては LOF のパラメータの問題がある。LOF には k-距離と呼ばれる距離測度を利用するが、この k の値によって検出結果がかなり異なる。このために最適な k の値を推定する必要がある。クラスタの大きさを変化させ、そのクラスタの密度の変化の様子から、最適な k が推定できると予想しており、その研究に取り組む。
|
次年度の研究費の使用計画 |
次年度の研究費は間接経費を除くと150万円である。以下の使用を計画している。 本研究を遂行するために、特別大きな物品は必要なく、研究費は主に研究発表や情報収集のために、国際会議や国内の研究会に参加するための旅費に使う予定である。海外出張旅費として 70万円、国内出張旅費として 20万円を計画している。同時にそれら会議への参加費も必要である。その費用はその他の項目(論文別刷代金等、15万円計画)内でまかなう。 また本研究では新語義発見のための語義タグ付き用例を作成しなくてはならない。対象単語は500単語を計画している。各単語の語義を岩波辞書で調べ、各語義に対して用例を5つ以上作成する。この用例作成のために学生アルバイトを利用する。1時間 1,000円として、2名の学生で 75時間/人を予定する。これにより研究補助謝礼は合計 15 万円(= 0.1×75×2)である。また消耗品としてポータブル利用のノートパソコン 10万円、計算機消耗品として 12万円およびパソコンソフト 8万円を計画している。
|