2013 Fiscal Year Annual Research Report
Project/Area Number |
23500167
|
Research Institution | Ibaraki University |
Principal Investigator |
新納 浩幸 茨城大学, 工学部, 准教授 (10250987)
|
Keywords | 外れ値 / 新語義 / BCCWJ / LOF / 生成モデル |
Research Abstract |
本研究では、対象単語の語義が既存の語義とは異なる意味(新語義)で使われている用例をコーパスから自動発見するタスクに取り組んだ。データマイニング分野の外れ値検出の手法を利用すること、教師データを使うことが特徴である。研究期間内(3年間)で、(1) 語義識別問題の従来手法を新語義発見に用いる際の問題点を明らかにする、(2) LOF におけるタグ付き用例の利用方法を提案する、(3) One Class SVM におけるタグ付き用例の利用方法を提案する、(4)確率モデル、LOF、One Class SVM の検出結果を総合して最終的な検出結果を求める、の4点を行う計画をたてた。各項目は計画通りに実施でき、最終的には対象単語の用例の生成確率が極端に低いものを外れ値とするという手法と教師付き LOF とを組み合わせて利用した新語義検出手法を提案した。これは言語処理学会の論文誌に採択された。 また最終年度には、本研究から得られた外れ値度合いの算出法が、語義曖昧性解消の領域適応の問題に応用できることを示した。これは語義曖昧性解消の領域適応ではソース領域の用例がターゲット領域においてどの程度重要かを算出することが鍵であり、その重要度を外れ値度合いから推定するものである。この語義曖昧性解消の領域適応に関する研究も、論文誌に採択された。 外れ値検出は大きな自然言語処理の多くのタスクにおいて、様々な応用が可能であり、重要な技術である。今後は本研究で得られた知見を他の自然言語処理のタスクに活用する。
|