平成24年度は、「訓練データからの語義別コロケーション抽出と、それを考慮した語義識別モデル構築法の検討」についての研究を行った。語義別コロケーション抽出では、新語義も含めたあまり出現しない語義の用例抽出を行うが必要ある。そのため、用例文集合から対象単語が特異な使用をしている用例を検索する手法の開発を行った。この手法は、国際会議 LREC2012 において発表し、低頻度語義を持つ用例の特徴を分析し、それを含む用例を効率的に抽出することを実証した。 また、訓練データからの語義別コロケーションを抽出するためには、正解語義が割り振られた用例文集合に対し、用例文間の類似性を測定することが重要な課題となる。そのため、用例間類似度を語義ラベルに応じて学習する手法の開発を行った。実験データについては、これまでの研究で利用した「Semeval2010日本語語義曖昧性タスク」で使われたコーパスを利用することで、多種多様な単語について実験を行うことができた。この手法は、国際会議 SEMAPRO2012 において発表し、開発した用例間類似度を利用することで、従来の類似度尺度よりも高い語義識別精度が得られたことを実証した。 平成25年度は、語義別コロケーションを考慮した共起ベクトルの構築手法の検討」について研究を行った。語義毎に抽出したコロケーション情報を、他の特徴と組み合わせてベクトル表現をするのが難しい。そのため、コロケーションなどの複数語の共起を既存手法で得られる単語共起ベクトルの空間に組み込む手法の開発を行った。「Semeval2010日本語語義曖昧性タスク」で語義識別実験を行った結果、この手法を利用して複数語からなるコロケーション情報が語義識別に対して効果的であることを実証した。この手法は国際会議 NLP-2014 において発表し、この手法の妥当性と課題について議論を行った。
|