研究課題/領域番号 |
26330244
|
研究機関 | 茨城大学 |
研究代表者 |
新納 浩幸 茨城大学, 工学部, 教授 (10250987)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 語義曖昧性解消 / 領域適応 / 共変量シフト / 確率密度比 / 重み付き学習 / 外れ値検出 |
研究実績の概要 |
自然言語処理の各種タスクにおいて教師付き学習手法が利用されるが、多くの場合、領域適応の問題が生じてしまう。一方、機械学習の分野では共変量シフト下の学習が近年大きく進展した。共変量シフト下の学習は領域適応に対して利用可能であるが、自然言語処理の分野ではほとんど用いられていない。本研究では語義曖昧性解消の領域適応の問題に対して、共変量シフト下の学習を利用する。その際には確率密度比の算出と重み付き学習法がポイントであるが、それら実現法を具体的に提案する。また共変量シフト下の学習を語義曖昧性解消の領域適応の問題に適用する際に生じる問題点を指摘し、外れ値検出手法を利用した対策案も提示する。 26年度は語義曖昧性解消の領域適応の問題を題材に、共変量シフト下の学習の利用方法を示すことを計画した。確率密度比の算出は Naive Bayes 法を利用した簡易なものと、確率密度比を直接モデル化する手法である拘束無し最小二乗重要度適合法を試した。どちらも最終的な識別精度をわずかにしか改善できなかった。問題を分析し、新たな確率密度比の算出法を提案した。具体的にはターゲット領域のコーパスとソース領域のコーパスを合わせたコーパスを、新たにソース領域のコーパスと見なす手法を提案した。この研究は論文誌に採択された。また重み付き学習に関しては、通常の最大エントロピー法ではなく SVM を利用することで識別精度がかなり改善できることも示した。これを研究会で発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究の目的は語義曖昧性解消の領域適応の問題に対して、共変量シフト下の学習を利用することである。この点ではいくつかの研究発表を行い、実際に利用できることを示すことができた。またそのうちの研究1件が論文誌に採択されたので、達成度としては高い。また直接、確率密度比を算出する手法として有望な拘束無し最小二乗重要度適合法も試し、自身で提案した算出法の優位性も示した。また重み付き学習としても通常の最大エントロピー法ではなく、SVM を利用したことで識別の精度を大きく改善できることも示すことができた。
|
今後の研究の推進方策 |
26年度の研究を通して、語義曖昧性解消の領域適応の問題に対して、共変量シフト下の学習を利用する際には、確率密度比の算出、重み付き学習の方法の他に、Misleading データの検出という問題が存在することが判明した。Misleading データとは識別精度を悪化させるようなラベル付きデータである。領域適応において生じる特徴的な問題である。 確率密度比の算出と重み付き学習の方法は、引き続き計画に沿って研究を行うが、Misleading データの検出についても同時に研究をしてゆく。領域間の距離やラベルの分布間の距離が関係していると予想しており、それらを精度よく測る手法を考案する予定である。
|
次年度使用額が生じた理由 |
投稿はしたが採録されなかった国際会議論文が3件あった。計画ではその3件の国際会議への旅費として約30万円をあてていたが、採録されなかったために、それら国際会議への参加は見送った。そのために次年度使用額約30万円が生じた。
|
次年度使用額の使用計画 |
採録されなかった国際会議論文を書き直し、別の国際会議に投稿する。ヨーロッパで開催される会議であるため、その旅費として次年度使用額約30万円をあてる。
|