研究概要 |
自然言語処理の個々の問題を分類問題に定式化し,帰納学習手法を用いて解決するというアプローチは大きな成功をおさめている.しかしこのアプローチは,大量のラベル付き訓練データを必要とし,その構築コストが高いという問題がある.本研究ではこの問題の解決のために,教師なし学習を試みる.本研究で扱うタスクは語義判別問題に限定する. 本研究は教師なし学習の一種である.ここでは教師なし学習としてEMアルゴリズムを利用する.EMアルゴリズムはベルなしデータに確率付きでクラスへの帰属度を求める.機能学習手法のNaive Bayes法と組み合わせることで,語義識別規則の教師なし学習が可能となる.ただし単純にEMアルゴリズムを用いると,ある繰り返し回数以降は精度が落ちる場合がある.最適な繰り返し回数で停止させなくてはならない.その停止回数を推定する手法を考案した.この研究について国際会議1編,論文誌1編での研究発表を行なった.またベイジアンネットによる教師なし学習も試みた.ベイジアンネットはNaive Bayes法を拡張した手法ともとらえられる.Naive Bayes法は素性に対応する確率変数間の独立性を仮定するが,ベイジアンネットでは一部の確率変数間に従属性を採り入れられる.その部分の条件付き確率の学習にはラベルなしデータが利用できることを示した.この研究について国際会議1編での研究発表を行なった. また教師なし学習はクラスタリングの手法と密接に関係している.先に述べたEMアルゴリズムもクラスタリングの手法とみなせる.クラスタリングを行なう際には,単語を特徴ベクトルに直す必要があり,その際の基底のベクトルとして何を選ぶかが重要である.基底の選び方としてはコーパスをクラスタリングすることから行なえる.本年度はこのクラスタリングを行ない,実際の基底のベクトルを算出した.この研究について国際会議1編の研究発表を行なった.
|