研究概要 |
単語間の共起関係としての言語の性質を、数量的に表現する方法を探索した。具体的な方法として、Nグラム共起頻度行列の特異値分解に基づき、単語と構文状態を線形空間上に配置する方法を検討した。Nグラム共起頻度行列は、そのi行j列要素が、i番目の構文状態いおいて、j番目の単語が生起する頻度に対応する行列である。Nグラム共起頻度行列Xの特異値分解X=USV'(ただし()'は行列の転置)により、L×Rの直交行列UとM×Rの直交行列VおよびR×Rの対角行列Sとが得られる。Rは行列Xのランクである。2つの直交行列U,Vを縦ベクトルとみると、そのベクトル要素はそれぞれ構文状態と,単語に対応するR次元ベクトルと見なすことができる。これらのベクトルをu_iv_jなどと書き、構文状態i、単語番号jに対応付けて考えると,構文状態における単語の生起頻度が,ベクトル間のSの対角成分σを重みとするスカラ積ΣU_<ik>σ_kV_<kj>で与えられる。このことは、特異値分解により得られたR次元のベクトル空間上に、単語、構文状態のそれぞれが射影され、重みつきスカラ積を距離尺度とすることで、単語間の共起関係としての言語の性質をその空間により余すことなくモデル化可能であることを示している。この言語の空間表現の妥当性を検証するために、重み付きスカラ積で与えられる距離空間上で、単語と構文状態のクラスタリングを行なう実験を行なった。新聞記事1年分で作成された共起頻度行列から構成した線形距離空間上でのクラスタリング結果と、隣接単語との共起に関する情報量を基準に行なったクラスタリングの結果を比較したところ、パラメータ当たりのエントロピーでは、線形距離空間上でのクラスタリングにおいてより良い結果得られ、提案手法の有効性が確認された。
|