Research Abstract |
自然言語文の構文解析では,一般に,一つの入力文に対して文法的には正しい複数の統語構造が得られ,しかもその多くの統語構造は意味的に不自然である.意味的に不自然な統語構造を排除する代表的な解決法として,語の共起性(たとえば日本語では,名詞nが格助詞cを伴って動詞vに係り得るか否か)を利用した方法がある. ところが,共起性を持つ語の組は膨大である.それらを,人間が列挙するのも困難であるし,また,構文解析済の言語コーパスから,『共起が観測された語の組は共起性がある』として,自動的に抽出したとしても,共起性を持つ語の組の極一部しか収集されない. 本研究では,観測された共起性を持つ語の組を基にして,観測されていない未知の語の組に対する共起性の判定を行う手法を開発した.本手法は,係る語をユークリッド空間上の点(ワードベクトル)に対応させ,これを説明変量,係の種類(あるいはこれを規定する格助詞などの機能語)fと係られる語wの組<f,w>を目的変量とする重回帰モデルに基づくものであり,回帰式に現れる重みだけではなく,係る語のワードベクトルも同時に学習する手法である.学習データは観測された共起性を持つ語の組(つまり,正例)のみであるため,観測されないすべての組を負例として扱いモデルのパラメタは,『正例に対する推定二乗誤差+α*不例に対する推定二乗誤差』とし,これが極小になるように求める(αは学習データのサイズに依存するα<1なる定数).共起が観測されていない語の組に対して人間が共起するか否かを指定したテストデータに対して,68%の正解率を得た.比較的出現頻度の高い語の組に限るならば82%であった.なお,計画当初は,<f', w'>に対する共起性を説明変量として,<f, w>に対する共起性を推定する数量化II類の拡張を考えていたが,モデルとしての妥当性や計算量を検討した結果上記のように変更した.
|