主に以下の3点について研究を行つた。 1. 分布類似度計算 各名詞に対して共記する動詞を大規模コーパスから抽出し、例えば「医者」と「医師」がどちらも「~が診察する」「~に診てもらう」などといった動詞と共起することからこれらの2語は類似しているといった分布類似度を計算した。また、同様に、各動詞に対して共起する名詞を抽出し、「購入する」と「買う」の分布類似度を計算した。評価セットを用いて、コーパスサイズを大きくすればするほど精度が向上することを確認した。 2. 固有表現解析の精度向上 任意の名詞句に対する固有表現の解釈と、ボトムアップに最適な固有表現の解釈を行う2段階の機械学習(SVMを利用)を用いる固有表現解析器を構築した。日本語固有表現の評価として広く用いられているCRLコーパスを用いて実験を行ったところ、既存の研究を上回る精度を達成することができた。 3. Wikipediaからの上位語獲得 Wikipediaの各エントリの説明の1文目から、文末パターンを用いて、エントリの上位語を獲得した。獲得された知識としては例えば、「東京ディズニーランド」の上位語として「テーマパーク」、「松井秀喜」の上位語として「日本人メジャーリーガー」などであり、今後この知識を言語解析の精度向上に利用する。
|