2009 Fiscal Year Annual Research Report
大規模テキストから自動獲得した知識に基づく言語解析の精度向上
Project/Area Number |
21700163
|
Research Institution | Kyoto University |
Principal Investigator |
柴田 知秀 Kyoto University, 情報学研究科, 助教 (70452315)
|
Keywords | 自然言語処理 / 大規模テキスト / 知識獲得 / 同義語 / 分布類似度 |
Research Abstract |
主に以下の3点について研究を行つた。 1. 分布類似度計算 各名詞に対して共記する動詞を大規模コーパスから抽出し、例えば「医者」と「医師」がどちらも「~が診察する」「~に診てもらう」などといった動詞と共起することからこれらの2語は類似しているといった分布類似度を計算した。また、同様に、各動詞に対して共起する名詞を抽出し、「購入する」と「買う」の分布類似度を計算した。評価セットを用いて、コーパスサイズを大きくすればするほど精度が向上することを確認した。 2. 固有表現解析の精度向上 任意の名詞句に対する固有表現の解釈と、ボトムアップに最適な固有表現の解釈を行う2段階の機械学習(SVMを利用)を用いる固有表現解析器を構築した。日本語固有表現の評価として広く用いられているCRLコーパスを用いて実験を行ったところ、既存の研究を上回る精度を達成することができた。 3. Wikipediaからの上位語獲得 Wikipediaの各エントリの説明の1文目から、文末パターンを用いて、エントリの上位語を獲得した。獲得された知識としては例えば、「東京ディズニーランド」の上位語として「テーマパーク」、「松井秀喜」の上位語として「日本人メジャーリーガー」などであり、今後この知識を言語解析の精度向上に利用する。
|
Research Products
(5 results)