研究概要 |
情報学研究所が主催している情報検索に関する国際会議の特許文書の共通タスクの題材である特許コーパスを構文解析し,動詞とそれに係る2つの名詞句の対からなる意味関係のトークンを約7億個抽出した.このデータを用いて,動詞と名詞の係り受けの自然さを評価するため,データのスムージングのアルゴリズムを考案した.データのスムージングは,コーパス中に現れなかった動詞と名詞の組がどの程度自然であるかを見積もるためにはなくてはならないものである.本研究では,単に動詞と名詞の組ではなく,動詞に係っている2つの各詞の組み合わせがどの程度自然であるかを図ることができる枠組みを提案した.データのスムージングの手法として,確率的潜在意味インデックス(PLSI)に基づく手法と共起空間上でのk-最近傍法に基づく新しいアルゴリズムを提案して両者の比較実験を行い,提案したアルゴリズムがPLSIよりも有意に優れた結果を与えることを示した. 今後は,実験を通じてこのアルゴリズムの有効性を確認するとともに,改良点の可能性を探っていく.
|