2008 Fiscal Year Annual Research Report
Project/Area Number |
08F08367
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 Nara Institute of Science and Technology, 情報科学研究科, 教授
|
Co-Investigator(Kenkyū-buntansha) |
FRANCISC Calvo 奈良先端科学技術大学院大学, 情報科学研究科, 外国人特別研究員
|
Keywords | 述語項構造 / 選択制約 / 知識獲得 / 常識的知識 / 共起空間 / 意味解析 |
Research Abstract |
情報学研究所が主催している情報検索に関する国際会議の特許文書の共通タスクの題材である特許コーパスを構文解析し,動詞とそれに係る2つの名詞句の対からなる意味関係のトークンを約7億個抽出した.このデータを用いて,動詞と名詞の係り受けの自然さを評価するため,データのスムージングのアルゴリズムを考案した.データのスムージングは,コーパス中に現れなかった動詞と名詞の組がどの程度自然であるかを見積もるためにはなくてはならないものである.本研究では,単に動詞と名詞の組ではなく,動詞に係っている2つの各詞の組み合わせがどの程度自然であるかを図ることができる枠組みを提案した.データのスムージングの手法として,確率的潜在意味インデックス(PLSI)に基づく手法と共起空間上でのk-最近傍法に基づく新しいアルゴリズムを提案して両者の比較実験を行い,提案したアルゴリズムがPLSIよりも有意に優れた結果を与えることを示した. 今後は,実験を通じてこのアルゴリズムの有効性を確認するとともに,改良点の可能性を探っていく.
|